word2vec-summarize

盒子在日本

2020-05-18

Daily, Study

总结一下word2vec的知识

首先是input层: one-hot vector
属于Localist representation, 和Distributed Representations正相反
后者在20世纪80年代时候才兴起

说到Distributed Representations
意思是，一个concept分布到不同的unit
相反在localist representation里，一个concept对应到一个unit

有了input层，接下来是projection layer
连接input和projection layer的是weights: W(1)
W(1)实质上就是一个words对应到Distributed Representations的table

然后输出层的unit个数等于input层
每一个单元输出的是对应单词出现在对应位置的概率
所有单元加起来等于1

连接输出层和projction layer的是W(2)
W(2)可以理解成一个table
记录从feature对应到指定单词的权重

最后是backprop
loss函数是什么呢？
因为我们有corpus，所以有确切的统计数据: 一个词出现在另一个词附近的概率
用这个减去预测概率，然后使用squared error

有了这些知识我应该可以手动实现这个算法了才对，试一下
设定一个计划: