word2vec-summarize
总结一下word2vec的知识
首先是input层: one-hot vector
属于Localist representation, 和Distributed Representations正相反
后者在20世纪80年代时候才兴起
说到Distributed Representations
意思是,一个concept分布到不同的unit
相反在localist representation里,一个concept对应到一个unit
有了input层,接下来是projection layer
连接input和projection layer的是weights: W(1)
W(1)实质上就是一个words对应到Distributed Representations的table
然后输出层的unit个数等于input层
每一个单元输出的是对应单词出现在对应位置的概率
所有单元加起来等于1
连接输出层和projction layer的是W(2)
W(2)可以理解成一个table
记录从feature对应到指定单词的权重
最后是backprop
loss函数是什么呢?
因为我们有corpus,所以有确切的统计数据: 一个词出现在另一个词附近的概率
用这个减去预测概率,然后使用squared error
有了这些知识我应该可以手动实现这个算法了才对,试一下
设定一个计划:
- 首先写代码计算XOR(主要目的是确认backprob)