June 22

今天终于敢说自己会用Transformer了
不容易
按照教程写了一遍
后面为了Mask SelfAttention又做了一些试验
总算明白了Decoder是怎么模拟RNN的
应该是世界上最好的Transformer教程
明天可以尽情看别的

我也懒得做翻译了直接看情报抽取算了