波波算法笔记

Bob Peng

Transformer的一点回顾学习

2025-04-01
Transformer的一点回顾学习

Transformer的一点回顾学习

这几天打算整理一下学过的知识。手写笔记整理+代码理解 ,记录自己的学习

transformer

包括 笔记代码

详细的代码

如果有不明白的地方,可以看代码加深理解!!!

https://github.com/phbst/notes/blob/main/transformer!%20(1)/transformer.ipynb  
  

分享自己的笔记

transformer架构以及数据流

这里写错了一点: 下三角的掩码矩阵是在训练阶段的decoder的子注意力阶段进行,防止看到未来信息。

不同阶段注意力

小细节