mamba模块的简单原理
本文记录Mamba模型的学习。参考资料
提出的目的
新的模型的出现,必然是为了解决过去模型的不足。
- Transformer在预测工作时,需要计算之前所有tokens的自注意力矩阵,这个工作的计算量时相当大的。也就是说预测时速度很慢,但是由于Transformer可以并行计算,所以训练非常快。
- RNN 推理快,但是训练慢(不能并行计算),而且记忆时间不长。
那么我们就想有一种模型,训练也快推理也快。还有一定的记忆时长。
由简入深
-
状态空间模型
-
离散化:零阶保持器
-
循环表示
循环表示用来推理 -
卷积表示
卷积表示用来训练 -
结构化状态空间模型(S4)
引入HiPPO(Hungering Hungry Hippo),用来使得A保持大容量记忆。 -
其它改进
有选择地保留信息(Selectively Retain Information)
扫描操作(The Scan Operation)
硬件感知算法(Hardware-aware Algorithm)
All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.