本文记录Mamba模型的学习。参考资料

提出的目的

新的模型的出现,必然是为了解决过去模型的不足。

  1. Transformer在预测工作时,需要计算之前所有tokens的自注意力矩阵,这个工作的计算量时相当大的。也就是说预测时速度很慢,但是由于Transformer可以并行计算,所以训练非常快。
  2. RNN 推理快,但是训练慢(不能并行计算),而且记忆时间不长。
    那么我们就想有一种模型,训练也快推理也快。还有一定的记忆时长。

由简入深

  1. 状态空间模型

  2. 离散化:零阶保持器

  3. 循环表示
    循环表示用来推理

  4. 卷积表示
    卷积表示用来训练

  5. 结构化状态空间模型(S4)
    引入HiPPO(Hungering Hungry Hippo),用来使得A保持大容量记忆。

  6. 其它改进
    有选择地保留信息(Selectively Retain Information)
    扫描操作(The Scan Operation)
    硬件感知算法(Hardware-aware Algorithm)