RNNの派生手法#
RNNの研究まとめ#
RNN・LSTMの弱点は、並列化に向かず計算が高速化できないことだった → Transformerがそれを回避できて重宝された
Manbaなど、並列計算可能で高速な手法が提案されている
派生手法#
Manba(S6)#
構造化状態空間モデル(S4)を改善した 選択的状態空間モデル(Selective SSM:Selective State Space Model)でS6とも呼ばれている様子
状態空間モデルが盛り上がり、いくつかサーベイ論文も出ている
【Mamba入門】Transformerを凌駕しうるアーキテクチャを解説(独自の学習・推論コード含む) #Python - Qiita
minLSTM, minGRU#
[2410.01201] Were RNNs All We Needed?
簡素化して並列計算できるように改良したLSTMとGRUを提案