Commit 779855da by zengxin

attention new

parent 1b9bc5f8
#### transformer
#### transformer
......@@ -19,6 +19,7 @@ https://www.bilibili.com/video/BV1vf4y1n7k2?spm_id_from=333.337.search-card.all.
#### Linformer,2020,arxiv,引用377,Facebook AI
* 低秩注意力机制,o(n)的时间和空间复杂度
*
#### Linear Transformer,2020【Fast autoregressive transformers with linear attention】,326引用,Idiap Research Institute, Switzerland,ICML
......@@ -49,7 +50,7 @@ https://www.bilibili.com/video/BV1vf4y1n7k2?spm_id_from=333.337.search-card.all.
#### SELF-ATTENTION DOES NOT NEED O(n 2 ) MEMORY, arxiv,2021,google research,4引用
* 提出了一个简单的注意力算法,只需要o(lgn)的内存,对于长度为16384的序列,自注意机制所需要的内存减少了59倍
*
* 分段式计算
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论