Commit 3258681d by zengxin

长序列

parent 7172e717
#### transformer
#### transformer
......@@ -21,17 +21,20 @@ https://www.bilibili.com/video/BV1vf4y1n7k2?spm_id_from=333.337.search-card.all.
* 低秩注意力机制,o(n)的时间和空间复杂度
*
#### Linear Transformer,2020【Fast autoregressive transformers with linear attention】,326引用,Idiap Research Institute, Switzerland,ICML
#### Linear Transformer,2020【**Transformers are RNNs:**Fast autoregressive transformers with linear attention】,326引用,Idiap Research Institute, Switzerland,ICML
* O(N)
* https://zhuanlan.zhihu.com/p/157490738?from_voters_page=true
#### big bird,2020,461引用,NeurIPS,Google Research
* 稀疏注意力机制,降低注意力机制的存储【原注意力存储为n^2,这个稀疏注意力的存储为线性】
#### Random Feature Attention ,2021,ICLR,87引用,华盛顿大学**Hao Peng**
* 线性时间复杂度
#### big bird,2020,461引用,NeurIPS,Google Research
* 稀疏注意力机制,降低注意力机制的存储【原注意力存储为n^2,这个稀疏注意力的存储为线性】
*
#### luna,**Linear Unified Nested Attention**,2021,19个引用,NeurIPS,美国南加州大学ISI实验室
......@@ -54,9 +57,11 @@ https://www.bilibili.com/video/BV1vf4y1n7k2?spm_id_from=333.337.search-card.all.
### 模型结构改进方面
#### transformer-xl,2019
#### transformer-xl,2019,ACL,
* 背景(别人怎么做的,有什么局限)
* 具体方法
......@@ -68,12 +73,13 @@ https://www.bilibili.com/video/BV1vf4y1n7k2?spm_id_from=333.337.search-card.all.
* 评估时比transformer快1800倍
* 下一步优化方向是什么
#### reformer,2020
#### reformer,2020,ICLR
* 使用局部敏感哈希注意力机制,降低注意力的计算复杂度,时间复杂度和空间复杂度都是O(nlogn)
* 使用可逆的残差网络(可减少参数)
* 内存效率更高,对长序列处理时速度更快
* Linformer,2020描述了该方法的缺点【只有当长度大于2048时,才会有效率提升,此外Reformer的多轮哈希方法实际上增加了顺序操作的数量,这进一步削弱了它们最终的效率收益】
* 为了能够使用LSH, Reformer将key约束为与query相同,因此该方法不能用于解码Key与query不同的任务
#### informer
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论