长序列

3258681d · zengxin · 7172e717 · 3258681d · 3258681d
Commit 3258681d authored Jun 04, 2022 by zengxin
--- a/长序列transformer/readme.md
+++ b/长序列transformer/readme.md
-#### transformer
+#### transformer
@@ -21,17 +21,20 @@ https://www.bilibili.com/video/BV1vf4y1n7k2?spm_id_from=333.337.search-card.all.
 * 低秩注意力机制，o(n)的时间和空间复杂度
 * 

-#### Linear Transformer,2020【Fast autoregressive transformers with linear attention】，326引用，Idiap Research Institute, Switzerland，ICML
+#### Linear Transformer,2020【**Transformers are RNNs:**Fast autoregressive transformers with linear attention】，326引用，Idiap Research Institute, Switzerland，ICML

 * O（N）
+* https://zhuanlan.zhihu.com/p/157490738?from_voters_page=true
+
+#### big bird,2020，461引用，NeurIPS，Google Research
+
+* 稀疏注意力机制，降低注意力机制的存储【原注意力存储为n^2，这个稀疏注意力的存储为线性】

 ####  Random Feature Attention ，2021，ICLR，87引用，华盛顿大学**Hao Peng**

 * 线性时间复杂度

-#### big bird,2020，461引用，NeurIPS，Google Research
-
-* 稀疏注意力机制，降低注意力机制的存储【原注意力存储为n^2，这个稀疏注意力的存储为线性】
+* 

 #### luna，**Linear Unified Nested Attention**,2021，19个引用，NeurIPS，美国南加州大学ISI实验室

@@ -54,9 +57,11 @@ https://www.bilibili.com/video/BV1vf4y1n7k2?spm_id_from=333.337.search-card.all.



+
+
 ### 模型结构改进方面

-#### transformer-xl，2019
+#### transformer-xl，2019，ACL，

 * 背景（别人怎么做的，有什么局限）
 * 具体方法
@@ -68,12 +73,13 @@ https://www.bilibili.com/video/BV1vf4y1n7k2?spm_id_from=333.337.search-card.all.
  * 评估时比transformer快1800倍
 * 下一步优化方向是什么

-#### reformer，2020
+#### reformer，2020，ICLR

 * 使用局部敏感哈希注意力机制，降低注意力的计算复杂度，时间复杂度和空间复杂度都是O(nlogn)
 * 使用可逆的残差网络（可减少参数）
 * 内存效率更高，对长序列处理时速度更快
 * Linformer,2020描述了该方法的缺点【只有当长度大于2048时，才会有效率提升，此外Reformer的多轮哈希方法实际上增加了顺序操作的数量，这进一步削弱了它们最终的效率收益】
+* 为了能够使用LSH, Reformer将key约束为与query相同，因此该方法不能用于解码Key与query不同的任务

 #### informer


--- a/长序列transformer/复杂度分析.docx
+++ b/长序列transformer/复杂度分析.docx