readme.md

#### transformer

* 代码：

https://www.bilibili.com/video/BV1vf4y1n7k2?spm_id_from=333.337.search-card.all.click

* 论文解析

  https://s3.us-west-2.amazonaws.com/secure.notion-static.com/501fb338-a6b0-484a-8a16-713dd40251de/Attention_is_All_You_Need.pdf?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=AKIAT73L2G45EIPT3X45%2F20220528%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20220528T025015Z&X-Amz-Expires=86400&X-Amz-Signature=0b05cc2d12e341759809fda198f1dacfeb2dbafa2465a2203d2956f955ee251b&X-Amz-SignedHeaders=host&response-content-disposition=filename%20%3D%22Attention%2520is%2520All%2520You%2520Need.pdf%22&x-id=GetObject

* 面临问题：
  
  * 处理长序列时效率低，主要原因是 self-attention的计算（n^2 * d）和内存复杂度（参数量：4 * d^2 + 相关性矩阵 T*T）较高。改进方法包括轻量级注意力模块（例如稀疏注意力），和分而治之的方法（例如循环和分层机制）


### 注意力改进方面

#### Linformer,2020，arxiv，引用377，Facebook AI

* 低秩注意力机制，o(n)的时间和空间复杂度
* 

#### Linear Transformer,2020【**Transformers are RNNs:**Fast autoregressive transformers with linear attention】，326引用，Idiap Research Institute, Switzerland，ICML

* O（N）
* https://zhuanlan.zhihu.com/p/157490738?from_voters_page=true

#### big bird,2020，461引用，NeurIPS，Google Research

* 稀疏注意力机制，降低注意力机制的存储【原注意力存储为n^2，这个稀疏注意力的存储为线性】

####  Random Feature Attention ，2021，ICLR，87引用，华盛顿大学**Hao Peng**

* 线性时间复杂度

* 

#### luna，**Linear Unified Nested Attention**,2021，19个引用，NeurIPS，美国南加州大学ISI实验室

* 只产生线性的时间和空间复杂度


#### ABC: Attention with Bounded-memory Control，ACL，2022，华盛顿大学**Hao Peng**，3个引用


#### Long-range Sequence Modeling with Predictable Sparse Attention，ACL，2022，0 引用，中国三星研究院


#### SELF-ATTENTION DOES NOT NEED O(n 2 ) MEMORY， arxiv,2021，google research，4引用

* 提出了一个简单的注意力算法，只需要o(lgn)的内存，对于长度为16384的序列，自注意机制所需要的内存减少了59倍
* 分段式计算


### 模型结构改进方面

#### transformer-xl，2019，ACL，

* 背景（别人怎么做的，有什么局限）
* 具体方法
  * 分段递归机制
  * 新的位置编码策略
* 效果
  * 依赖距离比RNN长80%，比transformer长450%
  * 在长序列和短序列中的效果都很好
  * 评估时比transformer快1800倍
* 下一步优化方向是什么

#### reformer，2020，ICLR

* 使用局部敏感哈希注意力机制，降低注意力的计算复杂度，时间复杂度和空间复杂度都是O(nlogn)
* 使用可逆的残差网络（可减少参数）
* 内存效率更高，对长序列处理时速度更快
* Linformer,2020描述了该方法的缺点【只有当长度大于2048时，才会有效率提升，此外Reformer的多轮哈希方法实际上增加了顺序操作的数量，这进一步削弱了它们最终的效率收益】
* 为了能够使用LSH, Reformer将key约束为与query相同，因此该方法不能用于解码Key与query不同的任务

#### informer

* ProbSparse注意力机制，将时间和空间复杂度都降低至O(nlogn)
* 自注意力蒸馏（进一步降低参数）
* 生成式decoder