Commit 1b9bc5f8 by zengxin

something of attention

parent 9c64425d
#### transformer
#### transformer
......@@ -9,34 +9,50 @@ https://www.bilibili.com/video/BV1vf4y1n7k2?spm_id_from=333.337.search-card.all.
https://s3.us-west-2.amazonaws.com/secure.notion-static.com/501fb338-a6b0-484a-8a16-713dd40251de/Attention_is_All_You_Need.pdf?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=AKIAT73L2G45EIPT3X45%2F20220528%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20220528T025015Z&X-Amz-Expires=86400&X-Amz-Signature=0b05cc2d12e341759809fda198f1dacfeb2dbafa2465a2203d2956f955ee251b&X-Amz-SignedHeaders=host&response-content-disposition=filename%20%3D%22Attention%2520is%2520All%2520You%2520Need.pdf%22&x-id=GetObject
* 面临问题:
* 处理长序列时效率低,主要原因是 self-attention的计算(n^2 * d)和内存复杂度(参数量:4 * d^2 + 相关性矩阵 T*T)较高。改进方法包括轻量级注意力模块(例如稀疏注意力),和分而治之的方法(例如循环和分层机制)
### 注意力改进方面
#### Linformer,2020
#### Linformer,2020,arxiv,引用377,Facebook AI
* 低秩注意力机制,o(n)的时间和空间复杂度
#### Linear Transformer,2020【Fast autoregressive transformers with linear attention】
#### Linear Transformer,2020【Fast autoregressive transformers with linear attention】,326引用,Idiap Research Institute, Switzerland,ICML
* O(N)
#### Random Feature Attention ,2021
#### Random Feature Attention ,2021,ICLR,87引用,华盛顿大学**Hao Peng**
* 线性时间复杂度
#### big bird,2021
#### big bird,2020,461引用,NeurIPS,Google Research
* 稀疏注意力机制,降低注意力机制的存储【原注意力存储为n^2,这个稀疏注意力的存储为线性】
#### luna,**Linear Unifified Nested Attention**,2021
#### luna,**Linear Unified Nested Attention**,2021,19个引用,NeurIPS,美国南加州大学ISI实验室
* 只产生线性的时间和空间复杂度
#### ABC: Attention with Bounded-memory Control,ACL,2022,华盛顿大学**Hao Peng**,3个引用
#### Long-range Sequence Modeling with Predictable Sparse Attention,ACL,2022,0 引用,中国三星研究院
#### SELF-ATTENTION DOES NOT NEED O(n 2 ) MEMORY, arxiv,2021,google research,4引用
* 提出了一个简单的注意力算法,只需要o(lgn)的内存,对于长度为16384的序列,自注意机制所需要的内存减少了59倍
*
### 模型结构改进方面
#### transformer-xl,2019
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论