readme.md 3.42 KB
Newer Older
zengxin committed
1 2 3 4 5 6 7 8 9 10 11
#### transformer

* 代码:

https://www.bilibili.com/video/BV1vf4y1n7k2?spm_id_from=333.337.search-card.all.click

* 论文解析

  https://s3.us-west-2.amazonaws.com/secure.notion-static.com/501fb338-a6b0-484a-8a16-713dd40251de/Attention_is_All_You_Need.pdf?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=AKIAT73L2G45EIPT3X45%2F20220528%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20220528T025015Z&X-Amz-Expires=86400&X-Amz-Signature=0b05cc2d12e341759809fda198f1dacfeb2dbafa2465a2203d2956f955ee251b&X-Amz-SignedHeaders=host&response-content-disposition=filename%20%3D%22Attention%2520is%2520All%2520You%2520Need.pdf%22&x-id=GetObject

* 面临问题:
zengxin committed
12
  
zengxin committed
13 14 15 16 17 18
  * 处理长序列时效率低,主要原因是 self-attention的计算(n^2 * d)和内存复杂度(参数量:4 * d^2 + 相关性矩阵 T*T)较高。改进方法包括轻量级注意力模块(例如稀疏注意力),和分而治之的方法(例如循环和分层机制)



### 注意力改进方面

zengxin committed
19
#### Linformer,2020,arxiv,引用377,Facebook AI
zengxin committed
20 21

* 低秩注意力机制,o(n)的时间和空间复杂度
zengxin committed
22
* 
zengxin committed
23

zengxin committed
24
#### Linear Transformer,2020【**Transformers are RNNs:**Fast autoregressive transformers with linear attention】,326引用,Idiap Research Institute, Switzerland,ICML
zengxin committed
25 26

* O(N)
zengxin committed
27 28 29 30 31
* https://zhuanlan.zhihu.com/p/157490738?from_voters_page=true

#### big bird,2020,461引用,NeurIPS,Google Research

* 稀疏注意力机制,降低注意力机制的存储【原注意力存储为n^2,这个稀疏注意力的存储为线性】
zengxin committed
32

zengxin committed
33
####  Random Feature Attention ,2021,ICLR,87引用,华盛顿大学**Hao Peng**
zengxin committed
34 35 36

* 线性时间复杂度

zengxin committed
37
* 
zengxin committed
38

zengxin committed
39
#### luna,**Linear Unified Nested Attention**,2021,19个引用,NeurIPS,美国南加州大学ISI实验室
zengxin committed
40 41 42 43 44

* 只产生线性的时间和空间复杂度



zengxin committed
45 46 47 48 49 50 51 52 53 54 55
#### ABC: Attention with Bounded-memory Control,ACL,2022,华盛顿大学**Hao Peng**,3个引用



#### Long-range Sequence Modeling with Predictable Sparse Attention,ACL,2022,0 引用,中国三星研究院



#### SELF-ATTENTION DOES NOT NEED O(n 2 ) MEMORY, arxiv,2021,google research,4引用

* 提出了一个简单的注意力算法,只需要o(lgn)的内存,对于长度为16384的序列,自注意机制所需要的内存减少了59倍
zengxin committed
56
* 分段式计算
zengxin committed
57 58 59



zengxin committed
60 61


zengxin committed
62 63
### 模型结构改进方面

zengxin committed
64
#### transformer-xl,2019,ACL,
zengxin committed
65 66 67 68 69 70 71 72 73 74 75

* 背景(别人怎么做的,有什么局限)
* 具体方法
  * 分段递归机制
  * 新的位置编码策略
* 效果
  * 依赖距离比RNN长80%,比transformer长450%
  * 在长序列和短序列中的效果都很好
  * 评估时比transformer快1800倍
* 下一步优化方向是什么

zengxin committed
76
#### reformer,2020,ICLR
zengxin committed
77 78 79 80

* 使用局部敏感哈希注意力机制,降低注意力的计算复杂度,时间复杂度和空间复杂度都是O(nlogn)
* 使用可逆的残差网络(可减少参数)
* 内存效率更高,对长序列处理时速度更快
zengxin committed
81
* Linformer,2020描述了该方法的缺点【只有当长度大于2048时,才会有效率提升,此外Reformer的多轮哈希方法实际上增加了顺序操作的数量,这进一步削弱了它们最终的效率收益】
zengxin committed
82
* 为了能够使用LSH, Reformer将key约束为与query相同,因此该方法不能用于解码Key与query不同的任务
zengxin committed
83 84 85 86 87 88 89 90 91

#### informer

* ProbSparse注意力机制,将时间和空间复杂度都降低至O(nlogn)
* 自注意力蒸馏(进一步降低参数)
* 生成式decoder