Commit c540b4c2 by zengxin

summary

parent 3b45c75e
#### transformer
#### transformer
* 代码:
https://www.bilibili.com/video/BV1vf4y1n7k2?spm_id_from=333.337.search-card.all.click
* 论文解析
https://s3.us-west-2.amazonaws.com/secure.notion-static.com/501fb338-a6b0-484a-8a16-713dd40251de/Attention_is_All_You_Need.pdf?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=AKIAT73L2G45EIPT3X45%2F20220528%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20220528T025015Z&X-Amz-Expires=86400&X-Amz-Signature=0b05cc2d12e341759809fda198f1dacfeb2dbafa2465a2203d2956f955ee251b&X-Amz-SignedHeaders=host&response-content-disposition=filename%20%3D%22Attention%2520is%2520All%2520You%2520Need.pdf%22&x-id=GetObject
* 面临问题:
* 处理长序列时效率低,主要原因是 self-attention的计算(n^2 * d)和内存复杂度(参数量:4 * d^2 + 相关性矩阵 T*T)较高。改进方法包括轻量级注意力模块(例如稀疏注意力),和分而治之的方法(例如循环和分层机制)
### 注意力改进方面
#### Linformer,2020,arxiv,引用377,Facebook AI
* 低秩注意力机制,o(n)的时间和空间复杂度
*
#### Linear Transformer,2020【**Transformers are RNNs:**Fast autoregressive transformers with linear attention】,326引用,Idiap Research Institute, Switzerland,ICML
* O(N)
* https://zhuanlan.zhihu.com/p/157490738?from_voters_page=true
#### big bird,2020,461引用,NeurIPS,Google Research
* 稀疏注意力机制,降低注意力机制的存储【原注意力存储为n^2,这个稀疏注意力的存储为线性】
#### Random Feature Attention ,2021,ICLR,87引用,华盛顿大学**Hao Peng**
* 线性时间复杂度
*
#### luna,**Linear Unified Nested Attention**,2021,19个引用,NeurIPS,美国南加州大学ISI实验室
* 只产生线性的时间和空间复杂度
#### ABC: Attention with Bounded-memory Control,ACL,2022,华盛顿大学**Hao Peng**,3个引用
#### Long-range Sequence Modeling with Predictable Sparse Attention,ACL,2022,0 引用,中国三星研究院
#### SELF-ATTENTION DOES NOT NEED O(n 2 ) MEMORY, arxiv,2021,google research,4引用
* 提出了一个简单的注意力算法,只需要o(lgn)的内存,对于长度为16384的序列,自注意机制所需要的内存减少了59倍
* 分段式计算
### 模型结构改进方面
#### transformer-xl,2019,ACL,
* 背景(别人怎么做的,有什么局限)
* 具体方法
* 分段递归机制
* 新的位置编码策略
* 效果
* 依赖距离比RNN长80%,比transformer长450%
* 在长序列和短序列中的效果都很好
* 评估时比transformer快1800倍
* 下一步优化方向是什么
#### reformer,2020,ICLR
* 使用局部敏感哈希注意力机制,降低注意力的计算复杂度,时间复杂度和空间复杂度都是O(nlogn)
* 使用可逆的残差网络(可减少参数)
* 内存效率更高,对长序列处理时速度更快
* Linformer,2020描述了该方法的缺点【只有当长度大于2048时,才会有效率提升,此外Reformer的多轮哈希方法实际上增加了顺序操作的数量,这进一步削弱了它们最终的效率收益】
* 为了能够使用LSH, Reformer将key约束为与query相同,因此该方法不能用于解码Key与query不同的任务
#### informer
* ProbSparse注意力机制,将时间和空间复杂度都降低至O(nlogn)
* 自注意力蒸馏(进一步降低参数)
* 生成式decoder
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论