Commit 9c64425d by zengxin

长序列transformer

parent 9fb922f6
#### transformer
#### transformer
* 代码:
https://www.bilibili.com/video/BV1vf4y1n7k2?spm_id_from=333.337.search-card.all.click
* 论文解析
https://s3.us-west-2.amazonaws.com/secure.notion-static.com/501fb338-a6b0-484a-8a16-713dd40251de/Attention_is_All_You_Need.pdf?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=AKIAT73L2G45EIPT3X45%2F20220528%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20220528T025015Z&X-Amz-Expires=86400&X-Amz-Signature=0b05cc2d12e341759809fda198f1dacfeb2dbafa2465a2203d2956f955ee251b&X-Amz-SignedHeaders=host&response-content-disposition=filename%20%3D%22Attention%2520is%2520All%2520You%2520Need.pdf%22&x-id=GetObject
* 面临问题:
* 处理长序列时效率低,主要原因是 self-attention的计算(n^2 * d)和内存复杂度(参数量:4 * d^2 + 相关性矩阵 T*T)较高。改进方法包括轻量级注意力模块(例如稀疏注意力),和分而治之的方法(例如循环和分层机制)
### 注意力改进方面
#### Linformer,2020
* 低秩注意力机制,o(n)的时间和空间复杂度
#### Linear Transformer,2020【Fast autoregressive transformers with linear attention】
* O(N)
#### Random Feature Attention ,2021
* 线性时间复杂度
#### big bird,2021
* 稀疏注意力机制,降低注意力机制的存储【原注意力存储为n^2,这个稀疏注意力的存储为线性】
#### luna,**Linear Unifified Nested Attention**,2021
* 只产生线性的时间和空间复杂度
### 模型结构改进方面
#### transformer-xl,2019
* 背景(别人怎么做的,有什么局限)
* 具体方法
* 分段递归机制
* 新的位置编码策略
* 效果
* 依赖距离比RNN长80%,比transformer长450%
* 在长序列和短序列中的效果都很好
* 评估时比transformer快1800倍
* 下一步优化方向是什么
#### reformer,2020
* 使用局部敏感哈希注意力机制,降低注意力的计算复杂度,时间复杂度和空间复杂度都是O(nlogn)
* 使用可逆的残差网络(可减少参数)
* 内存效率更高,对长序列处理时速度更快
#### informer
* ProbSparse注意力机制,将时间和空间复杂度都降低至O(nlogn)
* 自注意力蒸馏(进一步降低参数)
* 生成式decoder
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论