Commit 7172e717 by zengxin

attention

parent 779855da
#### transformer #### transformer
...@@ -73,6 +73,7 @@ https://www.bilibili.com/video/BV1vf4y1n7k2?spm_id_from=333.337.search-card.all. ...@@ -73,6 +73,7 @@ https://www.bilibili.com/video/BV1vf4y1n7k2?spm_id_from=333.337.search-card.all.
* 使用局部敏感哈希注意力机制,降低注意力的计算复杂度,时间复杂度和空间复杂度都是O(nlogn) * 使用局部敏感哈希注意力机制,降低注意力的计算复杂度,时间复杂度和空间复杂度都是O(nlogn)
* 使用可逆的残差网络(可减少参数) * 使用可逆的残差网络(可减少参数)
* 内存效率更高,对长序列处理时速度更快 * 内存效率更高,对长序列处理时速度更快
* Linformer,2020描述了该方法的缺点【只有当长度大于2048时,才会有效率提升,此外Reformer的多轮哈希方法实际上增加了顺序操作的数量,这进一步削弱了它们最终的效率收益】
#### informer #### informer
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论