Commit 9fb922f6 by zengxin

new

parent 3379d414
......@@ -115,11 +115,22 @@
​ 其中$e_j$是模型输出,$e(y_j)$是真实目标语言词嵌入向量,
## Efficient Contextual Representation Learning With Continuous Outputs,2019,北京大学
* 该文所提出的方法在保证性能的情况下,减少了80%的训练参数,获得了4倍的加速
* 将连续空间应用在语言模型中
## NEURAL TEXT DEGENERATION WITH UNLIKELIHOOD TRAINING,ICLR 2020
* NLG
* 似然目标本身的错误,导致模型分配了太多的概率,包含重复和频繁的词,其分布与人类训练分布不同。
* 本文提出了一种非似然目标函数的训练方法,得到了很好的效果。该模型使用Beam search得到的效果,就优于top-p方法。
* 目前模型存在问题:
* 模型训练和解码时,都更多的关注当前词的概率,而不是整个句子的概率
* 存在错误累加问题
*
......
# 数据集,评价方法,现有实验效果,我的切入点,亮点,别人是否做了。确定要解决的任务或者问题。
* 评价方法
* BLEU
* 覆盖度
* 解码速度
* 评估的测试集构成方式:
* 字典约束,约束来自双语词典
* 参照约束,约束是从reference中随机采样得到的
* 交互式约束,来自在无约束翻译中没有被翻译的短语
* 词对齐:
* n-gram对齐
## **Lexical-Constraint-Aware Neural Machine Translation via Data Augmentation** ,(IJCAI-20),香港大学
* 在特定领域或交互式机器翻译中,利用词汇约束很重要(论文翻译)
* 本文的方法
* soft constraints
* 对源语句子进行修改,在句子后面 加<sep>标签 加词表单词
* 该方法使模型在约束条件能表现较好,同时能保证无约束条件下的翻译(翻译)
* 该方法不能保证100%生成约束词,但在WMT DE-EN中能保证96%以上的正确生成,在NIST ZH-EN能保证89.6%以上的正确
* 相比于 code *switching* 方法 我们的提高了 3.5 个BLEU
## **Leveraging Neural Machine Translation for Word Alignment** ,2021,未发表,Saarland University,无引用
* 本文目的是提高词对齐质量,并论证基于NMT置信度的对齐能力。
## **Accurate Word Alignment Induction from Neural Machine Translation**,2020,上海财经大学,清华大学,有引用有代码。
## **Not all parameters are born equal:** Attention is mostly what you need ,2020,爱丁堡大学
## **Not all parameters are born equal:** Attention is mostly what you need ,2020,爱丁堡大学
* 注意力层和FFN层学习了transformer网络中大部分信息。
* 模型越大越冗余,但是收敛的更快。模型参数越少,收敛越慢。
* 通过分析,该文认为embedding层作用不大,大幅减小emdedding层维度大小后,模型BLEU -1.4 ,参数量仅18M
* 减小FFN层维度,参数量137,BELU -1.1
*
## How Does Selective Mechanism Improve Self-Attention Networks?,2020,ACL,哈工大
* 自注意力网络具有高并行性与对长距离依赖编码的灵活性
* 自注意力机制在词序编码和句法结构建模方面存在缺陷
## In Neural Machine Translation, What Does Transfer Learning Transfer? ,2020,ACL,爱丁堡大学
* 该文主要研究迁移学习,其目的是解决低资源翻译。该技术也可以应用到模型压缩中
* 词嵌入对于词对齐来说很重要
## Synthesizer: Rethinking Self-Attention for Transformer Models,2021,谷歌 PMLR
* 该文研究了点乘注意力机制的必要性和贡献度
* 该文介绍了注意力机制的历史(related work)最早源于检索
* 点乘自注意力机制的基本目标是学习自对齐,
* 贡献:
* 提出一种不需要点乘计算的注意力模块
* 提出一种新模型,其性能优于Transformer
* 加快了模型速度
## Do We Really Need That Many Parameters In Transformer For Extractive Summarization? Discourse Can Help ! ,2020,ACL,哥伦比亚大学
* 提出一种新的树状注意力方法,应用于摘要任务
* 分析了多种注意力计算方式,包括Dense, Random 和合成器类
## Attention is not *all* you need: pure attention loses rank doubly exponentially with depth ,2021,谷歌。
* **无代码**
* 该文证明了自注意力网络是一个浅层网络
* 如果没有残差连接等,自注意力网络将不能够学习
* 读不懂这篇文章
## Attention Is (not) All You Need for Commonsense Reasoning ,2019,ACL
* 该文主要分析Bert
\ No newline at end of file
## 知识蒸馏(联合训练相关知识)
## 知识蒸馏(联合训练相关知识)
* 把大模型的知识传递给小模型
* 知识蒸馏基于两个假设:
* 知识在模型间可迁移,如语言模型
* 模型所蕴含的知识比数据中的知识更容易被学习,比如回译就是将模型的输出作为数据让系统学习。
* 体现了“自学习”的思想,即利用模型(自己)的预测来教模型(自己)
* 基本方法:
* 单词级知识蒸馏,目标是使学生模型的预测(分布)尽可能逼近教师模型的预测(分布)。
* 序列级知识蒸馏
* 机器翻译中的知识蒸馏:
* 利用教师模型构造伪数据,让学生模型从伪数据中学习
* 迭代式知识蒸馏
* 如何构造教师模型和学生模型:
* 固定教师模型,使用较大的模型作为教师模型,然后通过将神经网络变窄变浅得到学生模型。
* 固定学生模型,可以先融合多个使用不同参数初始化方式训练得到的big模型,再学习一个Base模型。
## 轻量模型
* 所涉及的方法常应用在解码器上,解码推断过程非常耗时
* On using very large target vocabulary for neural machine translation
* 词汇选择,即获取每个源语言单词最可能的译文作为候选列表,之后只在这个有限的单词集合上进行softmax计算
* 消除不必要的计算:
* 对解码器的注意力结果进行缓存,比如在Transformer中,在生成每个译文时,Transformer会对当前位置之前的所有位置进行注意力操作,但这些计算只有当前位置的相关计算是新的,前面的都已经计算过,因此可以对前面部分进行缓存。
* 将不同层的注意力权重进行共享
* 使用更轻量的解码器加快模型翻译假设的生成速度:
* 把解码器网络变浅、窄。
* 化简解码器的神经网络,如使用平均注意力机制代替原始的注意力机制,或使用更轻的卷积操作代替注意力模块。
* 用速度更快的解码器,如用循环神经网络替换Transformer中基于注意力机制的解码器。
* 层级结构剪枝,试图通过跳过某些操作或某些层来降低计算量。
# Knowledge Distillation: A Survey ,2021,
# An Survey of Neural Network Compression ,2020
* 压缩大模型效果优于重新训练一个小模型
* retraining是需要的
* 评价指标:
* FLOPs
* 模型性能
* 模型大小
* 共享权重:
* 减小了网络大小,避免了稀疏性
* 网络剪枝
* 是最常用的技术
* 剪枝会降低模型大小和运行时间,而模型性能通过retraining来提升,迭代剪枝然后再训练,直到达到预期的性能和想要的压缩状态
* 剪枝并不是随机的,是有选择的,随机剪枝将有损性能
*
*
## 神经机器翻译模型结构优化(15章)
* 注意力机制的改进:
* 引入相对位置编码
* 注意力分布约束:
* 引入高斯约束,直接作用于注意力权重
* 多尺度局部建模
* 这两种方法更适合用于Tran的底层网络,因为由于离模型输入更近的层更倾向捕捉局部信息,伴随着神经网络的加深,模型更倾向于逐渐加强全局建模的能力。
* 在注意力模型中引入卷积操作:
* 使用轻量卷积和动态卷积替换Trans中的编码器和解码器的自注意力机制,保留编码-解码注意力机制
* 使用一维卷积注意力网络
* 使用二维卷积注意力网络
* 多分支结构:
* 引入循环机制:
*
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论