合并分支 'zengxin' 到 'caorunzhe'

19 查看合并请求 !638

合并分支 'zengxin' 到 'caorunzhe'
19 查看合并请求 !638
236d5ddf · zengxin · e552711b · 4c696fc7 · 236d5ddf
Commit 236d5ddf authored Dec 19, 2020 by zengxin
--- a/Chapter19/chapter19.tex
+++ b/Chapter19/chapter19.tex
@@ -73,7 +73,7 @@
 \parinterval 但目前多模块机器翻译技术框架大多采用串行流水线，只是简单将两个或者多个不同的技术连接在一起，比如语音翻译过程分两步：语音识别和机器翻译，也可以增加一个语音合成发音功能。其它多模态机器翻译技术也大同小异，这个简单的串行流水线技术框架最大的问题就是错误蔓延，一旦某个技术环节准确率不够好，最后的结果就不会太好，比如90\%$\times$90\%=81\%。并且后续的技术环节不一定有能力纠正前面技术环节引入的错误，最终导致用户体验不够好。很多人说会议英中AI同传用户体验不够好，很自然以为是机器翻译出了问题，其实目前问题主要出在语音识别环节。学术界开始研究端到端的多模态机器翻译技术，不是采用串行流水线技术架构，而是采用一步到位的方式，这理论上能够缓解错误蔓延的问题，但目前实际效果还不够理想，期待学术界取得新的突破。
 \vspace{0.5em}

-\parinterval 即使训练双语句对集合规模非常大，并且机器翻译技术在不断优化，但我们都知道机器翻译结果不可能完美，出现一些译文错误是难免的。如果我们想利用机器翻译技术来帮助人工翻译过程，比较常见的方式是译后编辑，即对自动译文进行人工修正错误。这就很自然产生两个实际问题，一是自动译文是否具有编辑价值？一个简单的计算方法就是编辑距离，即人工需要通过多少次增删改动作可以完成译后编辑过程。其次数越少，说明机器翻译对人工翻译的帮助越大。编辑距离本质上是一种译文质量评价的方法，可以考虑推荐具有较高译后编辑价值的自动译文给人工译员。第二个问题就是机器翻译出现错误，人工译后编辑之后能否通过一种有效的错误反馈机制帮助机器翻译系统提高性能。学术界也有很多人研究这个问题，目前还没有取得大家满意的结果。除此之外还有另外一些问题：比如人机交互的用户体验问题，该需求很自然带起了交互式机器翻译技术研究，希望最大程度发挥人机协同合作效果，这个也是值得研究的课题。
+\parinterval 即使训练双语句对集合规模非常大、机器翻译技术在不断优化，但我们都知道机器翻译结果不可能完美，出现一些译文错误是难免的。如果我们想利用机器翻译技术来帮助人工翻译过程，比较常见的方式是译后编辑，即对自动译文进行人工修正错误。这就很自然产生两个实际问题，一是自动译文是否具有编辑价值？一个简单的计算方法就是编辑距离，即人工需要通过多少次增删改动作可以完成译后编辑过程。其次数越少，说明机器翻译对人工翻译的帮助越大。编辑距离本质上是一种译文质量评价的方法，可以考虑推荐具有较高译后编辑价值的自动译文给人工译员。第二个问题就是机器翻译出现错误，人工译后编辑之后能否通过一种有效的错误反馈机制帮助机器翻译系统提高性能。学术界也有很多人研究这个问题，目前还没有取得大家满意的结果。除此之外还有另外一些问题：比如人机交互的用户体验问题，该需求很自然带起了交互式机器翻译技术研究，希望最大程度发挥人机协同合作效果，这个也是值得研究的课题。
 \vspace{0.5em}

 \parinterval 传统机器翻译译文评价方法分成自动方法和人工评价方法，自动方法用得最多的是BLEU值，被广泛应用在机器翻译系统研发调优过程中和机器翻译评测中。人工评价就不用过多解释了，从理论上来说，两者具有正相关，但实验结果显示不是绝对正相关。换句话说，理论上BLEU值越大，机器翻译系统性能越好，但如果两套机器翻译系统的BLEU值差异性不太大的话（比如$<$0.5），从人工评价角度来看，可能没有差异性，甚至分数高的翻译品质不如分数低的情况也可能发生。后来不少研究人员对机器翻译自动评价方法开展了大量的研究，甚至对评价方法的评价也成为了一个研究方向。如何对机器翻译译文进行更加有效的自动评价，这个研究非常有价值，因为基于机器学习的训练方法调优完全基于评价方法，可以这么说，评价方法就是指挥棒，直接影响该领域的发展，所以将来我们还应该更加重视机器翻译评价方法的研究工作。
@@ -85,16 +85,16 @@
 \parinterval 做研究实验的时候我们可以提前准备好测试集合，问题是在很多实际应用场景中，比如译后编辑过程中，我们希望机器翻译系统能够对每个输入句子的自动译文提供一个质量评价分数，分数越高表示译文正确性越好，具有更高的译后编辑价值，系统自动推荐高质量的译文给人工翻译后编辑。这种情况下我们不可能实现构建好包含多个参考译文的测试集合，即没有参考译文的自动译文质量评价技术。这个技术非常有趣，用途非常广泛，除了上述推荐高质量译文以外，将来也可以用于数据质量检测，甚至可以用于改善优化机器翻译系统本身。学术界也开展了不少相关研究工作，但离实际应用还远远不够，如何利用解码知识和外部语言学知识优化没有参考答案的译文质量评价，是值得深入研究的一个方向。
 \vspace{0.5em}

-\parinterval 回头讨论一下上述提到的第二个问题，机器翻译一直存在一个诟病就是用户不知道如何有效干预纠错，帮助机器翻译系统越来越好，并且我们也不希望它屡教不改。基于规则的方法和统计机器翻译方法相对容易实现人工干预纠错，实现手段比较丰富，而神经机器翻译方法存在不可解释性，难以有效实现人工干预纠错。目前有的研究人员深入研究引入外部知识库（用户双语术语库）来实现对OOV翻译的干预纠错；有的提出使用增量式训练方法不断迭代优化模型，也取得了一些进展；有的融合不同技术来实现更好机器翻译效果，比如引入基于规则的翻译前处理和后处理，或者引入统计机器翻译技术优化译文选择等等。但这些方法代价不低甚至很高，并且性能提升的效果无法得到保障，有时候可能降低翻译品质，有点像跷跷板现象。总体来说，这个方向的研究工作成果还不够丰富，但对用户来说非常重要，如果能够采用隐性反馈学习方法，在用户不知不觉中不断改善优化机器翻译品质，就非常酷了，这也许会成为将来的一个研究热点。
+\parinterval 回头讨论一下上述提到的第二个问题，机器翻译一直存在一个诟病就是用户不知道如何有效干预纠错，帮助机器翻译系统越来越好，并且我们也不希望它屡教不改。基于规则的方法和统计机器翻译方法相对容易实现人工干预纠错，实现手段比较丰富，而神经机器翻译方法存在不可解释性，难以有效实现人工干预纠错。目前有的研究人员深入研究引入外部知识库（用户双语术语库）来实现对OOV翻译的干预纠错；有的提出使用增量式训练方法不断迭代优化模型，也取得了一些进展；有的融合不同技术来实现更好的机器翻译效果，比如引入基于规则的翻译前处理和后处理，或者引入统计机器翻译技术优化译文选择等等。但这些方法代价不低甚至很高，并且性能提升的效果无法得到保障，有时候可能降低翻译品质，有点像跷跷板现象。总体来说，这个方向的研究工作成果还不够丰富，但对用户来说非常重要，如果能够采用隐性反馈学习方法，在用户不知不觉中不断改善优化机器翻译品质，就非常酷了，这也许会成为将来的一个研究热点。
 \vspace{0.5em}

 \parinterval 对于人工翻译无法完成的任务，比如大规模数据翻译，机器翻译肯定是唯一有效的选择。为了更好帮助人工翻译，交互式机器翻译技术是非常有价值的，但需要解决一个实际问题是用户体验的问题，简单来说就是人工交互的方式。之前比较传统的人机交互方式属于机器翻译尊重人工干预的结果，一旦人工确定译文的部分片段结果后，机器翻译会保证最终输出译文中一定会出现该部分译文片段。举个简单交互例子，比如从左到右的翻译方向，人工指定第一个译文单词，机器翻译就选择输入一个“最佳”译文，首部单词为该单词。这个人机交互模式存在两个问题，一是将人工干预结果作为机器翻译解码过程的硬约束，可能对译文生成造成负面影响；二是该人机交互方式改变了人工翻译的习惯，用户体验可能不太好。探索更加丰富的人机交互方式，改善用户体验，同时发挥机器翻译的优势，是人机交互值得深入研究的课题，本质上人机交互式机器翻译体现了人工干预纠错的思想，不同的一点是这种干预纠错可能是针对当前句子的，不一定针对整个机器翻译系统的，如果能够做到后者，将人机交互与错误驱动反馈学习结合，就具有非常高的应用价值。
 \vspace{0.5em}

-\parinterval 传统机器翻译训练学习过程是按照不同语言对进行的，比如中英翻译和中日翻译等。一带一路周边国家就有近百种官方语言，联合国所有成员国的官方语言总数至少两三百个，如果想实现任意两个国家官方语言的互译，这种组合至少有几万个语言对。再加上上千种非官方语言的小语种，任意两个语种的组合就爆炸了，可以达到几百万个不同语言对，每个语言对独立进行训练学习机器翻译系统，代价投入是难以想象的。上文也提到了，可能有99\%以上语言对属于资源稀缺型，无法收集足够规模的双语句对完成有效的翻译模型训练学习。为了缓解这个资源稀缺语言翻译的问题，学术界已经开展了很多相关研究工作。我们认为资源稀缺语言翻译和多语言翻译两个不同问题可以相互结合来考虑，基本思想是相同或者相似语系的不同语言之间共享翻译知识，简单来说，能否训练学习一个强大的通用翻译模型，不是简单仅仅支持一个语言对翻译，而是有能力同时支持多个不同语言的互译能力。这个方案的好处是不言而喻的，不仅仅大大降低训练学习的代价，同时大大降低系统部署的硬件投入和维护代价。一旦多语言共享翻译模型取得突破，就能够大大缓解小语种翻译的问题，具有良好的理论研究和应用价值。
+\parinterval 传统机器翻译训练学习过程是按照不同语言对进行的，比如中英翻译和中日翻译等。一带一路周边国家就有近百种官方语言，联合国所有成员国的官方语言总数至少两三百个，如果想实现任意两个国家官方语言的互译，这种组合至少有几万个语言对。再加上上千种非官方语言的小语种，任意两个语种的组合就爆炸了，可以达到几百万个不同语言对，每个语言对独立进行训练学习机器翻译系统，代价投入是难以想象的。上文也提到了，可能有99\%以上语言对属于资源稀缺型，无法收集足够规模的双语句对完成有效的翻译模型训练学习。为了缓解这个资源稀缺语言翻译的问题，学术界已经开展了很多相关研究工作。我们认为资源稀缺语言翻译和多语言翻译两个不同问题可以相互结合来考虑，基本思想是相同或者相似语系的不同语言之间共享翻译知识，简单来说，能否训练学习一个强大的通用翻译模型，不是简单仅仅支持一个语言对翻译，而是有能力同时支持多个不同语言的互译能力。这个方案的好处是不言而喻的，不仅能大大降低训练学习的代价，还可大大降低系统部署的硬件投入和维护代价。一旦多语言共享翻译模型取得突破，就能够大大缓解小语种翻译的问题，具有良好的理论研究和应用价值。
 \vspace{0.5em}

-\parinterval 目前神经机器翻译技术已经被工业界广泛使用，我们可以拿Transformer模型来简单讨论一下，在很多其它图像和语音应用领域已经证明网络结构越深，层数越多，越有助于提高表示学习能力和应用系统的性能。我们同样在机器翻译领域也得到类似结论，如何利用更多层的网络来优化机器翻译建模是值得探讨的方向。更深的网络结构也会带来很多麻烦，比如训练代价和有效性问题。训练代价与网络结构深度成正比，这个容易理解，关键是后者训练有效性的问题，比如能否在有限时间内快速收敛到预期结果。传统Transformer模型一旦扩展到10多层，训练学习过程好像就容易出问题，为此我们团队曾提出Transformer-DLCL模型，有效缓解了这个问题，实现有能力训练40层以上的Transformer模型，目的是改善机器翻译品质。
+\parinterval 目前神经机器翻译技术已经被工业界广泛使用，我们可以拿Transformer模型来简单讨论一下，在很多其它图像和语音应用领域已经证明网络结构越深，层数越多，越有助于提高表示学习能力和应用系统的性能。我们同样在机器翻译领域也得到类似结论，如何利用更多层的网络来优化机器翻译建模是值得探讨的方向。更深的网络结构也会带来很多麻烦，比如训练代价和有效性问题。训练代价与网络结构深度成正比，这个容易理解，关键是后者训练有效性的问题，比如能否在有限时间内快速收敛到预期结果。传统Transformer模型一旦扩展到10多层，训练学习过程好像就容易出问题，为此我们团队曾提出SDT训练方法，有效缓解了这个问题，实现有能力训练40层以上的Transformer模型，目的是改善机器翻译品质。
 \vspace{0.5em}

 \parinterval 通常用于构建机器翻译系统的神经网络结构是人为事先确定的，包括预定义层数（深度）和每层宽度等，其实人为事先给定的网络结构对于当前任务来说是否最佳，这个问题没有结论，学术界目前也无法很好回答这个问题。但根据我们的常识性知识可以得知，过于依赖专家经验来设计网络结构肯定不是最佳方案，后来学术界就产生了网络结构搜索研究工作，即如何根据训练数据本身来自动优化模型深层网络结构，争取达到最佳的训练学习效果，是一个非常有趣的研究方向。目前神经机器翻译技术主要依赖于编码器-解码器两层技术框架，把编码和解码阶段分开，类似于将传统的分析和生成阶段分开，但两者又相互依赖，这样做的好处是技术架构简单，不过可能存在表示学习不够充分和错误蔓延等问题的可能性。为了解决这个问题，我们团队做了一个有趣尝试，提出一个新的神经机器翻译技术框架\ \dash \ 基于联合分布的注意力模型Reformer，不依赖于传统编码器-解码器技术框架，而是直接采用一个统一技术框架完成翻译过程，这项工作目前还比较初级，有待于进一步深入研究。