19

f8022e25 · zengxin · 4a1c56ac · f8022e25
Commit f8022e25 authored Dec 18, 2020 by zengxin
--- a/Chapter19/chapter19.tex
+++ b/Chapter19/chapter19.tex
@@ -55,25 +55,25 @@
 \parinterval 机器翻译可以与文档解析、语音识别、OCR和视频字幕提取等技术相结合，我们称之为多模态机器翻译，大大丰富了机器翻译的应用模式。文档解析技术可以帮助实现Word文档翻译、PDF文档翻译、WPS文档翻译、邮件翻译等更多格式文档自动翻译能力，也可以作为插件嵌入到各种办公平台中，成为智能办公好助手。语音识别与机器翻译是绝配，语音语言是人与人交流的最自然方式，语音翻译用途就非常丰富了，比如翻译机和语音翻译APP，还有目前大家比较期待的会议AI同传应用，参加国际会议可以通过该技术听懂讲不同母语研究人员的报告，该技术也可以成为会议室的标配，支持不同母语的参会人员进行自由交流。但目前最大的问题主要体现在两个方面，一是很多实际应用场景中语音识别结果欠佳，造成错误蔓延，导致机器翻译结果不够理想；二是就算小语种的语音识别效果很好，但资源稀缺型小语种翻译性能不够好。OCR技术可以帮助实现扫描笔和翻译笔的应用、出国旅游的拍照翻译功能，将来还可以与穿戴式设备相结合，比如智能眼镜等等。视频字幕翻译能够帮助我们欣赏没有中文字幕的国外电影和电视节目，比如我们到达任何一个国家，打开电视都能够看到中文字幕，也是非常酷的应用。
-\parinterval 但目前多模块机器翻译技术框架大多采用串行流水线，只是简单将两个或者多个不同的技术连接在一起，比如语音翻译过程分两步：语音识别和机器翻译，也可以增加一个语音合成发音功能。其它多模态机器翻译技术也大同小异，这个简单的串行流水线技术框架最大的问题就是错误蔓延问题，一旦某个技术环节准确率不够好，比90\%$\times$90\%=81\%，因为后续的技术环节不一定有能力纠正前面技术环节引入的错误，导致用户体验不够好。很多人说会议英中AI同传用户体验不够好，很自然以为是机器翻译出了问题，其实目前问题主要出在语音识别环节。学术界开始研究端到端的多模态机器翻译技术，不是采用串行流水线技术架构，而是采用一步到位的方式，这理论上能够缓解错误蔓延的问题，但目前实际效果还不够理想，期待学术界取得新的突破。
+\parinterval 但目前多模块机器翻译技术框架大多采用串行流水线，只是简单将两个或者多个不同的技术连接在一起，比如语音翻译过程分两步：语音识别和机器翻译，也可以增加一个语音合成发音功能。其它多模态机器翻译技术也大同小异，这个简单的串行流水线技术框架最大的问题就是错误蔓延问题，一旦某个技术环节准确率不够好，最后的结果就不会太好，比如90\%$\times$90\%=81\%。并且后续的技术环节不一定有能力纠正前面技术环节引入的错误，最终导致用户体验不够好。很多人说会议英中AI同传用户体验不够好，很自然以为是机器翻译出了问题，其实目前问题主要出在语音识别环节。学术界开始研究端到端的多模态机器翻译技术，不是采用串行流水线技术架构，而是采用一步到位的方式，这理论上能够缓解错误蔓延的问题，但目前实际效果还不够理想，期待学术界取得新的突破。
-\parinterval 即使训练双语句对集合规模非常大，机器翻译技术不断优化，我们都知道机器翻译结果不可能完美，出现一些译文错误是难免的。如果我们想利用机器翻译技术来帮助人工翻译过程，比较常见的方式是译后编辑，即对自动译文进行人工修正错误。这就很自然产生两个实际问题，一是自动译文是否具有编辑价值？一个简单的计算方法就是编辑距离，即人工需要通过多少次增删改动作可以完成译后编辑过程。其次数越少，说明机器翻译对人工翻译的帮助越大。编辑距离本质上是一种译文质量评价的方法，可以考虑推荐具有较高译后编辑价值的自动译文给人工译员。第二个问题就是机器翻译出现错误，人工译后编辑之后能否通过一种有效的错误反馈机制帮助提高机器翻译系统性能。学术界也很多人研究这个问题，目前还没有取得大家满意的结果。其实还有另外一些问题，比如人机交互的用户体验问题，该需求很自然带起了交互式机器翻译技术研究，希望最大程度发挥人机协同合作效果，这个也是值得研究的课题。
+\parinterval 即使训练双语句对集合规模非常大，并且机器翻译技术在不断优化，但我们都知道机器翻译结果不可能完美，出现一些译文错误是难免的。如果我们想利用机器翻译技术来帮助人工翻译过程，比较常见的方式是译后编辑，即对自动译文进行人工修正错误。这就很自然产生两个实际问题，一是自动译文是否具有编辑价值？一个简单的计算方法就是编辑距离，即人工需要通过多少次增删改动作可以完成译后编辑过程。其次数越少，说明机器翻译对人工翻译的帮助越大。编辑距离本质上是一种译文质量评价的方法，可以考虑推荐具有较高译后编辑价值的自动译文给人工译员。第二个问题就是机器翻译出现错误，人工译后编辑之后能否通过一种有效的错误反馈机制帮助机器翻译系统提高性能。学术界也有很多人研究这个问题，目前还没有取得大家满意的结果。除此之外还有另外一些问题：比如人机交互的用户体验问题，该需求很自然带起了交互式机器翻译技术研究，希望最大程度发挥人机协同合作效果，这个也是值得研究的课题。
-\parinterval 传统机器翻译译文评价方法分成自动方法和人工评价方法，自动方法用得最多的是BLEU值，被广泛应用机器翻译系统研发调优过程中和机器翻译评测中。人工评价就不用过多解释了，从该理论上来说，两者具有正相关，但实验结果显示不是绝对正相关。换句话说，理论上BLEU值越大，机器翻译系统性能越好，但如果两套机器翻译系统的BLEU值差异性不太大的话（比如<0.5），从人工评价角度来看，可能没有差异性，甚至分数高的翻译品质不如分数低的，这个也是可能的。后来不少研究人员对机器翻译自动评价方法开展了大量的研究，甚至对评价方法的评价也成为了一个研究方向。如何对机器翻译译文进行更加有效的自动评价，这个研究非常有价值，因为基于机器学习的训练方法调优完全基于评价方法作为目标函数，可以这么说，评价方法就是指挥棒，直接影响该领域的发展，所以将来我们还应该更加重视机器翻译评价方法的研究工作。
+\parinterval 传统机器翻译译文评价方法分成自动方法和人工评价方法，自动方法用得最多的是BLEU值，被广泛应用在机器翻译系统研发调优过程中和机器翻译评测中。人工评价就不用过多解释了，从该理论上来说，两者具有正相关，但实验结果显示不是绝对正相关。换句话说，理论上BLEU值越大，机器翻译系统性能越好，但如果两套机器翻译系统的BLEU值差异性不太大的话（比如$<$0.5），从人工评价角度来看，可能没有差异性，甚至分数高的翻译品质不如分数低的情况也可能发生。后来不少研究人员对机器翻译自动评价方法开展了大量的研究，甚至对评价方法的评价也成为了一个研究方向。如何对机器翻译译文进行更加有效的自动评价，这个研究非常有价值，因为基于机器学习的训练方法调优完全基于评价方法，可以这么说，评价方法就是指挥棒，直接影响该领域的发展，所以将来我们还应该更加重视机器翻译评价方法的研究工作。
 \parinterval 机器翻译评价方法除了自动和人工分类以外，还有另外的分类方法：基于参考答案和没有参考答案两类。基于参考答案的自动评价方法比较简单，拿BLEU方法举例子，人工事先构建一个包含几百个甚至上千个句子的测试集合，通常每个源语言句子提供多个（四个）不同的正确译文，然后计算每个源语言句子的自动译文与人工给定的多个参考译文之间的相似度，相似度越大，说明自动译文越接近正确翻译结果。如果人工事先提供多个正确译文有难度的话，偶尔我们也会快速构建只包含一个参考译文的测试集。多个不同参考译文有助于自动评价结果的可靠性，因为一个源语言句子理论上拥有多个不同正确译文。
-\parinterval 做研究实验的时候我们可以实现准备好测试集合，问题是在很多实际应用场景中，比如译后编辑过程中，我们希望机器翻译系统能够对每个输入句子的自动译文提供一个质量评价分数，分数越高表示译文正确性越好，具有更高的译后编辑价值，系统自动推荐高质量的译文给人工翻译后编辑。这种情况下我们不可能实现构建好包含多个参考译文的测试集合，即没有参考译文的自动译文质量评价技术。这个技术非常有趣，用途非常广泛，除了上述推荐高质量译文以外，将来也可以用于数据质量检测，甚至可以用于改善优化机器翻译系统本身。学术界也开展不少相关研究工作，但离实际应用还远远不够，如何利用解码知识和外部语言学知识优化没有参考答案的译文质量评价，是值得深入研究的一个方向。
+\parinterval 做研究实验的时候我们可以实现准备好测试集合，问题是在很多实际应用场景中，比如译后编辑过程中，我们希望机器翻译系统能够对每个输入句子的自动译文提供一个质量评价分数，分数越高表示译文正确性越好，具有更高的译后编辑价值，系统自动推荐高质量的译文给人工翻译后编辑。这种情况下我们不可能实现构建好包含多个参考译文的测试集合，即没有参考译文的自动译文质量评价技术。这个技术非常有趣，用途非常广泛，除了上述推荐高质量译文以外，将来也可以用于数据质量检测，甚至可以用于改善优化机器翻译系统本身。学术界也开展了不少相关研究工作，但离实际应用还远远不够，如何利用解码知识和外部语言学知识优化没有参考答案的译文质量评价，是值得深入研究的一个方向。
-\parinterval 回头讨论一下上述提到的第二个问题，机器翻译一直存在一个诟病就是用户不知道如何有效干预纠错，帮助机器翻译系统越来越好，不能屡教不改。基于规则的方法和统计机器翻译方法相对容易实现人工干预纠错，实现手段比较丰富，神经机器翻译方法存在不可解释性，难以有效实现人工干预纠错。目前不少研究人员也深入研究引入外部知识库（用户双语术语库）来实现对OOV翻译的干预纠错，还有提出增量式训练方法不断迭代优化模型等等，也取得了一些进展。当然还有一个是融合不同技术来实现更好机器翻译效果，甚至引入基于规则的翻译前处理和后处理，引入统计机器翻译技术优化译文选择等等。但这些方法代价不低甚至很高，并且性能提升的效果无法得到保障，有时候可能降低翻译品质，有点像跷跷板现象。总体来说，这个方向的研究工作成果还不够丰富，但对用户来说非常重要，如果能够采用隐性反馈学习方法，在用户不知不觉不断改善优化机器翻译品质，这就非常酷了，也许会成为将来的一个研究热点。
+\parinterval 回头讨论一下上述提到的第二个问题，机器翻译一直存在一个诟病就是用户不知道如何有效干预纠错，帮助机器翻译系统越来越好，不能屡教不改。基于规则的方法和统计机器翻译方法相对容易实现人工干预纠错，实现手段比较丰富，神经机器翻译方法存在不可解释性，难以有效实现人工干预纠错。目前不少研究人员也深入研究引入外部知识库（用户双语术语库）来实现对OOV翻译的干预纠错，还有提出增量式训练方法不断迭代优化模型等等，也取得了一些进展。当然还有融合不同技术来实现更好机器翻译效果，甚至引入基于规则的翻译前处理和后处理，引入统计机器翻译技术优化译文选择等等方法。但这些方法代价不低甚至很高，并且性能提升的效果无法得到保障，有时候可能降低翻译品质，有点像跷跷板现象。总体来说，这个方向的研究工作成果还不够丰富，但对用户来说非常重要，如果能够采用隐性反馈学习方法，在用户不知不觉中不断改善优化机器翻译品质，这就非常酷了，也许会成为将来的一个研究热点。
-\parinterval 如果人工翻译无法完成的任务，比如大规模数据翻译，机器翻译肯定是唯一有效的选择。为了更好帮助人工翻译，交互式机器翻译技术是非常有价值的，但需要解决一个实际问题是用户体验的问题，简单来说就是人工交互的方式。之前比较传统的人机交互方式属于机器翻译尊重人工干预的结果，一旦人工确定译文的部分片段结果后，机器翻译会保证最终输出译文中一定会出现该部分译文片段。举个简单交互例子，比如从左到右的翻译方向，人工指定第一个译文单词，机器翻译就选择输入一个“最佳”译文，首部单词为该单词。这个人机交互模式存在两个问题，一是将人工干预结果作为机器翻译解码过程硬约束，可能对译文生成造成负面影响；二是该人机交互方式改变的人工翻译的习惯，用户体验可能不太好。探索更加丰富的人机交互方式，改善用户体验，同时发挥机器翻译的优势，这是人机交互值得深入研究的课题，本质上人机交互式机器翻译体现了人工干预纠错的思想，不同的一点是这种干预纠错可能是针对当前句子的，不一定针对整个机器翻译系统的，如果能够做到后者，人机交互与错误驱动反馈学习的结合，这就具有非常高的应用价值。
+\parinterval 对于人工翻译无法完成的任务，比如大规模数据翻译，机器翻译肯定是唯一有效的选择。为了更好帮助人工翻译，交互式机器翻译技术是非常有价值的，但需要解决一个实际问题是用户体验的问题，简单来说就是人工交互的方式。之前比较传统的人机交互方式属于机器翻译尊重人工干预的结果，一旦人工确定译文的部分片段结果后，机器翻译会保证最终输出译文中一定会出现该部分译文片段。举个简单交互例子，比如从左到右的翻译方向，人工指定第一个译文单词，机器翻译就选择输入一个“最佳”译文，首部单词为该单词。这个人机交互模式存在两个问题，一是将人工干预结果作为机器翻译解码过程硬约束，可能对译文生成造成负面影响；二是该人机交互方式改变了人工翻译的习惯，用户体验可能不太好。探索更加丰富的人机交互方式，改善用户体验，同时发挥机器翻译的优势，是人机交互值得深入研究的课题，本质上人机交互式机器翻译体现了人工干预纠错的思想，不同的一点是这种干预纠错可能是针对当前句子的，不一定针对整个机器翻译系统的，如果能够做到后者，人机交互与错误驱动反馈学习的结合，这就具有非常高的应用价值。
-\parinterval 传统机器翻译训练学习过程是按照不同语言对进行的，比如中英翻译和中日翻译等。一带一路周边国家就有近百种官方语言，联合国所有成员国的官方语言总数至少两三百个，如果想实现任意两个国家官方语言的互译，这种组合至少有几万个语言对。再加上上千种非官方语言的小语种，任意两个语种的组合就爆炸了，可以达到几百万个不同语言对，每个语言对独立进行训练学习机器翻译系统，代价投入是难以想象的。上文也提到了，99\%以上语言对可能属于资源稀缺型，无法收集足够规模的双语句对完成有效的翻译模型训练学习。为了缓解这个资源稀缺语言翻译的问题，学术界已经开展的很多相关研究工作。我们认为资源稀缺语言翻译和多语言翻译两个不同问题可以考虑相互结合来考虑，基本思想是相同或者相似语系的不同语言之间共享翻译知识，简单来说，能否训练学习一个强大的通用翻译模型，不是简单仅仅支持一个语言对翻译，而是有能力同时支持多个不同语言的互译能力。这个方案的好处是不言而喻的，不仅仅大大降低训练学习的代价，同时大大降低系统部署的硬件投入和维护代价。一旦多语言共享翻译模型取得突破，能够大大缓解小语种翻译的问题，具有良好的理论研究和应用价值。
+\parinterval 传统机器翻译训练学习过程是按照不同语言对进行的，比如中英翻译和中日翻译等。一带一路周边国家就有近百种官方语言，联合国所有成员国的官方语言总数至少两三百个，如果想实现任意两个国家官方语言的互译，这种组合至少有几万个语言对。再加上上千种非官方语言的小语种，任意两个语种的组合就爆炸了，可以达到几百万个不同语言对，每个语言对独立进行训练学习机器翻译系统，代价投入是难以想象的。上文也提到了，99\%以上语言对可能属于资源稀缺型，无法收集足够规模的双语句对完成有效的翻译模型训练学习。为了缓解这个资源稀缺语言翻译的问题，学术界已经开展了很多相关研究工作。我们认为资源稀缺语言翻译和多语言翻译两个不同问题可以相互结合来考虑，基本思想是相同或者相似语系的不同语言之间共享翻译知识，简单来说，能否训练学习一个强大的通用翻译模型，不是简单仅仅支持一个语言对翻译，而是有能力同时支持多个不同语言的互译能力。这个方案的好处是不言而喻的，不仅仅大大降低训练学习的代价，同时大大降低系统部署的硬件投入和维护代价。一旦多语言共享翻译模型取得突破，就能够大大缓解小语种翻译的问题，具有良好的理论研究和应用价值。
-\parinterval 目前神经机器翻译技术被工业界已经广泛使用，我们可以拿Transformer模型来简单讨论一下，在很多其它图像和语音应用领域已经证明网络结构越深，层数越多，有助于提高表示学习能力，提高应用系统的性能。我们同样在机器翻译领域也得到类似结论，如何利用更多层的深层网络来优化机器翻译建模是值得探讨的方向。更深的网络结构也会带来很多麻烦，比如训练代价和有效性问题。训练代价与网络结构深度成正比，这个容易理解，关键是后者训练有效性的问题，比如能否在有限时间内快速收敛，能够收敛到预期结果。传统Transformer模型一旦扩展到10多层，训练学习过程好像就容易出问题，为此我们团队曾提出了deep Transformer模型，有效解决了这个问题，实现有能力训练40层以上的Transformer模型，目的改善机器翻译品质。
+\parinterval 目前神经机器翻译技术已经被工业界广泛使用，我们可以拿Transformer模型来简单讨论一下，在很多其它图像和语音应用领域已经证明网络结构越深，层数越多，有助于提高表示学习能力，提高应用系统的性能。我们同样在机器翻译领域也得到类似结论，如何利用更多层的网络来优化机器翻译建模是值得探讨的方向。更深的网络结构也会带来很多麻烦，比如训练代价和有效性问题。训练代价与网络结构深度成正比，这个容易理解，关键是后者训练有效性的问题，比如能否在有限时间内快速收敛，能够收敛到预期结果。传统Transformer模型一旦扩展到10多层，训练学习过程好像就容易出问题，为此我们团队曾提出deep Transformer模型，有效缓解了这个问题，实现有能力训练40层以上的Transformer模型，目的是改善机器翻译品质。
-\parinterval 通常用于构建机器翻译系统的神经网络结构是人为事先确定，包括预定义层数（深度）和每层宽度等，其实人为事先给定的网络结构对于当前任务来说是否最佳，这个问题没有结论，学术界目前也无法很好回答这个问题。但我们的常识性知识可以得知，过于依赖于专家经验来设计网络结构肯定不是最佳方案，后来学术界就产生的网络结构搜索研究工作，如何根据训练数据本身来自动优化模型深层网络结构，争取达到最佳的训练学习效果，这个一个非常有趣的研究方向。目前神经机器翻译技术主要依赖于编码器-解码器两层技术框架，把编码和解码阶段分开，类似于传统的分析和生成阶段分开，两者又相互依赖，好处就是技术架构简单一点，但可能存在表示学习不够充分和错误蔓延可能性等。为了解决这个问题，我们团队做了一个有趣尝试，提出一个新的神经机器翻译技术框架—基于联合分布的注意力模型Reformer，不依赖于传统编码器-解码器技术框架，类似于端到端一步到位的技术框架，直接采用一个统一技术框架完成翻译过程，这项工作目前还比较初级，有待于进一步深入研究。
+\parinterval 通常用于构建机器翻译系统的神经网络结构是人为事先确定的，包括预定义层数（深度）和每层宽度等，其实人为事先给定的网络结构对于当前任务来说是否最佳，这个问题没有结论，学术界目前也无法很好回答这个问题。但根据我们的常识性知识可以得知，过于依赖专家经验来设计网络结构肯定不是最佳方案，后来学术界就产生了网络结构搜索研究工作，如何根据训练数据本身来自动优化模型深层网络结构，争取达到最佳的训练学习效果，是一个非常有趣的研究方向。目前神经机器翻译技术主要依赖于编码器-解码器两层技术框架，把编码和解码阶段分开，类似于将传统的分析和生成阶段分开，两者又相互依赖，好处就是技术架构简单一点，但可能存在表示学习不够充分和错误蔓延可能性等。为了解决这个问题，我们团队做了一个有趣尝试，提出一个新的神经机器翻译技术框架\ \dash \ 基于联合分布的注意力模型Reformer，不依赖于传统编码器-解码器技术框架，类似于端到端一步到位的技术框架，直接采用一个统一技术框架完成翻译过程，这项工作目前还比较初级，有待于进一步深入研究。
 \parinterval 最后简单评价一下机器翻译市场发展的趋势。机器翻译本身是个强刚需，解决全球用户多语言交流障碍问题。机器翻译产业真正热起来，应该归功于神经机器翻译技术应用，之前基于规则的方法和统计机器翻译技术虽然也在工业界得到了应用，由于翻译品质没有达到用户预期，用户付费欲望比较差，没有良好的商业变现能力，导致机器翻译产业在2017年以前类似于“鸡肋”产业。严格上来说，2016年下半年开始，神经机器翻译技术工业界应用快速激活了用户需求，用户对机器翻译的认可度急剧上升，越来越丰富的应用模式和需求被挖掘出来，除了传统计算机辅助翻译CAT以外，语音和OCR与机器翻译技术结合，大家比较熟悉的语音翻译APP、翻译机、翻译笔、会议AI同传等，还有垂直行业（专利、医药、旅游等）的机器翻译解决方案也逐渐得到了广泛应用。总体来说，机器翻译产学研正在处于快速上升期，每年市场规模至少100\%以上增长，随着多模态机器翻译和大数据翻译技术应用，应用场景会越来越丰富，随着5G甚至6G技术发展，视频翻译和电话通讯翻译等应用会进一步爆发。另外，随着人工智能芯片领域的发展，很自然想到机器翻译芯片也会逐渐得到应用，比如嵌入到手机电话、打印机、复印机、传真机和电视机等智能终端设备，所有内容皆可翻译，任何场景皆可运行，机器翻译服务将进入人们的日常生活中，无所不在，让生活更加美好！