Commit 19454b7e by zengxin

19 delet paragraph

parent 017c3ecb
...@@ -31,32 +31,32 @@ ...@@ -31,32 +31,32 @@
\parinterval 简单来说,机器翻译技术应用至少可以满足三个用户需求。一是实现外文资料辅助阅读和帮助不同母语的人们进行无障碍交流;二是计算机辅助翻译,帮助人工翻译降本增效;三是大数据分析和处理应用领域实现对多语言文字资料(也可以图像和语音资料)进行加工处理,海量数据翻译对于人工翻译来说是无法完成的,机器翻译是大数据翻译的唯一有效解决方案。从上述三个需求可以看出,机器翻译和人工翻译本质上不存在严格冲突,属于两个平行轨道,两者可以和谐共存、相互帮助。对于机器翻译来说,至少有两个应用场景是其无法胜任的。第一个是要求高质量翻译结果,比如诗歌小说翻译出版;第二个是比如国家领导人讲话,轻易不允许出现低级翻译错误,否则有可能导致严重后果甚至国际纠纷。严格上来说,对译文准确性要求很高的应用 场景不可能简单采用机器翻译,必须由高水平的人工翻译参与来完成。 \parinterval 简单来说,机器翻译技术应用至少可以满足三个用户需求。一是实现外文资料辅助阅读和帮助不同母语的人们进行无障碍交流;二是计算机辅助翻译,帮助人工翻译降本增效;三是大数据分析和处理应用领域实现对多语言文字资料(也可以图像和语音资料)进行加工处理,海量数据翻译对于人工翻译来说是无法完成的,机器翻译是大数据翻译的唯一有效解决方案。从上述三个需求可以看出,机器翻译和人工翻译本质上不存在严格冲突,属于两个平行轨道,两者可以和谐共存、相互帮助。对于机器翻译来说,至少有两个应用场景是其无法胜任的。第一个是要求高质量翻译结果,比如诗歌小说翻译出版;第二个是比如国家领导人讲话,轻易不允许出现低级翻译错误,否则有可能导致严重后果甚至国际纠纷。严格上来说,对译文准确性要求很高的应用 场景不可能简单采用机器翻译,必须由高水平的人工翻译参与来完成。
\vspace{0.5em} \vspace{0.5em}
\parinterval 机器翻译技术发展至今经历了三个主要阶段,基于规则的方法、统计机器翻译和神经机器翻译。基于规则的方法大家都比较熟悉,专家人工书写一些转换翻译规则,将源语言句子转换翻译成为目标语言译文句子,最大的瓶颈问题是人工书写翻译规则代价非常高,规则较多很难写全,并且规则写多了容易产生冲突,造成跷跷板现象。为了解决人工书写翻译规则代价过高的问题,后两个发展阶段主要采用机器学习的方法,事先准备好较大规模的双语句子作为训练语料,采用机器学习方法来构建机器翻译系统。这种方法原则上不需要人工干预或者太多干预,并且机器翻译系统构建的代价低、速度快,其主要瓶颈问题就是需要事先收集好大规模双语句对集合,这对于很多语言对来说难度比较大,特别是小语种语言对。 % \parinterval 机器翻译技术发展至今经历了三个主要阶段,基于规则的方法、统计机器翻译和神经机器翻译。基于规则的方法大家都比较熟悉,专家人工书写一些转换翻译规则,将源语言句子转换翻译成为目标语言译文句子,最大的瓶颈问题是人工书写翻译规则代价非常高,规则较多很难写全,并且规则写多了容易产生冲突,造成跷跷板现象。为了解决人工书写翻译规则代价过高的问题,后两个发展阶段主要采用机器学习的方法,事先准备好较大规模的双语句子作为训练语料,采用机器学习方法来构建机器翻译系统。这种方法原则上不需要人工干预或者太多干预,并且机器翻译系统构建的代价低、速度快,其主要瓶颈问题就是需要事先收集好大规模双语句对集合,这对于很多语言对来说难度比较大,特别是小语种语言对。
\vspace{0.5em} %\vspace{0.5em}
\parinterval 如何构建一套好的机器翻译系统呢?假设我们需要给用户提供一套翻译品质不错的机器翻译系统,至少需要考虑三个方面:足够大规模的双语句对集合用于训练学习、强大的机器翻译技术和错误驱动的打磨过程。前两者大家比较好理解,第三点也非常关键,通过总结翻译错误分析原因,比如属于数据问题还是技术问题,找到一个解决方案,不断迭代优化翻译使其品质越来越好。从技术应用和产业化角度来看,简单靠提出一个新的机器翻译技术,对于构建一套好的机器翻译系统来说,只能说必要条件,不是充要条件,上述三者缺一不可。 \parinterval 如何构建一套好的机器翻译系统呢?假设我们需要给用户提供一套翻译品质不错的机器翻译系统,至少需要考虑三个方面:足够大规模的双语句对集合用于训练、强大的机器翻译技术和错误驱动的打磨过程。前两者大家比较好理解,第三点也非常关键,通过总结翻译错误分析原因,比如属于数据问题还是技术问题,找到一个解决方案,不断迭代优化翻译使其品质越来越好。从技术应用和产业化角度来看,简单靠提出一个新的机器翻译技术,对于构建一套好的机器翻译系统来说,只能说必要条件,不是充要条件,上述三者缺一不可。
\vspace{0.5em} \vspace{0.5em}
\parinterval 据了解全世界至少有五六千种不同语言,能够电子化的语种至少也有两三千种,我们真正熟悉的主流语种不会太多,很多语种人才在国内也是稀缺资源。为了缓解这个问题,机器翻译成为了一个有效解决方案(毕竟培养小语种翻译人才代价奇高)。目前主流的机器翻译技术是神经机器翻译,基于深度学习技术,翻译品质依赖于双语句子训练数据规模。我们都知道,只有主流语种比如英语和中文有能力收集较大规模的双语句对集合,目前大多商用英汉机器翻译系统由几个亿的中英双语句对训练而成,但这对于99\%以上的语言对来说是遥不可及的。甚至大部分语言对的电子化双语句对集合规模非常小,过百万算多的,很多只有几万个句对,甚至没有,最多有一个小规模双语词典而已。 %\parinterval 据了解全世界至少有五六千种不同语言,能够电子化的语种至少也有两三千种,我们真正熟悉的主流语种不会太多,很多语种人才在国内也是稀缺资源。为了缓解这个问题,机器翻译成为了一个有效解决方案(毕竟培养小语种翻译人才代价奇高)。目前主流的机器翻译技术是神经机器翻译,基于深度学习技术,翻译品质依赖于双语句子训练数据规模。我们都知道,只有主流语种比如英语和中文有能力收集较大规模的双语句对集合,目前大多商用英汉机器翻译系统由几个亿的中英双语句对训练而成,但这对于99\%以上的语言对来说是遥不可及的。甚至大部分语言对的电子化双语句对集合规模非常小,过百万算多的,很多只有几万个句对,甚至没有,最多有一个小规模双语词典而已。
\vspace{0.5em} %\vspace{0.5em}
\parinterval 因此资源稀缺语种机器翻译技术研究也成为学术界的研究热点,相信这个课题的突破能大大推动机器翻译技术落地应用。机器翻译本身是一个刚需,在很多大数据翻译应用场景,机器翻译是唯一有效的解决方案,非人工翻译所为。在2017年以前机器翻译市场规模一直很小,主要原因就是机器翻译品质不够好,就算采用最先进的神经机器翻译技术,缺乏足够大规模的双语句对集合作为训练数据,我们也是巧妇难为无米之炊。从技术研究和应用可行性角度来说,解决资源稀缺语种机器翻译问题非常有价值。我们通常可以从两个维度来思考,一是如何想办法获取更多双语句对,甚至包括质量低一点的伪双语数据;二是如何从更少样本来实现高效学习,或者充分利用丰富的单语数据资源或者可比较数据资源来提升模型学习效果。 \parinterval 大部分语言对的电子化双语句对集合规模非常小,过百万算多的,很多只有几万个句对,甚至没有,最多有一个小规模双语词典而已。因此资源稀缺语种机器翻译技术研究也成为学术界的研究热点,相信这个课题的突破能大大推动机器翻译技术落地应用。机器翻译本身是一个刚需,在很多大数据翻译应用场景,机器翻译是唯一有效的解决方案,非人工翻译所为。在2017年以前机器翻译市场规模一直很小,主要原因就是机器翻译品质不够好,就算采用最先进的神经机器翻译技术,缺乏足够大规模的双语句对集合作为训练数据,我们也是巧妇难为无米之炊。从技术研究和应用可行性角度来说,解决资源稀缺语种机器翻译问题非常有价值。我们通常可以从两个维度来思考,一是如何想办法获取更多双语句对,甚至包括质量低一点的伪双语数据;二是如何从更少样本来实现高效学习,或者充分利用丰富的单语数据资源或者可比较数据资源来提升模型学习效果。
\vspace{0.5em} \vspace{0.5em}
\parinterval 业内不少研究人员提出采用知识图谱来改善机器翻译,并希望用于解决稀缺资源语种机器翻译问题;还有一些研究工作引入语言分析技术来改善机器翻译,多种不同机器翻译技术融合也是一个思路,比如将基于规则的方法、统计机器翻译技术与神经机器翻译技术互补性融合;另外还可以引入预训练技术来改善机器翻译品质,特别是针对稀缺资源语种机器翻译等等。不仅仅限于上述这些,总体来说,这些思路都具有良好的研究价值,但是从应用角度构建可实用机器翻译系统,我们还需要更多考虑技术落地可行性才行。比如大规模知识图谱构建的代价和语言分析技术的精度如何;实验结果显示大规模双语句对训练条件下,预训练技术对机器翻译的帮助能力有限;双语句对训练数据规模较小的时候,神经机器翻译品质可能不如统计机器翻译,说明两者具有一定互补性。做研究可以搞单点突破,但从可实用机器翻译系统构建来说,需要多技术互补融合,以解决实际问题和改善翻译品质。 %\parinterval 业内不少研究人员提出采用知识图谱来改善机器翻译,并希望用于解决稀缺资源语种机器翻译问题;还有一些研究工作引入语言分析技术来改善机器翻译,多种不同机器翻译技术融合也是一个思路,比如将基于规则的方法、统计机器翻译技术与神经机器翻译技术互补性融合;另外还可以引入预训练技术来改善机器翻译品质,特别是针对稀缺资源语种机器翻译等等。不仅仅限于上述这些,总体来说,这些思路都具有良好的研究价值,但是从应用角度构建可实用机器翻译系统,我们还需要更多考虑技术落地可行性才行。比如大规模知识图谱构建的代价和语言分析技术的精度如何;实验结果显示大规模双语句对训练条件下,预训练技术对机器翻译的帮助能力有限;双语句对训练数据规模较小的时候,神经机器翻译品质可能不如统计机器翻译,说明两者具有一定互补性。做研究可以搞单点突破,但从可实用机器翻译系统构建来说,需要多技术互补融合,以解决实际问题和改善翻译品质。
\vspace{0.5em} %\vspace{0.5em}
\parinterval 通常我们把基于规则的方法、统计机器翻译和神经机器翻译称之为第一、第二和第三代机器翻译技术,很自然会问第四代机器翻译会如何发展?有人说是基于知识的机器翻译技术,也有人说是无监督机器翻译技术或者新的机器翻译范式等等。这个第四代的问题现在肯定没有答案,在讨论这个问题之前,我们能否先回答一个问题呢?所谓新一代机器翻译技术是否应该比目前机器翻译技术的翻译品质更好呢?如果同意的话,第二代机器翻译技术碾压了第一代,第三代也毫无争议地碾压了第二代,现在的问题是实验结果显示,比如拿商用的英汉汉英机器翻译系统举例子,经过几个亿双语句对的训练学习后,翻译品质人工评价可以达到80-90\%之间,也许再过三五年会更好,新闻翻译准确率也许有能力超过90\%,那我们需要回答的一个简单问题是所谓的第四代机器翻译技术准备在新闻领域翻译达到怎样的准确率呢?92\%或者93\%的数字估计无法支撑起新一代机器翻译技术的碾压性,我们可能会得出一个猜测:是否将来不存在第四代机器翻译技术? \parinterval 通常我们把基于规则的方法、统计机器翻译和神经机器翻译称之为第一、第二和第三代机器翻译技术,很自然会问第四代机器翻译会如何发展?有人说是基于知识的机器翻译技术,也有人说是无监督机器翻译技术或者新的机器翻译范式等等。这个第四代的问题现在肯定没有答案,在讨论这个问题之前,我们能否先回答一个问题呢?所谓新一代机器翻译技术是否应该比目前机器翻译技术的翻译品质更好呢?如果同意的话,第二代机器翻译技术碾压了第一代,第三代也毫无争议地碾压了第二代,现在的问题是实验结果显示,比如拿商用的英汉汉英机器翻译系统举例子,经过几个亿双语句对的训练学习后,翻译品质人工评价可以达到80-90\%之间,也许再过三五年会更好,新闻翻译准确率也许有能力超过90\%,那我们需要回答的一个简单问题是所谓的第四代机器翻译技术准备在新闻领域翻译达到怎样的准确率呢?92\%或者93\%的数字估计无法支撑起新一代机器翻译技术的碾压性,我们可能会得出一个猜测:是否将来不存在第四代机器翻译技术?
\vspace{0.5em} \vspace{0.5em}
\parinterval 大家可能会说我论述的角度不对,我也认可这一点,从历史发展观上来看,新一代的技术必然是存在,换句话说,第四代机器翻译技术一定会出现,只是不知道在时候而已。我们可以换个角度来讨论这个问题,神经机器翻译的红利还没有被挖尽,还存在很好的发展空间,在可预期的将来,神经机器翻译技术估计还是属于主流技术,但会产生大量变种。在训练双语数据充分的前提下,要想碾杀神经机器翻译技术,我的确有点质疑这一点。但有一个发展方向是有道理的,前文提到99\%以上语言对属于稀缺资源,目前神经机器翻译技术对于稀缺资源语言对来说表现不好,甚至很差几乎不可用。从这一点来说,无监督机器翻译和更少样本的训练学习机制值得关注,由此产生的新机器翻译技术成为了可能。我们愿意把新一代机器翻译技术称之为面向具体应用场景的第四代机器翻译技术,本质上是针对不同应用条件、不同应用场景提出新一代能力更强的机器翻译技术,不是简单一个技术,而是一个技术集合,这是完全可能的。 \parinterval 大家可能会说我论述的角度不对,我也认可这一点,从历史发展观上来看,新一代的技术必然是存在,换句话说,第四代机器翻译技术一定会出现,只是不知道在什么时候而已。我们可以换个角度来讨论这个问题,神经机器翻译的红利还没有被挖尽,还存在很好的发展空间,在可预期的将来,神经机器翻译技术估计还是属于主流技术,但会产生大量变种。在训练双语数据充分的前提下,要想碾杀神经机器翻译技术,我的确有点质疑这一点。但有一个发展方向是有道理的,前文提到99\%以上语言对属于稀缺资源,目前神经机器翻译技术对于稀缺资源语言对来说表现不好,甚至很差几乎不可用。从这一点来说,无监督机器翻译和更少样本的训练学习机制值得关注,由此产生的新机器翻译技术成为了可能。我们愿意把新一代机器翻译技术称之为面向具体应用场景的第四代机器翻译技术,本质上是针对不同应用条件、不同应用场景提出新一代能力更强的机器翻译技术,不是简单一个技术,而是一个技术集合,这是完全可能的。
\vspace{0.5em} \vspace{0.5em}
\parinterval 这几年神经机器翻译技术大大提升了翻译品质,推动了机器翻译产业化的快速发展。跟其它深度学习技术应用一样,缺乏可解释性成为了神经机器翻译一个被攻击点。有些研究人员持有不同观点,认为神经机器翻译具有良好可解释性,每一步计算过程非常清楚。这就涉及到如何定义可解释性,具有可解释性的深度学习技术也是一个研究热点。我们先举个简单例子来说明一下,法庭上法官判决犯罪嫌疑人罪名成立,我们不可能简单说有罪或者无罪,同时会说明根据哪条法律法规作为依据,从判决过程来看,这些依据就是判决结果的解释。如果采用深度学习技术,只是一个有罪或无罪的结果,不能解释,不提供任何依据细节,估计犯罪嫌疑人肯定不服。 \parinterval 这几年神经机器翻译技术大大提升了翻译品质,推动了机器翻译产业化的快速发展。跟其它深度学习技术应用一样,缺乏可解释性成为了神经机器翻译一个被攻击点。有些研究人员持有不同观点,认为神经机器翻译具有良好可解释性,每一步计算过程非常清楚。这就涉及到如何定义可解释性,具有可解释性的深度学习技术也是一个研究热点。我们先举个简单例子来说明一下,法庭上法官判决犯罪嫌疑人罪名成立,我们不可能简单说有罪或者无罪,同时会说明根据哪条法律法规作为依据,从判决过程来看,这些依据就是判决结果的解释。如果采用深度学习技术,只是一个有罪或无罪的结果,不能解释,不提供任何依据细节,估计犯罪嫌疑人肯定不服。回头来说,我们希望研究神经机器翻译技术的可解释性,目的是为了“纠错”,也可以有利于人工干预机制等。只有通过可解释性研究,搞清楚翻译错误的原因,最终找到解决方案来实现纠错,才是我们研究神经机器翻译技术可解释性的目的所在。
\vspace{0.5em} \vspace{0.5em}
\parinterval 从上述例子我们可以得出一个分析,我们所需要的可解释性的内涵到底是结论推理的计算过程还是结论推理的以理服人呢?对可解释性的两种理解可能是不一样的,前者面向结论推理过程(how),后者面向结论可理解性(why)。回头来说,对神经机器翻译可解释性研究的目标,到底是前者还是后者呢?目前学术界有一些相关研究,比如对神经机器翻译模型中注意力机制的可视化分析软对齐结果等。但有一点是肯定的,我们希望研究神经机器翻译技术的可解释性,目的是为了“纠错”,也可以有利于人工干预机制等。只有通过可解释性研究,搞清楚翻译错误的原因,最终找到解决方案来实现纠错,才是我们研究神经机器翻译技术可解释性的目的所在。 %\parinterval 从上述例子我们可以得出一个分析,我们所需要的可解释性的内涵到底是结论推理的计算过程还是结论推理的以理服人呢?对可解释性的两种理解可能是不一样的,前者面向结论推理过程(how),后者面向结论可理解性(why)。回头来说,对神经机器翻译可解释性研究的目标,到底是前者还是后者呢?目前学术界有一些相关研究,比如对神经机器翻译模型中注意力机制的可视化分析软对齐结果等。但有一点是肯定的,我们希望研究神经机器翻译技术的可解释性,目的是为了“纠错”,也可以有利于人工干预机制等。只有通过可解释性研究,搞清楚翻译错误的原因,最终找到解决方案来实现纠错,才是我们研究神经机器翻译技术可解释性的目的所在。
\vspace{0.5em} %\vspace{0.5em}
\parinterval 除了翻译品质维度以外,机器翻译技术应用可以从三个维度来讨论,包括语种维度、领域维度和应用模式维度。机器翻译技术应该为全球用户服务,提供支持所有国家至少一种官方语言的翻译能力,实现任意两种语言的自动互译,当然语种数量越多越好。面临的最大问题就是双语数据稀缺,上述已经讨论了这个问题。关于领域维度,通用领域翻译系统对于垂直领域应用来说是不够充分的,最典型的问题在于垂直领域术语翻译的问题,计算机不能无中生有,虽然存在瞎猫碰死耗子,但没有办法充分解决垂直领域术语OOV翻译问题。比较直接可行的解决方案至少有两个,一是引入垂直领域术语双语词典用于改善机器翻译效果;二是收集加工一定规模的垂直领域双语句对来优化训练翻译模型。这两种工程方法虽然简单,但效果不错,相对来说,两者结合才能更加有效,但问题是垂直领域双语句对的收集很多时候代价太高,不太可行,本质上就转换成为垂直领域资源稀缺问题和领域自适应学习问题,另外也可以引入小样本学习、迁移学习和联合学习等机器学习技术来改善这个问题。 \parinterval 除了翻译品质维度以外,机器翻译技术应用可以从三个维度来讨论,包括语种维度、领域维度和应用模式维度。机器翻译技术应该为全球用户服务,提供支持所有国家至少一种官方语言的翻译能力,实现任意两种语言的自动互译,当然语种数量越多越好。面临的最大问题就是双语数据稀缺,上述已经讨论了这个问题。关于领域维度,通用领域翻译系统对于垂直领域应用来说是不够充分的,最典型的问题在于垂直领域术语翻译的问题,计算机不能无中生有,虽然存在瞎猫碰死耗子,但没有办法充分解决垂直领域术语OOV翻译问题。比较直接可行的解决方案至少有两个,一是引入垂直领域术语双语词典用于改善机器翻译效果;二是收集加工一定规模的垂直领域双语句对来优化训练翻译模型。这两种工程方法虽然简单,但效果不错,相对来说,两者结合才能更加有效,但问题是垂直领域双语句对的收集很多时候代价太高,不太可行,本质上就转换成为垂直领域资源稀缺问题和领域自适应学习问题,另外也可以引入小样本学习、迁移学习和联合学习等机器学习技术来改善这个问题。
...@@ -74,16 +74,16 @@ ...@@ -74,16 +74,16 @@
\vspace{0.5em} \vspace{0.5em}
\parinterval 即使双语句对训练集合规模非常大、机器翻译技术在不断优化,但我们都知道机器翻译结果不可能完美,出现一些译文错误是难免的。如果我们想利用机器翻译技术来帮助人工翻译过程,比较常见的方式是译后编辑,即对自动译文进行人工修正错误。这就很自然产生两个实际问题,一是自动译文是否具有编辑价值?一个简单的计算方法就是编辑距离,即人工需要通过多少次增删改动作可以完成译后编辑过程。其次数越少,说明机器翻译对人工翻译的帮助越大。编辑距离本质上是一种译文质量评价的方法,可以考虑推荐具有较高译后编辑价值的自动译文给人工译员。第二个问题就是当机器翻译出现错误且人工译后编辑修正后,能否通过一种有效的错误反馈机制帮助机器翻译系统提高性能。学术界也有很多人研究这个问题,目前还没有取得大家满意的结果。除此之外还有另外一些问题:比如人机交互的用户体验问题,该需求很自然带起了交互式机器翻译技术研究,希望最大程度发挥人机协同合作效果,这个也是值得研究的课题。 \parinterval 即使双语句对训练集合规模非常大、机器翻译技术在不断优化,但我们都知道机器翻译结果不可能完美,出现一些译文错误是难免的。如果我们想利用机器翻译技术来帮助人工翻译过程,比较常见的方式是译后编辑,即对自动译文进行人工修正错误。这就很自然产生两个实际问题,一是自动译文是否具有编辑价值?一个简单的计算方法就是编辑距离,即人工需要通过多少次增删改动作可以完成译后编辑过程。其次数越少,说明机器翻译对人工翻译的帮助越大。编辑距离本质上是一种译文质量评价的方法,可以考虑推荐具有较高译后编辑价值的自动译文给人工译员。第二个问题就是当机器翻译出现错误且人工译后编辑修正后,能否通过一种有效的错误反馈机制帮助机器翻译系统提高性能。学术界也有很多人研究这个问题,目前还没有取得大家满意的结果。除此之外还有另外一些问题:比如人机交互的用户体验问题,该需求很自然带起了交互式机器翻译技术研究,希望最大程度发挥人机协同合作效果,这个也是值得研究的课题。
\vspace{0.5em} %\vspace{0.5em}
\parinterval 传统机器翻译译文评价方法分成自动方法和人工评价方法,自动方法用得最多的是BLEU值,被广泛应用于机器翻译系统研发调优过程中和机器翻译评测中。人工评价就不用过多解释了,从理论上来说,两者具有正相关,但实验结果显示不是绝对正相关。换句话说,理论上BLEU值越大,机器翻译系统性能越好,但如果两套机器翻译系统的BLEU值差异性不太大的话(比如$<$0.5),从人工评价角度来看,可能没有差异性,甚至分数高的翻译品质不如分数低的情况也可能发生。后来不少研究人员对机器翻译自动评价方法开展了大量的研究,甚至对评价方法的评价也成为了一个研究方向。如何对机器翻译译文进行更加有效的自动评价,这个研究非常有价值,因为基于机器学习的训练方法调优完全基于评价方法,可以这么说,评价方法就是指挥棒,直接影响该领域的发展,所以将来我们还应该更加重视机器翻译评价方法的研究工作。 %\parinterval 传统机器翻译译文评价方法分成自动方法和人工评价方法,自动方法用得最多的是BLEU值,被广泛应用于机器翻译系统研发调优过程中和机器翻译评测中。人工评价就不用过多解释了,从理论上来说,两者具有正相关,但实验结果显示不是绝对正相关。换句话说,理论上BLEU值越大,机器翻译系统性能越好,但如果两套机器翻译系统的BLEU值差异性不太大的话(比如$<$0.5),从人工评价角度来看,可能没有差异性,甚至分数高的翻译品质不如分数低的情况也可能发生。后来不少研究人员对机器翻译自动评价方法开展了大量的研究,甚至对评价方法的评价也成为了一个研究方向。如何对机器翻译译文进行更加有效的自动评价,这个研究非常有价值,因为基于机器学习的训练方法调优完全基于评价方法,可以这么说,评价方法就是指挥棒,直接影响该领域的发展,所以将来我们还应该更加重视机器翻译评价方法的研究工作。
\vspace{0.5em} %\vspace{0.5em}
\parinterval 机器翻译评价方法除了自动和人工分类以外,还有另外的分类方法:基于参考答案和没有参考答案两类。基于参考答案的自动评价方法比较简单,拿BLEU方法举例子,人工事先构建一个包含几百个甚至上千个句子的测试集合,通常每个源语言句子提供多个(四个)不同的正确译文,然后计算每个源语言句子的自动译文与人工给定的多个参考译文之间的相似度,相似度越大,说明自动译文越接近正确翻译结果。如果人工事先提供多个正确译文有难度的话,偶尔我们也会快速构建只包含一个参考译文的测试集。多个不同参考译文有助于自动评价结果的可靠性,因为一个源语言句子理论上拥有多个不同正确译文。 %\parinterval 机器翻译评价方法除了自动和人工分类以外,还有另外的分类方法:基于参考答案和没有参考答案两类。基于参考答案的自动评价方法比较简单,拿BLEU方法举例子,人工事先构建一个包含几百个甚至上千个句子的测试集合,通常每个源语言句子提供多个(四个)不同的正确译文,然后计算每个源语言句子的自动译文与人工给定的多个参考译文之间的相似度,相似度越大,说明自动译文越接近正确翻译结果。如果人工事先提供多个正确译文有难度的话,偶尔我们也会快速构建只包含一个参考译文的测试集。多个不同参考译文有助于自动评价结果的可靠性,因为一个源语言句子理论上拥有多个不同正确译文。
\vspace{0.5em} %\vspace{0.5em}
\parinterval 做研究实验的时候我们可以事先准备好测试集合,问题是在很多实际应用场景中,比如译后编辑过程中,我们希望机器翻译系统能够对每个输入句子的自动译文提供一个质量评价分数,分数越高表示译文正确性越好,具有更高的译后编辑价值,系统自动推荐高质量的译文给人工翻译后编辑。这种情况下我们不可能实现构建好包含多个参考译文的测试集合,即没有参考译文的自动译文质量评价技术。这个技术非常有趣,用途非常广泛,除了上述推荐高质量译文以外,将来也可以用于数据质量检测,甚至可以用于改善优化机器翻译系统本身。学术界也开展了不少相关研究工作,但离实际应用还远远不够,如何利用解码知识和外部语言学知识优化没有参考答案的译文质量评价,是值得深入研究的一个方向。 %\parinterval 做研究实验的时候我们可以事先准备好测试集合,问题是在很多实际应用场景中,比如译后编辑过程中,我们希望机器翻译系统能够对每个输入句子的自动译文提供一个质量评价分数,分数越高表示译文正确性越好,具有更高的译后编辑价值,系统自动推荐高质量的译文给人工翻译后编辑。这种情况下我们不可能实现构建好包含多个参考译文的测试集合,即没有参考译文的自动译文质量评价技术。这个技术非常有趣,用途非常广泛,除了上述推荐高质量译文以外,将来也可以用于数据质量检测,甚至可以用于改善优化机器翻译系统本身。学术界也开展了不少相关研究工作,但离实际应用还远远不够,如何利用解码知识和外部语言学知识优化没有参考答案的译文质量评价,是值得深入研究的一个方向。
\vspace{0.5em} %\vspace{0.5em}
\parinterval 回头讨论一下上述提到的第二个问题,机器翻译一直存在一个诟病就是用户不知道如何有效干预纠错,帮助机器翻译系统越来越好,并且我们也不希望它屡教不改。基于规则的方法和统计机器翻译方法相对容易实现人工干预纠错,实现手段比较丰富,而神经机器翻译方法存在不可解释性,难以有效实现人工干预纠错。目前有的研究人员深入研究引入外部知识库(用户双语术语库)来实现对OOV翻译的干预纠错;有的提出使用增量式训练方法不断迭代优化模型,也取得了一些进展;有的融合不同技术来实现更好的机器翻译效果,比如引入基于规则的翻译前处理和后处理,或者引入统计机器翻译技术优化译文选择等等。但这些方法代价不低甚至很高,并且性能提升的效果无法得到保障,有时候可能降低翻译品质,有点像跷跷板现象。总体来说,这个方向的研究工作成果还不够丰富,但对用户来说非常重要,如果能够采用隐性反馈学习方法,在用户不知不觉中不断改善优化机器翻译品质,就非常酷了,这也许会成为将来的一个研究热点。 \parinterval 回头讨论一下上述提到的第二个问题,机器翻译一直存在一个诟病就是用户不知道如何有效干预纠错,帮助机器翻译系统越来越好,并且我们也不希望它屡教不改。基于规则的方法和统计机器翻译方法相对容易实现人工干预纠错,实现手段比较丰富,而神经机器翻译方法存在不可解释性,难以有效实现人工干预纠错。目前有的研究人员深入研究引入外部知识库(用户双语术语库)来实现对OOV翻译的干预纠错;有的提出使用增量式训练方法不断迭代优化模型,也取得了一些进展;有的融合不同技术来实现更好的机器翻译效果,比如引入基于规则的翻译前处理和后处理,或者引入统计机器翻译技术优化译文选择等等。但这些方法代价不低甚至很高,并且性能提升的效果无法得到保障,有时候可能降低翻译品质,有点像跷跷板现象。总体来说,这个方向的研究工作成果还不够丰富,但对用户来说非常重要,如果能够采用隐性反馈学习方法,在用户不知不觉中不断改善优化机器翻译品质,就非常酷了,这也许会成为将来的一个研究热点。
\vspace{0.5em} \vspace{0.5em}
...@@ -94,11 +94,11 @@ ...@@ -94,11 +94,11 @@
\parinterval 传统机器翻译训练学习过程是按照不同语言对进行的,比如中英翻译和中日翻译等。一带一路周边国家就有近百种官方语言,联合国所有成员国的官方语言总数至少两三百个,如果想实现任意两个国家官方语言的互译,这种组合至少有几万个语言对。再加上上千种非官方语言的小语种,任意两个语种的组合就爆炸了,可以达到几百万个不同语言对,每个语言对独立进行训练学习机器翻译系统,代价投入是难以想象的。上文也提到了,可能有99\%以上语言对属于资源稀缺型,无法收集足够规模的双语句对完成有效的翻译模型训练学习。为了缓解这个资源稀缺语言翻译的问题,学术界已经开展了很多相关研究工作。我们认为资源稀缺语言翻译和多语言翻译两个不同问题可以相互结合来考虑,基本思想是相同或者相似语系的不同语言之间共享翻译知识。简单来说,能否训练学习一个强大的通用翻译模型,不是简单仅仅支持一个语言对翻译,而是有能力同时支持多个不同语言的互译能力。这个方案的好处是不言而喻的,不仅能大大降低训练学习的代价,还可大大降低系统部署的硬件投入和维护代价。一旦多语言共享翻译模型取得突破,就能够大大缓解小语种翻译的问题,具有良好的理论研究和应用价值。 \parinterval 传统机器翻译训练学习过程是按照不同语言对进行的,比如中英翻译和中日翻译等。一带一路周边国家就有近百种官方语言,联合国所有成员国的官方语言总数至少两三百个,如果想实现任意两个国家官方语言的互译,这种组合至少有几万个语言对。再加上上千种非官方语言的小语种,任意两个语种的组合就爆炸了,可以达到几百万个不同语言对,每个语言对独立进行训练学习机器翻译系统,代价投入是难以想象的。上文也提到了,可能有99\%以上语言对属于资源稀缺型,无法收集足够规模的双语句对完成有效的翻译模型训练学习。为了缓解这个资源稀缺语言翻译的问题,学术界已经开展了很多相关研究工作。我们认为资源稀缺语言翻译和多语言翻译两个不同问题可以相互结合来考虑,基本思想是相同或者相似语系的不同语言之间共享翻译知识。简单来说,能否训练学习一个强大的通用翻译模型,不是简单仅仅支持一个语言对翻译,而是有能力同时支持多个不同语言的互译能力。这个方案的好处是不言而喻的,不仅能大大降低训练学习的代价,还可大大降低系统部署的硬件投入和维护代价。一旦多语言共享翻译模型取得突破,就能够大大缓解小语种翻译的问题,具有良好的理论研究和应用价值。
\vspace{0.5em} \vspace{0.5em}
\parinterval 目前神经机器翻译技术已经被工业界广泛使用,我们可以拿Transformer模型来简单讨论一下,在很多领域,比如图像和语音应用领域已经证明网络结构越深,层数越多,越有助于提高表示学习能力和应用系统的性能。同样我们在机器翻译领域也得到类似结论,如何利用更多层的网络来优化机器翻译建模是值得探讨的方向。更深的网络结构也会带来很多麻烦,比如训练代价和有效性问题。训练代价与网络结构深度成正比,这个容易理解,关键是后者训练有效性的问题,比如能否在有限时间内快速收敛到预期结果。传统Transformer模型一旦扩展到10多层,训练学习过程好像就容易出问题,为此我们团队曾提出SDT训练方法,有效缓解了这个问题,实现有能力训练40层以上的Transformer模型,目的在于改善机器翻译品质。 % \parinterval 目前神经机器翻译技术已经被工业界广泛使用,我们可以拿Transformer模型来简单讨论一下,在很多领域,比如图像和语音应用领域已经证明网络结构越深,层数越多,越有助于提高表示学习能力和应用系统的性能。同样我们在机器翻译领域也得到类似结论,如何利用更多层的网络来优化机器翻译建模是值得探讨的方向。更深的网络结构也会带来很多麻烦,比如训练代价和有效性问题。训练代价与网络结构深度成正比,这个容易理解,关键是后者训练有效性的问题,比如能否在有限时间内快速收敛到预期结果。传统Transformer模型一旦扩展到10多层,训练学习过程好像就容易出问题,为此我们团队曾提出SDT训练方法,有效缓解了这个问题,实现有能力训练40层以上的Transformer模型,目的在于改善机器翻译品质。
\vspace{0.5em} %\vspace{0.5em}
\parinterval 通常用于构建机器翻译系统的神经网络结构是人为事先确定的,包括预定义层数(深度)和每层宽度等,其实人为事先给定的网络结构对于当前任务来说是否最佳,这个问题没有结论,学术界目前也无法很好回答这个问题。但根据我们的常识性知识可以得知,过于依赖专家经验来设计网络结构肯定不是最佳方案,后来学术界就产生了网络结构搜索研究工作,即如何根据训练数据本身来自动优化模型深层网络结构,争取达到最佳的训练学习效果,是一个非常有趣的研究方向。目前神经机器翻译技术主要依赖于编码器-解码器两层技术框架,把编码和解码阶段分开,类似于将传统的分析和生成阶段分开,但两者又相互依赖,这样做的好处是技术架构简单,不过可能存在表示学习不够充分和错误蔓延等问题的可能性。为了解决这个问题,我们团队做了一个有趣尝试,提出一个新的神经机器翻译技术框架\ \dash \ 基于联合分布的注意力模型Reformer,不依赖于传统编码器-解码器技术框架,而是直接采用一个统一技术框架完成翻译过程,这项工作目前还比较初级,有待于进一步深入研究。 %\parinterval 通常用于构建机器翻译系统的神经网络结构是人为事先确定的,包括预定义层数(深度)和每层宽度等,其实人为事先给定的网络结构对于当前任务来说是否最佳,这个问题没有结论,学术界目前也无法很好回答这个问题。但根据我们的常识性知识可以得知,过于依赖专家经验来设计网络结构肯定不是最佳方案,后来学术界就产生了网络结构搜索研究工作,即如何根据训练数据本身来自动优化模型深层网络结构,争取达到最佳的训练学习效果,是一个非常有趣的研究方向。目前神经机器翻译技术主要依赖于编码器-解码器两层技术框架,把编码和解码阶段分开,类似于将传统的分析和生成阶段分开,但两者又相互依赖,这样做的好处是技术架构简单,不过可能存在表示学习不够充分和错误蔓延等问题的可能性。为了解决这个问题,我们团队做了一个有趣尝试,提出一个新的神经机器翻译技术框架\ \dash \ 基于联合分布的注意力模型Reformer,不依赖于传统编码器-解码器技术框架,而是直接采用一个统一技术框架完成翻译过程,这项工作目前还比较初级,有待于进一步深入研究。
\vspace{0.5em} %\vspace{0.5em}
\parinterval 最后简单评价一下机器翻译市场发展的趋势。机器翻译本身是个强刚需,用于解决全球用户多语言交流障碍问题。机器翻译产业真正热起来,应该归功于神经机器翻译技术应用,之前基于规则的方法和统计机器翻译技术虽然也在工业界得到了应用,但由于翻译品质没有达到用户预期,用户付费欲望比较差,没有良好的商业变现能力,导致机器翻译产业在2017年以前类似于“鸡肋”产业。严格上来说,2016年下半年开始,神经机器翻译技术工业界应用快速激活了用户需求,用户对机器翻译的认可度急剧上升,越来越丰富的应用模式和需求被挖掘出来,除了传统计算机辅助翻译CAT以外,语音和OCR与机器翻译技术结合,使得大家比较熟悉的语音翻译APP、翻译机、翻译笔、会议AI同传和垂直行业(专利、医药、旅游等)等的机器翻译解决方案也逐渐得到了广泛应用。总体来说,机器翻译产学研正处于快速上升期,每年市场规模达到至少100\%以上增长,随着多模态机器翻译和大数据翻译技术应用,应用场景会越来越丰富,随着5G甚至6G技术发展,视频翻译和电话通讯翻译等应用会进一步爆发。另外,随着人工智能芯片领域的发展,很自然地机器翻译芯片也会逐渐得到应用,比如嵌入到手机、打印机、复印机、传真机和电视机等智能终端设备,实现所有内容皆可翻译,任何场景皆可运行的目标,机器翻译服务将进入人们的日常生活中,无所不在,让生活更加美好! \parinterval 最后简单评价一下机器翻译市场发展的趋势。机器翻译本身是个强刚需,用于解决全球用户多语言交流障碍问题。机器翻译产业真正热起来,应该归功于神经机器翻译技术应用,之前基于规则的方法和统计机器翻译技术虽然也在工业界得到了应用,但由于翻译品质没有达到用户预期,用户付费欲望比较差,没有良好的商业变现能力,导致机器翻译产业在2017年以前类似于“鸡肋”产业。严格上来说,2016年下半年开始,神经机器翻译技术工业界应用快速激活了用户需求,用户对机器翻译的认可度急剧上升,越来越丰富的应用模式和需求被挖掘出来,除了传统计算机辅助翻译CAT以外,语音和OCR与机器翻译技术结合,使得大家比较熟悉的语音翻译APP、翻译机、翻译笔、会议AI同传和垂直行业(专利、医药、旅游等)等的机器翻译解决方案也逐渐得到了广泛应用。总体来说,机器翻译产学研正处于快速上升期,每年市场规模达到至少100\%以上增长,随着多模态机器翻译和大数据翻译技术应用,应用场景会越来越丰富,随着5G甚至6G技术发展,视频翻译和电话通讯翻译等应用会进一步爆发。另外,随着人工智能芯片领域的发展,很自然地机器翻译芯片也会逐渐得到应用,比如嵌入到手机、打印机、复印机、传真机和电视机等智能终端设备,实现所有内容皆可翻译,任何场景皆可运行的目标,机器翻译服务将进入人们的日常生活中,无所不在,让生活更加美好!
\vspace{0.5em} \vspace{0.5em}
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论