Commit 3b181767 by zengxin

19

parent 4cf5fa2a
......@@ -25,10 +25,10 @@
\parinterval 朱靖波 2020.12.10-16随笔\\
\parinterval 自从计算机诞生开始,机器翻译即利用计算机软件技术实现不同语言自动翻译,就是人们首先想到的计算机主要应用之一。很多人说现在处于人工智能时代,是得语言者的天下,而机器翻译也是认知智能的终极梦想之一,本节将分享我们对机器翻译技术和应用的一些思考,有些想法不一定正确,也许需要十年之后才能确定其对错。
\vspace{0.5em}
\parinterval 自从计算机诞生开始,机器翻译即利用计算机软件技术实现不同语言自动翻译,就是人们首先想到的计算机主要应用之一。很多人说现在处于人工智能时代,是得语言者的天下,因此机器翻译也是认知智能的终极梦想之一,本节将分享我们对机器翻译技术和应用的一些思考,有些想法不一定正确,也许需要十年之后才能验证。
\parinterval 简单来说,机器翻译技术应用至少可以满足三个用户需求。一是实现外文资料辅助阅读和帮助不同母语的人们进行无障碍交流;二是计算机辅助翻译,帮助人工翻译降本增效;三是大数据分析和处理应用领域实现对多语言文字资料(也可以图像和语音资料)进行加工处理,海量数据翻译对于人工翻译来说是无法完成的,机器翻译是大数据翻译的唯一有效解决方案。从上述三个需求可以看出,机器翻译和人工翻译本质上不存在严格冲突,属于两个平行轨道,两者可以和谐共存、相互帮助。对于机器翻译来说,至少有两个应用场景是无法胜任的。第一个是要求高质量翻译结果,比如诗歌小说翻译出版;第二个是比如国家领导人讲话,轻易不允许出现低级翻译错误,否则有可能导致严重后果甚至国际纠纷。严格上来说,对译文准确性要求很高的应用 场景不可能简单采用机器翻译,必须由高水平的人工翻译参与来完成。
\vspace{0.5em}
\parinterval 简单来说,机器翻译技术应用至少可以满足三个用户需求。一是实现外文资料辅助阅读和帮助不同母语的人们进行无障碍交流;二是计算机辅助翻译,帮助人工翻译降本增效;三是大数据分析和处理应用领域实现对多语言文字资料(也可以图像和语音资料)进行加工处理,海量数据翻译对于人工翻译来说是无法完成的,机器翻译是大数据翻译的唯一有效解决方案。从上述三个需求可以看出,机器翻译和人工翻译本质上不存在严格冲突,属于两个平行轨道,两者可以和谐共存、相互帮助。对于机器翻译来说,至少有两个应用场景是其无法胜任的。第一个是要求高质量翻译结果,比如诗歌小说翻译出版;第二个是比如国家领导人讲话,轻易不允许出现低级翻译错误,否则有可能导致严重后果甚至国际纠纷。严格上来说,对译文准确性要求很高的应用 场景不可能简单采用机器翻译,必须由高水平的人工翻译参与来完成。
\vspace{0.5em}
\parinterval 机器翻译技术发展至今经历了三个主要阶段,基于规则的方法、统计机器翻译和神经机器翻译。基于规则的方法大家都比较熟悉,专家人工书写一些转换翻译规则,将源语言句子转换翻译成为目标语言译文句子,最大的瓶颈问题是人工书写翻译规则代价非常高,规则较多很难写全,并且规则写多了容易产生冲突,造成跷跷板现象。为了解决这个人工书写翻译规则代价过高的问题,后两个发展阶段主要采用机器学习的方法,事先准备好较大规模的双语句子作为训练语料,采用机器学习方法来构建机器翻译系统。这种方法原则上不需要人工干预或者太多干预,并且机器翻译系统构建的代价低、速度快,其主要瓶颈问题就是需要事先收集好大规模双语句对集合,这对于很多语言对来说难度比较大,特别是小语种语言对。
......@@ -43,25 +43,25 @@
\parinterval 资源稀缺语种机器翻译技术研究也成为学术界的研究热点,相信这个课题的突破能大大推动机器翻译技术落地应用。机器翻译本身是一个刚需,在很多大数据翻译应用场景,机器翻译是唯一有效的解决方案,非人工翻译所为。在2017年以前机器翻译市场规模一直很小,主要原因就是受制于机器翻译品质不够好,就算采用最先进的神经机器翻译技术,缺乏足够大规模的双语句对集合作为训练数据,我们也是巧妇难为无米之炊。从技术研究和应用可行性角度来说,解决资源稀缺语种机器翻译问题非常有价值。我们通常可以从两个维度来思考,一是如何想办法获取更多双语句对,甚至包括质量低一点的伪双语数据;二是如何从更少样本来实现高效学习,或者充分利用丰富的单语数据资源或者可比较数据资源来提升模型学习效果。
\vspace{0.5em}
\parinterval 业内不少研究人员提出采用知识图谱来改善机器翻译,并希望用于解决稀缺资源语种机器翻译问题;一些研究工作引入语言分析技术来改善机器翻译,多种不同机器翻译技术融合也是一个思路,比如将基于规则的方法、统计机器翻译技术与神经机器翻译技术互补性融合;引入预训练技术来改善机器翻译品质,特别是针对稀缺资源语种机器翻译等等。不仅仅限于上述这些,总体来说,这些思路都具有良好的研究价值,但是从应用角度构建可实用机器翻译系统,我们还需要更多考虑技术落地可行性才行。比如大规模知识图谱构建的代价和语言分析技术的精度如何;实验结果显示大规模双语句对训练条件下,预训练技术对机器翻译的帮助能力有限;双语句对训练数据规模较小的时候,神经机器翻译品质可能不如统计机器翻译,说明两者具有一定互补性。做研究可以搞单点突破,但从可实用机器翻译系统构建来说,需要多技术互补融合,以解决实际问题和改善翻译品质作为目标函数才行
\parinterval 业内不少研究人员提出采用知识图谱来改善机器翻译,并希望用于解决稀缺资源语种机器翻译问题;还有一些研究工作引入语言分析技术来改善机器翻译,多种不同机器翻译技术融合也是一个思路,比如将基于规则的方法、统计机器翻译技术与神经机器翻译技术互补性融合;另外还可以引入预训练技术来改善机器翻译品质,特别是针对稀缺资源语种机器翻译等等。不仅仅限于上述这些,总体来说,这些思路都具有良好的研究价值,但是从应用角度构建可实用机器翻译系统,我们还需要更多考虑技术落地可行性才行。比如大规模知识图谱构建的代价和语言分析技术的精度如何;实验结果显示大规模双语句对训练条件下,预训练技术对机器翻译的帮助能力有限;双语句对训练数据规模较小的时候,神经机器翻译品质可能不如统计机器翻译,说明两者具有一定互补性。做研究可以搞单点突破,但从可实用机器翻译系统构建来说,需要多技术互补融合,以解决实际问题和改善翻译品质
\vspace{0.5em}
\parinterval 通常我们把规则方法、统计机器翻译和神经机器翻译称之为第一、第二和第三代机器翻译技术,很自然会问第四代机器翻译会如何发展?有人说是基于知识的机器翻译技术,也有人说是无监督机器翻译技术或者新的机器翻译范式等等。这个第四代的问题现在肯定没有答案,在讨论这个问题之前,我们能否先解释一个问题呢?所谓新一代机器翻译技术是否应该比目前机器翻译技术的翻译品质更好呢?如果同意的话,第二代机器翻译技术碾压了第一代,第三代也毫无争议地碾压了第二代,现在的问题是实验结果显示,比如拿商用的英汉汉英机器翻译系统举例子,经过几个亿双语句对的训练学习后,翻译品质人工评价可以达到80-90\%之间,也许再过三五年会更好,新闻翻译准确率也许有能力超过90\%以上,那我们需要回答的一个简单问题是所谓的第四代机器翻译技术准备在新闻领域翻译达到啥样的准确率呢?92\%或者93\%的数字估计无法支撑起新一代机器翻译技术的碾压性,我们可能会得出一个猜测:是否将来不存在第四代机器翻译技术?
\parinterval 通常我们把基于规则的方法、统计机器翻译和神经机器翻译称之为第一、第二和第三代机器翻译技术,很自然会问第四代机器翻译会如何发展?有人说是基于知识的机器翻译技术,也有人说是无监督机器翻译技术或者新的机器翻译范式等等。这个第四代的问题现在肯定没有答案,在讨论这个问题之前,我们能否先回答一个问题呢?所谓新一代机器翻译技术是否应该比目前机器翻译技术的翻译品质更好呢?如果同意的话,第二代机器翻译技术碾压了第一代,第三代也毫无争议地碾压了第二代,现在的问题是实验结果显示,比如拿商用的英汉汉英机器翻译系统举例子,经过几个亿双语句对的训练学习后,翻译品质人工评价可以达到80-90\%之间,也许再过三五年会更好,新闻翻译准确率也许有能力超过90\%,那我们需要回答的一个简单问题是所谓的第四代机器翻译技术准备在新闻领域翻译达到怎样的准确率呢?92\%或者93\%的数字估计无法支撑起新一代机器翻译技术的碾压性,我们可能会得出一个猜测:是否将来不存在第四代机器翻译技术?
\vspace{0.5em}
\parinterval 大家可能会说我论述的角度不对,我也认可这一点,从历史发展观上来看,新一代的技术必然是存在,换句话说,第四代机器翻译技术一定会出现,只是不知道在啥时候而已。我们可以换个角度来讨论这个问题,神经机器翻译的红利还没有被挖尽,还存在很好的发展空间,在可预期的将来,神经机器翻译技术估计还是属于主流技术,但会产生大量变种。在训练双语数据充分的前提下,要想碾杀神经机器翻译技术,我的确有点质疑这一点。但有一个发展方向是有道理的,前文提到99\%以上语言对属于稀缺资源,目前神经机器翻译技术对于稀缺资源语言对来说表现不好,甚至很差几乎不可用。从这一点来说,无监督机器翻译和更少样本的训练学习机制值得关注,由此产生的新机器翻译技术成为了可能。我们愿意把新一代机器翻译技术称之为面向具体应用场景的第四代机器翻译技术,本质上是针对不同应用条件、不同应用场景提出新一代更强能力的机器翻译技术,不是简单一个技术,而是一个技术集合,这是完全可能的。
\vspace{0.5em}
\parinterval 这几年神经机器翻译技术大大提升了翻译品质,推动了机器翻译产业化的快速发展。跟其它深度学习技术应用一样,缺乏可解释性成为了神经机器翻译一个被攻击点。有些研究人员持有不同观点,认为神经机器翻译具有良好可解释性,每一步计算过程非常清楚。这就涉及到如何定义可解释性,具有可解释性的深度学习技术也是一个研究热点。我们先举个简单例子来说明一下,法庭上法官判决犯罪嫌疑人罪名成立,我们不可能简单说有罪或者无罪,同时会说明根据哪条法律法规作为依据,从判决过程来看,这些依据就是判决结果的解释。如果采用深度学习技术,只是一个有罪无罪的结果,不可能解释,不提供任何依据细节,估计犯罪嫌疑人肯定不服。
\parinterval 这几年神经机器翻译技术大大提升了翻译品质,推动了机器翻译产业化的快速发展。跟其它深度学习技术应用一样,缺乏可解释性成为了神经机器翻译一个被攻击点。有些研究人员持有不同观点,认为神经机器翻译具有良好可解释性,每一步计算过程非常清楚。这就涉及到如何定义可解释性,具有可解释性的深度学习技术也是一个研究热点。我们先举个简单例子来说明一下,法庭上法官判决犯罪嫌疑人罪名成立,我们不可能简单说有罪或者无罪,同时会说明根据哪条法律法规作为依据,从判决过程来看,这些依据就是判决结果的解释。如果采用深度学习技术,只是一个有罪无罪的结果,不可能解释,不提供任何依据细节,估计犯罪嫌疑人肯定不服。
\vspace{0.5em}
\parinterval 从上述例子我们可以得出一个分析,我们所需要的可解释性的内涵到底是结论推理的计算过程还是结论推理的以理服人呢?对可解释性的两种理解可能是不一样的,前者面向结论推理过程(how),后者面向结论可理解性(why)。回头来说,对神经机器翻译可解释性研究的目标,到底是前者还是后者呢?目前学术界有一些相关研究,比如对神经机器翻译模型中注意力机制的可视化分析软对齐结果等。但有一点是肯定的,我们希望研究神经机器翻译技术的可解释性,目的是为了“纠错”,也可以有利于人工干预机制等。只有通过可解释性研究,搞清楚翻译错误的原因,最终找到解决方案来实现纠错,才是我们研究神经机器翻译技术可解释性的目的所在。
\vspace{0.5em}
\parinterval 除了翻译品质维度以外,机器翻译技术应用可以从三个维度来讨论,包括语种维度、领域维度和应用模式维度。机器翻译技术应该为全球用户服务,提供支持所有国家至少一种官方语言的翻译能力,实现任意两种语言的自动互译,当然语种数量越多越好。面临的最大问题就是双语数据稀缺的问题,上述已经讨论了这个问题。关于领域维度,通用领域翻译系统对于垂直领域应用来说是不够充分的,最典型的问题在于垂直领域术语翻译的问题,计算机不能无中生有,虽然存在瞎猫碰死耗子,但没有办法充分解决垂直领域术语OOV翻译问题。比较直接可行的解决方案至少有两个,一是引入垂直领域术语双语词典用于改善机器翻译效果;二是收集加工一定规模的垂直领域双语句对来优化训练翻译模型。这两种工程方法虽然简单,但效果不错,相对来说,两者结合才能更加有效,但问题是垂直领域双语句对的收集很多时候代价太高,不太可行,本质上就转换成为垂直领域资源稀缺问题和领域自适应学习问题,另外也可以引入小样本学习、迁移学习和联合学习等机器学习技术来改善这个问题。
\vspace{0.5em}
\parinterval 除了翻译品质维度以外,机器翻译技术应用可以从三个维度来讨论,包括语种维度、领域维度和应用模式维度。机器翻译技术应该为全球用户服务,提供支持所有国家至少一种官方语言的翻译能力,实现任意两种语言的自动互译,当然语种数量越多越好。面临的最大问题就是双语数据稀缺,上述已经讨论了这个问题。关于领域维度,通用领域翻译系统对于垂直领域应用来说是不够充分的,最典型的问题在于垂直领域术语翻译的问题,计算机不能无中生有,虽然存在瞎猫碰死耗子,但没有办法充分解决垂直领域术语OOV翻译问题。比较直接可行的解决方案至少有两个,一是引入垂直领域术语双语词典用于改善机器翻译效果;二是收集加工一定规模的垂直领域双语句对来优化训练翻译模型。这两种工程方法虽然简单,但效果不错,相对来说,两者结合才能更加有效,但问题是垂直领域双语句对的收集很多时候代价太高,不太可行,本质上就转换成为垂直领域资源稀缺问题和领域自适应学习问题,另外也可以引入小样本学习、迁移学习和联合学习等机器学习技术来改善这个问题。
\parinterval 应用模式维度能够体现丰富多彩的机器翻译应用和服务,还可以细分到具体应用场景,这个我们就不一一列举,后面可能会讨论到一些具体应用。这里主要讨论一下应用模式的软硬件环境。通常机器翻译典型应用属于在线翻译公有云服务,用户接入非常简单,只需要联网使用浏览器就可以自由免费使用。在某些具体行业应用中,用户对数据翻译安全性和保密性要求非常高,其中可能还会涉及到个性化订制要求,这一点在线翻译公有云服务就无法满足用户需求,本地部署机器翻译私有云和离线机器翻译技术和服务成为了新的应用模式。本地部署私有云的问题在于用户需要自己购买GPU服务器和建机房,硬件投入和代价也不低,也许将来会出来一种新的应用模式:在线私有云\ \dash \ 专有云,有点像服务托管模式。最后一种云服务就是混合云,简单来说就是公有云、私有云和专有云混合体而已。
\vspace{0.5em}
\parinterval 应用模式维度能够体现丰富多彩的机器翻译应用和服务,还可以细分到具体应用场景,这个我们就不一一列举,后面可能会讨论到一些具体应用。这里主要讨论一下应用模式的软硬件环境。通常机器翻译典型应用属于在线翻译公有云服务,用户接入非常简单,只需要联网使用浏览器就可以自由免费使用。在某些具体行业应用中,用户对数据翻译安全性和保密性要求非常高,其中可能还会涉及到个性化订制要求,这一点在线翻译公有云服务就无法满足用户需求,本地部署机器翻译私有云和离线机器翻译技术和服务成为了新的应用模式。本地部署私有云的问题在于用户需要自己购买GPU服务器和建机房,硬件投入和代价也不低,也许将来会出来一种新的应用模式:在线私有云或专有云,有点像服务托管模式。最后一种云服务就是混合云,简单来说就是公有云、私有云和专有云混合体而已。
\vspace{0.5em}
\parinterval 离线机器翻译技术可以为更小型的智能翻译终端设备提供服务,比如大家熟悉的翻译机、翻译笔、翻译耳机等智能翻译设备,在不联网的情况下能够实现高品质机器翻译功能,相当于将机器翻译系统安装在智能翻译终端设备上,这个应用模式具有很大的潜力。但需要解决的问题很多,首先是模型大小、翻译速度和翻译品质三大问题,之后需要考虑不同操作系统(Linux、Android Q和iOS)和不同架构的CPU芯片,比如x86、MIPS、ARM架构等的智能适配兼容问题,特别是国产化机器翻译解决方案需求也在不断上升,本质上需要有能力兼容国产化操作系统和芯片。将来离线翻译系统还可以安装到办公设备上,比如传真机、打印机和复印机等,实现支持多语言的智能办公。目前人工智能芯片发展速度非常快,其实机器翻译和语音处理雷同,目前市面上语音技术芯片已经被广泛使用,机器翻译芯片的研发缺的估计不是技术,其最大的问题应该是缺少应用场景和上下游的应用支撑,一旦这个时机成熟,机器翻译芯片研发和应用也有可能会爆发。
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论