Commit 30f143b7 by 曹润柘

合并分支 'master' 到 'caorunzhe'

Master

查看合并请求 !970
parents 73668afe 8f6870b6
...@@ -28,13 +28,21 @@ ...@@ -28,13 +28,21 @@
\begin{center} \begin{center}
{\Huge \bfnew{\ \ \ }} {\Huge \bfnew{\ \ \ }}
\end{center} \end{center}
\vspace{2em} \vspace{5em}
\begin{spacing}{1.18} \begin{spacing}{1.18}
\parinterval 我知道这里本应该再写点什么,感慨一下蹉跎岁月,最后致敬所有人。 \parinterval 我知道这里本应该再写点什么,感慨一下蹉跎岁月,最后致敬所有人。
\parinterval 不过我还是最想说:谢谢你,我的妻子。没有你的支持与照顾,我应该没有勇气来完成这本书。爱你 $\sim$ \vspace{1em}
\parinterval 不过我还是最想说:
\vspace{1em}
\parinterval 谢谢你,我的妻子。没有你的支持与照顾,我应该没有勇气来完成这本书。爱你 $\sim$
\vspace{8em}
\hfill 肖桐 \hfill 肖桐
......
...@@ -42,12 +42,12 @@ ...@@ -42,12 +42,12 @@
\begin{itemize} \begin{itemize}
\item 从数据角度来看,大部分语言对的电子化双语句对集合规模非常小,有的甚至只有一个小规模双语词典。因此,针对资源稀缺语种的机器翻译技术研究也成了学术界的研究热点,相信这个课题的突破能大大推动机器翻译技术落地。早些年,机器翻译市场的规模较小,其主要原因是数据规模有限,同时机器翻译的品质不够理想。就算采用最先进的神经机器翻译技术,在缺乏足够大规模的双语句对集合作为训练数据的情况下,研究人员也是巧妇难为无米之炊。从技术研究和应用可行性的角度看,解决资源稀缺语种的机器翻译问题非常有价值。解决资源稀缺语种机器翻译问题的思路,已经在{\chaptersixteen}进行了详细的介绍,本部分就不再赘述。 \item 从数据角度来看,大部分语言对的电子化双语句对集合规模非常小,有的甚至只有一个小规模双语词典。因此,针对资源稀缺语种的机器翻译技术研究也成了学术界的研究热点,相信这个课题的突破能大大推动机器翻译技术落地。早些年,机器翻译市场的规模较小,其主要原因是数据规模有限,同时机器翻译的品质不够理想。就算采用最先进的神经机器翻译技术,在缺乏足够大规模的双语句对集合作为训练数据的情况下,研究人员也是巧妇难为无米之炊。从技术研究和应用可行性的角度看,解决资源稀缺语种的机器翻译问题非常有价值。解决资源稀缺语种机器翻译问题的思路,已经在{\chaptersixteen}进行了详细的介绍,本部分就不再赘述。
\item 从机器翻译技术来看,可实用的机器翻译系统的构建,需要多技术互补融合。做研究可以搞单点突破,但它很难能应对实际问题和改善真实应用中的翻译品质。多技术互补融合有很多研究工作,比如说,有的业内研究人员提出采用知识图谱来改善机器翻译模型性能,并希望用于解决稀缺资源语种机器翻译问题;有的引入语言分析技术来改善机器翻译;有的将基于规则的方法、统计机器翻译技术与神经机器翻译技术互补性融合;有的引入预训练技术来改善机器翻译品质等等。总体来说,这些思路都具有良好的研究价值,但是从应用角度来说,构建可实用的机器翻译系统,还需要考虑技术落地可行性。比如大规模知识图谱构建的代价和语言分析技术的精度如何,预训练技术对机器翻译帮助的上限等。 \item 从机器翻译技术来看,可实用的机器翻译系统的构建,需要多技术互补融合。做研究可以搞单点突破,但它很难能应对实际问题和改善真实应用中的翻译品质。多技术互补融合有很多研究工作,比如说,有的业内研究人员提出采用知识图谱来改善机器翻译模型性能,并希望用于解决稀缺资源语种机器翻译问题;有的引入语言分析技术来改善机器翻译;有的将基于规则的方法、统计机器翻译技术与神经机器翻译技术互补性融合;有的引入预训练技术来改善机器翻译品质等等。总体来说,这些思路都具有良好的研究价值,但是从应用角度来说,构建可实用的机器翻译系统,还需要考虑技术落地可行性。比如大规模知识图谱构建的代价和语言分析技术的精度如何,预训练技术对富资源场景下机器翻译的价值等。
\item 错误驱动,即根据用户对机器翻译译文的反馈与纠正,完善机器翻译模型的过程。机器翻译一直被诟病:用户不知道如何有效地干预纠错,来帮助机器翻译系统越做越好,毕竟谁都不希望它“屡教不改”。基于规则的方法和统计机器翻译方法相对容易实现人工干预纠错,实现手段也比较丰富,而神经机器翻译方法存在不可解释性,难以有效地实现人工干预纠错。目前,有研究人员通过引入外部知识库(用户双语术语库)来实现对未登录词翻译的干预纠错;也有的提出使用增量式训练的方法不断迭代优化模型,取得了一些进展;还有研究人员通过融合不同技术来实现更好的机器翻译效果,如引入基于规则的翻译前处理和后处理,或者引入统计机器翻译技术优化译文选择等。这些方法的代价不低,甚至很高, 并且无法保障对机器翻译性能提升的效果,有时可能会降低翻译品质(有点像“跷跷板”现象)。总体来说,这个方向的研究成果还不够丰富,但对用户体验来说非常重要。如果能采用隐性反馈学习方法,在用户不知不觉中不断改善、优化机器翻译品质,就非常酷了,这也许会成为将来的一个研究热点。 \item 错误驱动,即根据用户对机器翻译译文的反馈与纠正,完善机器翻译模型的过程。机器翻译一直被诟病:用户不知道如何有效地干预纠错,来帮助机器翻译系统越做越好,毕竟谁都不希望它“屡教不改”。基于规则的方法和统计机器翻译方法相对容易实现人工干预纠错,实现手段也比较丰富,而神经机器翻译方法很多时候被看做是黑箱,其运行机理与离散的符号系统有很大差别,难以用传统方式有效地实现人工干预纠错。目前,有研究人员通过引入外部知识库(用户双语术语库)来实现对未登录词翻译的干预纠错;也有的提出使用增量式训练的方法不断迭代优化模型,取得了一些进展;还有研究人员通过融合不同技术来实现更好的机器翻译效果,如引入基于规则的翻译前处理和后处理,或者引入统计机器翻译技术优化译文选择等。这些方法的代价不低,甚至很高, 并且无法保障对机器翻译性能提升的效果,有时可能会降低翻译品质(有点像“跷跷板”现象)。总体来说,这个方向的研究成果还不够丰富,但对用户体验来说非常重要。如果能采用隐性反馈学习方法,在用户不知不觉中不断改善、优化机器翻译品质,就非常酷了,这也许会成为将来的一个研究热点。
\end{itemize} \end{itemize}
\parinterval 除了翻译品质维度以外,机器翻译还可以从以下三个维度来讨论:语种维度、领域维度和应用模式维度。关于语种维度,机器翻译技术应该为全球用户服务,提供所有国家至少一种官方语言到其他国家语言的自动互译功能。该维度面临的最大问题是双语数据稀缺。关于领域维度,通用领域翻译系统的翻译能力,对于垂直领域数据来说是不足的。最典型的问题是不能恰当地翻译垂直领域术语,计算机不能无中生有。比较直接可行的解决方案至少有两个,一是引入垂直领域术语双语词典来改善机器翻译效果;二是收集加工一定规模的垂直领域双语句对来优化翻译模型。这两种工程方法虽然简单,但效果不错,并且两者结合对于翻译模型性能的提升帮助更大。但很多时候垂直领域双语句对的收集代价太高,可行性低,因此垂直领域翻译问题本质上就转换成为垂直领域资源稀缺问题和领域自适应学习问题。除此之外,小样本学习、迁移学习和联合学习等机器学习技术也被一些研究人员用来解决垂直领域翻译问题。关于应用模式维度,可以从下面几个方面进行讨论: \parinterval 除了翻译品质维度以外,机器翻译还可以从以下三个维度来讨论:语种维度、领域维度和应用模式维度。关于语种维度,机器翻译技术应该为全球用户服务,提供所有国家至少一种官方语言到其他国家语言的自动互译功能。该维度面临的最大问题是双语数据稀缺。关于领域维度,通用领域翻译系统的翻译能力,对于垂直领域数据来说是不足的。最典型的问题是不能恰当地翻译垂直领域术语,计算机不能无中生有。比较直接可行的解决方案至少有两个,一是引入垂直领域术语双语词典来改善机器翻译效果;二是收集加工一定规模的垂直领域双语句对来优化翻译模型。这两种工程方法虽然简单,但效果不错,并且两者结合对于翻译模型性能的提升帮助更大。但很多时候垂直领域双语句对的收集代价太高,可行性低,因此垂直领域翻译问题本质上就转换成为垂直领域资源稀缺问题和领域自适应学习问题。除此之外,小样本学习、迁移学习等机器学习技术也被一些研究人员用来解决垂直领域翻译问题。关于应用模式维度,可以从下面几个方面进行讨论:
\begin{itemize} \begin{itemize}
\item 通常,机器翻译的典型应用包括在线翻译公有云服务,用户接入非常简单,只需要联网使用浏览器就可以自由免费使用。在某些行业,用户对数据翻译安全性和保密性的要求非常高,其中可能还会涉及个性化定制,这是在线翻译公有云服务无法满足的,于是,在本地部署机器翻译私有云、离线机器翻译技术和服务成了新的应用模式。在本地部署私有云的问题在于:需要用户自己购买 GPU 服务器并建机房,对硬件的投入高。也许将来机器翻译领域会出现新的应用模式:类似服务托管模式的在线私有云或专有云,以及混合云服务(公有云、私有云和专有云的混合体)。 \item 通常,机器翻译的典型应用包括在线翻译公有云服务,用户接入非常简单,只需要联网使用浏览器就可以自由免费使用。在某些行业,用户对数据翻译安全性和保密性的要求非常高,其中可能还会涉及个性化定制,这是在线翻译公有云服务无法满足的,于是,在本地部署机器翻译私有云、离线机器翻译技术和服务成了新的应用模式。在本地部署私有云的问题在于:需要用户自己购买 GPU 服务器并建机房,对硬件的投入高。也许将来机器翻译领域会出现新的应用模式:类似服务托管模式的在线私有云或专有云,以及混合云服务(公有云、私有云和专有云的混合体)。
...@@ -70,11 +70,15 @@ ...@@ -70,11 +70,15 @@
\parinterval 从历史发展观的维度考虑,新一代的技术必然存在,换句话说,第四代机器翻译技术一定会出现,只是不知道在什么时候而已。神经机器翻译的红利还没有被挖尽,还存在很好的发展空间,在可预期的将来,神经机器翻译技术还属于主流技术,但会产生大量变种。我们愿意把新一代机器翻译技术称为面向具体应用场景的第四代机器翻译技术,它在本质上是针对不同应用条件、不同应用场景提出的能力更强的机器翻译技术。它将不是一个简单的技术,而是一个技术集合,这是完全可能的。从另一方面讲,当前的机器翻译不具有很好的解释性,其与语言学的关系并不明确。那么在第四代机器翻译技术中,是否能让研究人员或使用者更方便地了解它的工作原理,并可以根据其原理对其进行干预。甚至,我们还可以研究更合理的面向机器翻译解释性的方法,笔者相信这也是未来需要突破的点。 \parinterval 从历史发展观的维度考虑,新一代的技术必然存在,换句话说,第四代机器翻译技术一定会出现,只是不知道在什么时候而已。神经机器翻译的红利还没有被挖尽,还存在很好的发展空间,在可预期的将来,神经机器翻译技术还属于主流技术,但会产生大量变种。我们愿意把新一代机器翻译技术称为面向具体应用场景的第四代机器翻译技术,它在本质上是针对不同应用条件、不同应用场景提出的能力更强的机器翻译技术。它将不是一个简单的技术,而是一个技术集合,这是完全可能的。从另一方面讲,当前的机器翻译不具有很好的解释性,其与语言学的关系并不明确。那么在第四代机器翻译技术中,是否能让研究人员或使用者更方便地了解它的工作原理,并可以根据其原理对其进行干预。甚至,我们还可以研究更合理的面向机器翻译解释性的方法,笔者相信这也是未来需要突破的点。
\parinterval 最后,简单谈谈笔者对机器翻译市场发展趋势的看法。机器翻译本身是个强刚需,用于解决全球用户多语言交流障碍的问题。机器翻译产业真正热起来,应该归功于神经机器翻译技术的应用,虽然基于规则的方法和统计机器翻译技术也在工业界得到了应用,但翻译品质没有达到用户预期,用户付费欲望比较差,没有良好的商业变 现能力,导致机器翻译产业在 2017 年以前类似于“鸡肋”产业。严格来说,从2016 年下半年开始,神经机器翻译技术在工业界的广泛应用快速激活了用户需求,用户对机器翻译的认可度急剧上升,越来越丰富的应用模式和需求被挖掘出来。除了传统计算机辅助翻译,语音和OCR 与机器翻译技术结合,使得语音翻译 APP、翻译机、翻译笔、会议AI 同传和垂直行业(专利、医药、旅游等)的机器翻译解决方案逐渐得到了广泛应用。总体来说,机器翻译产学研正处于快速上升期,每年市场规模达到至少$100\% $增长。随着多模态机器翻译和大数据翻译技术的应用,机器翻译的应用场景会越来越丰富。随着5G ,甚至 6G 技术的发展,视频翻译和电话通信翻译等应用会进一步爆发。另外,随着人工智能芯片领域的发展,机器翻译芯片也会逐渐被广泛应用,如嵌入到手机、打印机、复印机、传真机和电视机等智能终端设备中,实现所有内容皆可翻译,任何场景皆可运行的愿景。机器翻译服务将进入人们的日常生活,无处不在,让生活更加美好!\\ \parinterval 最后,简单谈谈笔者对机器翻译市场发展趋势的看法。机器翻译本身是个强刚需,用于解决全球用户多语言交流障碍的问题。机器翻译产业真正热起来,应该归功于神经机器翻译技术的应用,虽然基于规则的方法和统计机器翻译技术也在工业界得到了应用,但翻译品质没有达到用户预期,用户付费欲望比较差,没有良好的商业变 现能力,导致机器翻译产业在早些年有些“鸡肋”。严格来说,近些年神经机器翻译技术在工业界的广泛应用快速激活了用户需求,用户对机器翻译的认可度急剧上升,越来越丰富的应用模式和需求被挖掘出来。除了传统计算机辅助翻译,语音和OCR 与机器翻译技术结合,使得语音翻译 APP、翻译机、翻译笔、会议AI 同传和垂直行业(专利、医药、旅游等)的机器翻译解决方案逐渐得到了广泛应用。总体来说,机器翻译产学研正处于快速上升期,市场规模每年都会有显著增长。随着多模态机器翻译和大数据翻译技术的应用,机器翻译的应用场景会越来越丰富。随着5G ,甚至 6G 技术的发展,视频翻译和电话通信翻译等应用会进一步爆发。另外,随着人工智能芯片领域的发展,机器翻译芯片也会逐渐被广泛应用,如嵌入到手机、打印机、复印机、传真机和电视机等智能终端设备中,实现所有内容皆可翻译,任何场景皆可运行的愿景。机器翻译服务将进入人们的日常生活,无处不在,让生活更加美好!\\
\vspace{8em}
\hfill 朱靖波 \ \ 肖桐 \hfill 朱靖波 \ \ 肖桐
\hfill 2020.12.16 \hfill 2020.12.16
\hfill 于东北大学
\end{spacing} \end{spacing}
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论