Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
9aa1dc6f
Commit
9aa1dc6f
authored
Nov 12, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'master' 到 'caorunzhe'
wording (sec 16, mono data) 查看合并请求
!389
parents
f25c24da
8c9e62b0
显示空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
7 行增加
和
13 行删除
+7
-13
Chapter16/chapter16.tex
+7
-13
没有找到文件。
Chapter16/chapter16.tex
查看文件 @
9aa1dc6f
...
...
@@ -31,19 +31,13 @@
% NEW SECTION
%----------------------------------------------------------------------------------------
\section
{
单语数据的
使用
}
\section
{
数据的有效
使用
}
\parinterval
在统计机器翻译时代,使用单语数据训练语言模型就是构建机器翻译系统的关键步骤。好的语言模型往往会带来性能的增益。而这个现象在神经机器翻译中似乎并不明显,因为在大多数神经机器翻译的范式中,并不要求使用大规模单语数据来帮助机器翻译系统。甚至,连语言模型都不会作为一个独立的模块。这一方面是由于神经机器翻译系统的解码端本身就起着语言模型的作用,另一方面是由于数据的增多使得翻译模型可以更好的捕捉目标语言的规律。但是,双语数据总是有限的。很多场景下,单语数据的规模会远大于双语数据。比如,在专利翻译的很多细分领域中,双语数据的规模十分有限,但是有大量的和领域相关的单语数据。如果能够让这些单语数据发挥作用,显然是一种非常好的选择。在神经机器翻译中使用单语数据主要面临着两方面问题:
\parinterval
数据稀缺是低资源机器翻译所面临的主要问题。因此,充分使用既有的数据是一种解决问题的思路。比如,在双语训练不充分的时候,可以考虑用转述等方式生成更多的双语训练数据(
{
\color
{
red
}
参考文献!
}
)。也可以简单地对双语数据的部分单词用近义词进行替换,达到丰富双语数据的目的(
{
\color
{
red
}
参考文献!
}
)。
\begin{itemize}
\vspace
{
0.5em
}
\item
从单语数据中学习什么样的知识?
\vspace
{
0.5em
}
\item
如何在神经机器翻译中集成单语数据的知识?
\vspace
{
0.5em
}
\end{itemize}
\parinterval
另一种思路是充分利用单语数据。实际上,在统计机器翻译时代,使用单语数据训练语言模型是构建机器翻译系统的关键步骤。好的语言模型往往会带来性能的增益。而这个现象在神经机器翻译中似乎并不明显,因为在大多数神经机器翻译的范式中,并不要求使用大规模单语数据来帮助机器翻译系统。甚至,连语言模型都不会作为一个独立的模块。这一方面是由于神经机器翻译系统的解码端本身就起着语言模型的作用,另一方面是由于数据的增多使得翻译模型可以更好的捕捉目标语言的规律。但是,双语数据总是有限的。很多场景下,单语数据的规模会远大于双语数据。如果能够让这些单语数据发挥作用,显然是一种非常好的选择。
下面将从数据增强、基于语言模型的单语数据使用、翻译建模等方面对这两个问题
展开讨论。
\parinterval
下面将从数据增强、基于语言模型的单语数据使用等方面
展开讨论。
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
...
...
@@ -337,13 +331,13 @@ g_{t} = \sigma (w^{T}s_{t}^{TM} + b)
% NEW SUB-SECTION
%----------------------------------------------------------------------------------------
\subsection
{
翻译建模
}
\subsection
{
同时学习双向翻译模型
}
%----------------------------------------------------------------------------------------
% NEW SUBSUB-SECTION
%----------------------------------------------------------------------------------------
{
\red
下面这部分是从以前的内容中拷贝过来的,对偶学习和无监督部分的关联比较大,可以把对偶学习拆出去变成新的一小节?把Semi-Supervised Learning for Neural Machine Translation和Mirror-Generative Neural Machine Translation加进来?
}
{
\red
下面这部分是从以前的内容中拷贝过来的,对偶学习和无监督部分的关联比较大,可以把对偶学习拆出去变成新的一小节?把Semi-Supervised Learning for Neural Machine Translation和Mirror-Generative Neural Machine Translation加进来?
}
{
\color
{
blue
}
[肖]:我同意,不过感觉Semi-Supervised Learning for Neural Machine Translation有些意思,Mirror-Generative Neural Machine Translation一般,不过可以简单提及一下,或者对核心思想进行介绍。还有,无监督对偶学习是不是应该放到李炎洋那部分?这里面我们还是放有监督的方法,可以和李炎洋讨论一下。
}
\subsubsection
{
1. 双向训练
}
...
...
@@ -383,7 +377,7 @@ g_{t} = \sigma (w^{T}s_{t}^{TM} + b)
% NEW SUBSUB-SECTION
%----------------------------------------------------------------------------------------
\subsubsection
{
3. 无监督对偶学习
}
\subsubsection
{
3. 无监督对偶学习
(
{
\color
{
red
}
放到李炎洋那部分?
}
)
}
\parinterval
在有监督对偶学习对联合分布
$
\funp
{
P
}
(
\mathbi
{
s
}
,
\mathbi
{
t
}
)
$
建模的基础上,如果把
$
\mathbf
t
$
看作一个隐变量,那么可以得到边缘分布
$
\funp
{
P
}
(
\mathbi
{
s
}
)
$
,也就是关于
$
\mathbi
{
s
}$
的语言模型:
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论