Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
72323f69
Commit
72323f69
authored
3 years ago
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
更新 chapter5.tex
parent
db8a6953
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
1 行增加
和
1 行删除
+1
-1
Chapter5/chapter5.tex
+1
-1
没有找到文件。
Chapter5/chapter5.tex
查看文件 @
72323f69
...
@@ -348,7 +348,7 @@ $\seq{t}^{[2]}$ = So\; ,\; what\; is\; human\; \underline{translation}\; ?
...
@@ -348,7 +348,7 @@ $\seq{t}^{[2]}$ = So\; ,\; what\; is\; human\; \underline{translation}\; ?
\parinterval
首先引入一个非常重要的概念
\ \dash
\
{
\small\sffamily\bfseries
{
词对齐
}}
\index
{
词对齐
}
(Word Alignment)
\index
{
Word Alignment
}
,它是统计机器翻译中最核心的概念之一。词对齐描述了平行句对中单词之间的对应关系,它体现了一种观点:本质上句子之间的对应是由单词之间的对应表示的。当然,这个观点在神经机器翻译或者其他模型中可能会有不同的理解,但是翻译句子的过程中考虑词级的对应关系是符合人类对语言的认知的。
\parinterval
首先引入一个非常重要的概念
\ \dash
\
{
\small\sffamily\bfseries
{
词对齐
}}
\index
{
词对齐
}
(Word Alignment)
\index
{
Word Alignment
}
,它是统计机器翻译中最核心的概念之一。词对齐描述了平行句对中单词之间的对应关系,它体现了一种观点:本质上句子之间的对应是由单词之间的对应表示的。当然,这个观点在神经机器翻译或者其他模型中可能会有不同的理解,但是翻译句子的过程中考虑词级的对应关系是符合人类对语言的认知的。
\parinterval
图
\ref
{
fig:5-7
}
展示了一个汉英互译句对
$
\seq
{
s
}$
和
$
\seq
{
t
}$
及其词对齐关系,单词的右下标数字表示了该词在句中的位置,而虚线表示的是句子
$
\seq
{
s
}$
和
$
\seq
{
t
}$
中的词对齐关系。比如,“满意”的右下标数字5表示在句子
$
\seq
{
s
}$
中处于第5个位置,“satisfied”的右下标数字3表示在句子
$
\seq
{
t
}$
中处于第3个位置,“满意”和“satisfied”之间的虚线表示两个单词之间是对齐的。为方便描述,用二元组
$
(
j,i
)
$
来描述词对齐,它表示源语言句子的第
$
j
$
个单词对应目标语言句子的第
$
i
$
个单词,即单词
$
s
_
j
$
和
$
t
_
i
$
对应。通常,也会把
$
(
j,i
)
$
称作一条
{
\small\sffamily\bfseries
{
词对齐连接
}}
\index
{
词对齐连接
}
(Word Alignment Link
\index
{
Word Alignment Link
}
)。图
\ref
{
fig:5-7
}
中共有5 条虚线,表示有5组单词之间的词对齐连接。可以把这些词对齐连接构成的集合作为词对齐的一种表示,记为
$
A
$
,即
$
A
=
{
\{
(
1
,
1
)
,
(
2
,
4
)
,
(
3
,
5
)
,
(
4
,
2
)(
5
,
3
)
}
\}
$
。
\parinterval
图
\ref
{
fig:5-7
}
展示了一个汉英互译句对
$
\seq
{
s
}$
和
$
\seq
{
t
}$
及其词对齐关系,单词的右下标数字表示了该词在句中的位置,而虚线表示的是句子
$
\seq
{
s
}$
和
$
\seq
{
t
}$
中的词对齐关系。比如,“满意”的右下标数字5表示在句子
$
\seq
{
s
}$
中处于第5个位置,“satisfied”的右下标数字3表示在句子
$
\seq
{
t
}$
中处于第3个位置,“满意”和“satisfied”之间的虚线表示两个单词之间是对齐的。为方便描述,用二元组
$
(
j,i
)
$
来描述词对齐,它表示源语言句子的第
$
j
$
个单词对应目标语言句子的第
$
i
$
个单词,即单词
$
s
_
j
$
和
$
t
_
i
$
对应。通常,也会把
$
(
j,i
)
$
称作一条
{
\small\sffamily\bfseries
{
词对齐连接
}}
\index
{
词对齐连接
}
(Word Alignment Link
\index
{
Word Alignment Link
}
)。图
\ref
{
fig:5-7
}
中共有5 条虚线,表示有5组单词之间的词对齐连接。可以把这些词对齐连接构成的集合作为词对齐的一种表示,记为
$
A
$
,即
$
A
=
{
\{
(
1
,
1
)
,
(
2
,
4
)
,
(
3
,
5
)
,
(
4
,
2
)
,
(
5
,
3
)
}
\}
$
。
%----------------------------------------------
%----------------------------------------------
\begin{figure}
[htp]
\begin{figure}
[htp]
...
...
This diff is collapsed.
Click to expand it.
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论