Commit 0bf1d5dc by xiaotong

Merge branch 'master' of 47.105.50.196:NiuTrans/mtbookv2

parents e3b3b0cf 62b6cd61
...@@ -19,6 +19,8 @@ ...@@ -19,6 +19,8 @@
\draw [<->,very thick] (s3.south) -- (m1.east); \draw [<->,very thick] (s3.south) -- (m1.east);
\draw [<->,very thick] (s4.north) -- (m1.east); \draw [<->,very thick] (s4.north) -- (m1.east);
\node [anchor=north] (l) at ([xshift=5em,yshift=-1em]s2.south) {{(a)}};
\end{scope} \end{scope}
...@@ -40,6 +42,8 @@ ...@@ -40,6 +42,8 @@
\draw [<->,very thick] (s1.south east) -- (s4.north west); \draw [<->,very thick] (s1.south east) -- (s4.north west);
\draw [<->,very thick] (s2.north east) -- (s3.south west); \draw [<->,very thick] (s2.north east) -- (s3.south west);
\node [anchor=north] (l) at ([xshift=5em,yshift=-1em]s2.south) {{(b)}};
\end{scope} \end{scope}
\end{tikzpicture} \end{tikzpicture}
......
...@@ -340,7 +340,7 @@ ...@@ -340,7 +340,7 @@
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\input{./Chapter1/Figures/comparison-between-interlingua-based-and-transfer-based-translation} \input{./Chapter1/Figures/comparison-between-interlingua-based-and-transfer-based-translation}
\caption{基于中间语言的方法与基于转换的方法} \caption{基于中间语言的方法(a)与基于转换的方法(b)}
\label{fig:1-13} \label{fig:1-13}
\end{figure} \end{figure}
%------------------------------------------- %-------------------------------------------
......
...@@ -43,11 +43,11 @@ ...@@ -43,11 +43,11 @@
\parinterval {\small\sffamily\bfseries{随机变量}}\index{随机变量}(Random Variable)\index{Random Variable}是对随机事件发生可能状态的描述,是随机事件的数量表征。设$\Omega = \{ \omega \}$为一个随机试验的样本空间,$X=X(\omega)$就是定义在样本空间$\Omega$上的单值实数函数,即$X=X(\omega)$为随机变量,记为$X$。随机变量是一种能随机选取数值的变量,常用大写的英文字母或希腊字母表示,其取值通常用小写字母来表示。例如,用$A$ 表示一个随机变量,用$a$表示变量$A$的一个取值。根据随机变量可以选取的值的某些性质,可以将其划分为离散变量和连续变量。 \parinterval {\small\sffamily\bfseries{随机变量}}\index{随机变量}(Random Variable)\index{Random Variable}是对随机事件发生可能状态的描述,是随机事件的数量表征。设$\Omega = \{ \omega \}$为一个随机试验的样本空间,$X=X(\omega)$就是定义在样本空间$\Omega$上的单值实数函数,即$X=X(\omega)$为随机变量,记为$X$。随机变量是一种能随机选取数值的变量,常用大写的英文字母或希腊字母表示,其取值通常用小写字母来表示。例如,用$A$ 表示一个随机变量,用$a$表示变量$A$的一个取值。根据随机变量可以选取的值的某些性质,可以将其划分为离散变量和连续变量。
\parinterval 离散变量是指在其取值区间内可以被一一列举,总数有限并且可计算的数值变量。例如,用随机变量$X$代表某次投骰子出现的点数,点数只可能取1$\sim$6这6个整数,$X$就是一个离散变量。 \parinterval 离散变量是在其取值区间内可以被一一列举、总数有限并且可计算的数值变量。例如,用随机变量$X$代表某次投骰子出现的点数,点数只可能取1$\sim$6这6个整数,$X$就是一个离散变量。
\parinterval 连续变量是在其取值区间内连续取值,无法被一一列举,具有无限个取值的变量。例如,图书馆的开馆时间是8:30-22:00,用$X$代表某人进入图书馆的时间,时间的取值范围是[8:30,22:00]这个时间区间,$X$就是一个连续变量。 \parinterval 连续变量是在其取值区间内连续取值无法被一一列举、具有无限个取值的变量。例如,图书馆的开馆时间是8:30-22:00,用$X$代表某人进入图书馆的时间,时间的取值范围是[8:30,22:00]这个时间区间,$X$就是一个连续变量。
\parinterval {\small\bfnew{概率}}\index{概率}(Probability)\index{Probability}是度量随机事件呈现其每个可能状态的可能性的数值,本质上它是一个测度函数\upcite{mao-prob-book-2011}\upcite{kolmogorov2018foundations}。概率的大小表征了随机事件在一次试验中发生的可能性大小。用$P(\cdot )$表示一个随机事件的可能性,即事件发生的概率。比如$P(\textrm{太阳从东方升起})$表示“太阳从东方升起的可能性”,同理,$P(A=B)$ 表示的就是“$A=B$”这件事的可能性。 \parinterval {\small\bfnew{概率}}\index{概率}(Probability)\index{Probability}是度量随机事件呈现其每个可能状态的可能性的数值,本质上它是一个测度函数\upcite{mao-prob-book-2011}\upcite{kolmogorov2018foundations}。概率的大小表征了随机事件在一次试验中发生的可能性大小。用$\funp{P}(\cdot )$表示一个随机事件的可能性,即事件发生的概率。比如$\funp{P}(\textrm{太阳从东方升起})$表示“太阳从东方升起”的可能性,同理,$\funp{P}(A=B)$ 表示的就是“$A=B$”这件事的可能性。
\parinterval 在实际问题中,往往需要得到随机变量的概率值。但是,真实的概率值可能是无法准确知道的,这时就需要对概率进行{\small\sffamily\bfseries{估计}}\index{估计},得到的结果是概率的{\small\sffamily\bfseries{估计值}}\index{估计值}(Estimate)\index{Estimate}。在概率论中,一个很简单的方法是利用相对频度作为概率的估计值。如果$\{x_1,x_2,\dots,x_n \}$是一个试验的样本空间,在相同情况下重复试验$N$次,观察到样本$x_i (1\leq{i}\leq{n})$的次数为$n (x_i )$,那么$x_i$在这$N$次试验中的相对频率是$\frac{n(x_i )}{N}$。当$N$越来越大时,相对概率也就越来越接近真实概率$P(x_i)$,即$\lim_{N \to \infty}\frac{n(x_i )}{N}=P(x_i)$。 实际上,很多概率模型都等同于相对频度估计,比如,对于一个服从多项式分布的变量的极大似然估计就可以用相对频度估计实现。 \parinterval 在实际问题中,往往需要得到随机变量的概率值。但是,真实的概率值可能是无法准确知道的,这时就需要对概率进行{\small\sffamily\bfseries{估计}}\index{估计},得到的结果是概率的{\small\sffamily\bfseries{估计值}}\index{估计值}(Estimate)\index{Estimate}。在概率论中,一个很简单的方法是利用相对频度作为概率的估计值。如果$\{x_1,x_2,\dots,x_n \}$是一个试验的样本空间,在相同情况下重复试验$N$次,观察到样本$x_i (1\leq{i}\leq{n})$的次数为$n (x_i )$,那么$x_i$在这$N$次试验中的相对频率是$\frac{n(x_i )}{N}$。当$N$越来越大时,相对概率也就越来越接近真实概率$P(x_i)$,即$\lim_{N \to \infty}\frac{n(x_i )}{N}=P(x_i)$。 实际上,很多概率模型都等同于相对频度估计,比如,对于一个服从多项式分布的变量的极大似然估计就可以用相对频度估计实现。
...@@ -505,7 +505,7 @@ P(w_m|w_1 w_2 \ldots w_{m-1}) \approx P(w_m|w_{m-n+1} \ldots w_{m-1}) ...@@ -505,7 +505,7 @@ P(w_m|w_1 w_2 \ldots w_{m-1}) \approx P(w_m|w_{m-n+1} \ldots w_{m-1})
}\end{table} }\end{table}
%------------------------------------------------------ %------------------------------------------------------
\parinterval 可以看到,1-gram语言模型只是$n$-gram语言模型的一种特殊形式。基于独立性假设,1-gram假定当前词出现与否与任何历史都无关,这种方法大大化简了求解句子概率的复杂度。但是,实际上句子中的词汇并非完全相互独立的,这种语言模型并不能完美的描述客观世界的问题。如果需要更精确地获取句子的概率,就需要使用更长的“历史”信息。 \parinterval 可以看到,1-gram语言模型只是$n$-gram语言模型的一种特殊形式。基于独立性假设,1-gram假定当前词出现与否与任何历史都无关,这种方法大大化简了求解句子概率的复杂度。但是,实际上句子中的词汇并非完全相互独立的,这种假设并不能完美的描述客观世界的问题。如果需要更精确地获取句子的概率,就需要使用更长的“历史”信息。
\parinterval $n$-gram的优点在于,它所使用的历史信息是有限的,即$n-1$个单词。这种性质也反映了经典的马尔可夫链的思想\upcite{liuke-markov-2004}\upcite{resnick1992adventures},有时也被称作马尔可夫假设或者马尔可夫属性。因此$n$-gram也可以被看作是变长序列上的一种马尔可夫模型,比如,2-gram语言模型对应着1阶马尔可夫模型,3-gram语言模型对应着2阶马尔可夫模型,以此类推。 \parinterval $n$-gram的优点在于,它所使用的历史信息是有限的,即$n-1$个单词。这种性质也反映了经典的马尔可夫链的思想\upcite{liuke-markov-2004}\upcite{resnick1992adventures},有时也被称作马尔可夫假设或者马尔可夫属性。因此$n$-gram也可以被看作是变长序列上的一种马尔可夫模型,比如,2-gram语言模型对应着1阶马尔可夫模型,3-gram语言模型对应着2阶马尔可夫模型,以此类推。
...@@ -672,7 +672,7 @@ P(r>0) & = & \sum_{r>0}{P_r} \nonumber \\ ...@@ -672,7 +672,7 @@ P(r>0) & = & \sum_{r>0}{P_r} \nonumber \\
\subsubsection{3.Kneser-Ney平滑方法} \subsubsection{3.Kneser-Ney平滑方法}
\parinterval Kneser-Ney平滑方法是由R.Kneser和H.Ney于1995年提出的用于计算$n$元语法概率分布的方法\upcite{kneser1995improved}\upcite{chen1999empirical},并被广泛认为是最有效的平滑方法。这种平滑方法改进了Absolute Discounting中与高阶分布相结合的低阶分布的计算方法,使不同阶分布得到充分的利用。这种算法也综合利用了其他多种平滑算法的思想。 \parinterval Kneser-Ney平滑方法是由R.Kneser和H.Ney于1995年提出的用于计算$n$元语法概率分布的方法\upcite{kneser1995improved}\upcite{chen1999empirical},并被广泛认为是最有效的平滑方法。这种平滑方法改进了Absolute Discounting\upcite{ney1994on}\upcite{ney1991on}中与高阶分布相结合的低阶分布的计算方法,使不同阶分布得到充分的利用。这种算法也综合利用了其他多种平滑算法的思想。
\parinterval 首先介绍一下Absolute Discounting平滑算法,公式如下所示: \parinterval 首先介绍一下Absolute Discounting平滑算法,公式如下所示:
\begin{eqnarray} \begin{eqnarray}
...@@ -918,9 +918,9 @@ w^{'} = \argmax_{w \in \chi}P(w) ...@@ -918,9 +918,9 @@ w^{'} = \argmax_{w \in \chi}P(w)
% NEW SUB-SECTION % NEW SUB-SECTION
%---------------------------------------------------------------------------------------- %----------------------------------------------------------------------------------------
\subsection{非经典搜索(局部搜索)} \subsection{局部搜索}
\parinterval 由于全局搜索策略大都要遍历整个解空间,所以全局搜索策略的时间、空间复杂度一般都比较高。在对于完备性与最优性要求不那么严格的搜索问题上,可以使用局部搜索策略。局部搜索策略不必遍历完整的解空间,因此降低了时间、空间复杂度,但是这也导致可能会丢失最优解甚至找不到解,所以局部搜索都是不完备的而且非最优的。但是,在自然语言处理中,很多问题由于搜索空间过大无法使用全局搜索,因此使用局部搜索是非常普遍的。 \parinterval 由于全局搜索策略大要遍历整个解空间,所以它的时间、空间复杂度一般都比较高。在对于完备性与最优性要求不那么严格的搜索问题上,可以使用非经典搜索策略。非经典搜索涵盖的内容非常广泛,其中包括局部搜索\upcite{lowerre1976the}、连续空间搜索\upcite{bishop1995neural}、信念状态搜索\upcite{åström1965optimal}和实时搜索\upcite{korf1990real}等等。局部搜索是非经典搜索里的一个重要方面,局部搜索策略不必遍历完整的解空间,因此降低了时间、空间复杂度,但是这也导致可能会丢失最优解甚至找不到解,所以局部搜索都是不完备的而且非最优的。但是,在自然语言处理中,很多问题由于搜索空间过大无法使用全局搜索,因此使用局部搜索是非常普遍的。
%---------------------------------------------------------------------------------------- %----------------------------------------------------------------------------------------
% NEW SUBSUB-SECTION % NEW SUBSUB-SECTION
...@@ -928,9 +928,9 @@ w^{'} = \argmax_{w \in \chi}P(w) ...@@ -928,9 +928,9 @@ w^{'} = \argmax_{w \in \chi}P(w)
\subsubsection{1.贪婪搜索} \subsubsection{1.贪婪搜索}
\parinterval {\small\bfnew{贪婪搜索}}\index{贪婪搜索}(Greedy Search)\index{Greedy Search}基于一种假设,当一个问题可以拆分为多个子问题时,如果一直选择子问题的最优解就能得到原问题的最优解。基于这种假设,它每次都优先挑选得分最高的词进行扩展,这一点与改进过的深度优先搜索类似。但是它们的区别在于,贪婪搜索在搜索到一个完整的序列,也就是搜索到<eos>即停止,而改进的深度优先搜索会遍历整个解空间。因此贪婪搜索非常高效,其时间和空间复杂度仅为$\textrm{O}(m)$,这里$m$为单词序列的长度。 \parinterval {\small\bfnew{贪婪搜索}}\index{贪婪搜索}(Greedy Search)\index{Greedy Search}基于一种思想:当一个问题可以拆分为多个子问题时,如果一直选择子问题的最优解就能得到原问题的最优解,那么就可以不必遍历原始的解空间,而是使用这种“贪婪”的策略进行搜索。基于这种思想,它每次都优先挑选得分最高的词进行扩展,这一点与改进过的深度优先搜索类似。但是它们的区别在于,贪婪搜索在搜索到一个完整的序列,也就是搜索到<eos>即停止,而改进的深度优先搜索会遍历整个解空间。因此贪婪搜索非常高效,其时间和空间复杂度仅为$\textrm{O}(m)$,这里$m$为单词序列的长度。
\parinterval 由于贪婪搜索并没有遍历解空间,所以该方法不保证一定能找到最优解。比如对于如图\ref{fig:2-18}所示的一个搜索结构,贪婪搜索将选择红线所示的序列,该序列的最终得分是-1.7。但是,对比图\ref{fig:2-16}可以发现,在另一条路径上有得分更高的序列“<sos>\ I\ agree\ <eos>”,它的得分为-1.5。此时贪婪搜索并没有找到最优解,由于贪婪搜索选择的单词是当前步骤得分最高的,但是最后生成的单词序列的得分取决于它未生成部分的得分。因此当得分最高的单词的子树中未生成部分的得分远远小于其他子树时,贪婪搜索提供的解的质量会非常差。同样的问题可以出现在使用贪婪搜索的任意时刻 \parinterval 由于贪婪搜索并没有遍历整个解空间,所以该方法不保证一定能找到最优解。比如对于如图\ref{fig:2-18}所示的一个搜索结构,贪婪搜索将选择红线所示的序列,该序列的最终得分是-1.7。但是,对比图\ref{fig:2-16}可以发现,在另一条路径上有得分更高的序列“<sos>\ I\ agree\ <eos>”,它的得分为-1.5。此时贪婪搜索并没有找到最优解,由于贪婪搜索选择的单词是当前步骤得分最高的,但是最后生成的单词序列的得分取决于它未生成部分的得分。因此当得分最高的单词的子树中未生成部分的得分远远小于其他子树时,贪婪搜索提供的解的质量会非常差。同样的问题可以出现在使用贪婪搜索的任意时刻。但是,即使是这样,凭借其简单的思想以及在真实问题上的效果,贪婪搜索在很多场景中仍然得到了深入应用
%---------------------------------------------- %----------------------------------------------
\begin{figure}[htp] \begin{figure}[htp]
......
%%% outline
%-------------------------------------------------------------------------
\newlength{\bc}
\setlength{\bc}{0.5cm}
\begin{tikzpicture}
\begin{scope}
\filldraw [fill=white,drop shadow] (0,0) rectangle (\bc*5,\bc*5);
\filldraw [fill=black] (\bc*2,0) rectangle (\bc*3,\bc*1);
\filldraw [fill=black] (\bc*1,\bc*1) rectangle (\bc*2,\bc*2);
\filldraw [fill=black] (\bc*4,\bc*2) rectangle (\bc*5,\bc*3);
\filldraw [fill=black] (\bc*3,\bc*3) rectangle (\bc*4,\bc*4);
\filldraw [fill=black] (0,\bc*4) rectangle (\bc*1,\bc*5);
\draw [step=\bc, very thin, color=gray] (0,0) grid (\bc*5,\bc*5);
\draw [line width=1pt] (0,0) -- (0,\bc*5)--(\bc*5,\bc*5) -- (\bc*5,0) -- (0,0);
\coordinate (o) at (0,\bc*5);
\node[anchor=east,inner sep=0pt,font=\footnotesize] at([xshift=-0.4em,yshift=-0.25cm]o.west){};
\node[anchor=east,inner sep=0pt,font=\footnotesize] at([xshift=-0.4em,yshift=-0.25cm-\bc]o.west){};
\node[anchor=east,inner sep=0pt,font=\footnotesize] at([xshift=-0.4em,yshift=-0.25cm-\bc*2]o.west){};
\node[anchor=east,inner sep=0pt,font=\footnotesize] at([xshift=-0.4em,yshift=-0.25cm-\bc*3]o.west){感到};
\node[anchor=east,inner sep=0pt,font=\footnotesize] at([xshift=-0.4em,yshift=-0.25cm-\bc*4]o.west){满意};
\node[anchor=west,inner sep=0pt,font=\footnotesize,rotate=45] at([xshift=0.2cm,yshift=0.4em]o.east){I};
\node[anchor=west,inner sep=0pt,font=\footnotesize,rotate=45] at([xshift=0.1cm+\bc,yshift=0.4em]o.east){am};
\node[anchor=west,inner sep=0pt,font=\footnotesize,rotate=45] at([xshift=0.1cm+\bc*2,yshift=0.4em]o.east){satisfied};
\node[anchor=west,inner sep=0pt,font=\footnotesize,rotate=45] at([xshift=0.1cm+\bc*3,yshift=0.4em]o.east){with};
\node[anchor=west,inner sep=0pt,font=\footnotesize,rotate=45] at([xshift=0.1cm+\bc*4,yshift=0.4em]o.east){you};
\node[anchor=east,inner sep=0pt,font=\footnotesize] at([xshift=\bc*3,yshift=-1.0cm-\bc*4]o.west){(a)};
\end{scope}
\begin{scope}[xshift=15.0em]
\filldraw [fill=white,drop shadow] (0,0) rectangle (\bc*8,\bc*6);
\filldraw [fill=black] (0,\bc*5) rectangle (\bc*1,\bc*6);
\filldraw [fill=black] (\bc*1,\bc*3) rectangle (\bc*2,\bc*4);
\filldraw [fill=black] (\bc*2,\bc*2) rectangle (\bc*3,\bc*3);
\filldraw [fill=black] (\bc*3,\bc*2) rectangle (\bc*4,\bc*3);
\filldraw [fill=black] (\bc*4,\bc*1) rectangle (\bc*5,\bc*2);
\filldraw [fill=black] (\bc*5,0) rectangle (\bc*6,\bc*1);
\filldraw [fill=black] (\bc*6,\bc*4) rectangle (\bc*7,\bc*5);
\filldraw [fill=black] (\bc*7,\bc*4) rectangle (\bc*8,\bc*5);
\draw [step=\bc, very thin, color=gray] (0,0) grid (\bc*8,\bc*6);
\draw [line width=1pt] (0,0) -- (0,\bc*6)--(\bc*8,\bc*6) -- (\bc*8,0) -- (0,0);
\coordinate (o) at (0,\bc*6);
\node[anchor=east,inner sep=0pt,font=\footnotesize] at([xshift=-0.4em,yshift=-0.25cm]o.west){};
\node[anchor=east,inner sep=0pt,font=\footnotesize] at([xshift=-0.4em,yshift=-0.25cm-\bc]o.west){每天};
\node[anchor=east,inner sep=0pt,font=\footnotesize] at([xshift=-0.4em,yshift=-0.25cm-\bc*2]o.west){乘坐};
\node[anchor=east,inner sep=0pt,font=\footnotesize] at([xshift=-0.4em,yshift=-0.25cm-\bc*3]o.west){地铁};
\node[anchor=east,inner sep=0pt,font=\footnotesize] at([xshift=-0.4em,yshift=-0.25cm-\bc*4]o.west){};
\node[anchor=east,inner sep=0pt,font=\footnotesize] at([xshift=-0.4em,yshift=-0.25cm-\bc*5]o.west){上班};
\node[anchor=west,inner sep=0pt,font=\footnotesize,rotate=45] at([xshift=0.1cm,yshift=0.4em]o.east){He};
\node[anchor=west,inner sep=0pt,font=\footnotesize,rotate=45] at([xshift=0.1cm+\bc,yshift=0.4em]o.east){takes};
\node[anchor=west,inner sep=0pt,font=\footnotesize,rotate=45] at([xshift=0.1cm+\bc*2,yshift=0.4em]o.east){the};
\node[anchor=west,inner sep=0pt,font=\footnotesize,rotate=45] at([xshift=0.1cm+\bc*3,yshift=0.4em]o.east){subway};
\node[anchor=west,inner sep=0pt,font=\footnotesize,rotate=45] at([xshift=0.1cm+\bc*4,yshift=0.4em]o.east){to};
\node[anchor=west,inner sep=0pt,font=\footnotesize,rotate=45] at([xshift=0.1cm+\bc*5,yshift=0.4em]o.east){work};
\node[anchor=west,inner sep=0pt,font=\footnotesize,rotate=45] at([xshift=0.1cm+\bc*6,yshift=0.4em]o.east){every};
\node[anchor=west,inner sep=0pt,font=\footnotesize,rotate=45] at([xshift=0.1cm+\bc*7,yshift=0.4em]o.east){day};
\node[anchor=east,inner sep=0pt,font=\footnotesize] at([xshift=\bc*4.5,yshift=-1.0cm-\bc*5]o.west){(b)};
\end{scope}
\end{tikzpicture}
%---------------------------------------------------------------------
\ No newline at end of file
%%% outline
%-------------------------------------------------------------------------
\begin{tikzpicture}
\begin{scope}
\tikzstyle{cand} = [draw,inner sep=4pt,line width=1pt,align=center,drop shadow,minimum height =1.6em,minimum width=4.2em,fill=green!30]
\tikzstyle{ref} = [draw,inner sep=4pt,line width=1pt,align=center,drop shadow,minimum height =1.6em,minimum width=4.2em,fill=red!30]
\node[align=center,minimum width=2.4em,minimum height=1.6em,minimum width=6em] (n11) at (0,0){源语};
\node[cand,anchor=west] (n12) at ([xshift=0.0em]n11.east){};
\node[cand,anchor=west] (n13) at ([xshift=1em]n12.east){};
\node[cand,anchor=west] (n14) at ([xshift=1em]n13.east){};
\node[cand,anchor=west] (n15) at ([xshift=1em]n14.east){感到};
\node[cand,anchor=west] (n16) at ([xshift=1em]n15.east){满意};
\node[align=center,minimum width=2.4em,minimum height=1.6em,anchor=north,minimum width=6em] (n21) at ([yshift=-4em]n11.south){顺序翻译};
\node[ref,anchor=west] (n22) at ([xshift=0.0em]n21.east){I};
\node[ref,anchor=west] (n23) at ([xshift=1em]n22.east){with};
\node[ref,anchor=west] (n24) at ([xshift=1em]n23.east){you};
\node[ref,anchor=west] (n25) at ([xshift=1em]n24.east){am};
\node[ref,anchor=west] (n26) at ([xshift=1em]n25.east){satisfied};
\draw[line width=1.2pt,dashed] ([yshift=-0.3em]n12.south) -- ([yshift=0.2em]n22.north);
\draw[line width=1.2pt,dashed] ([yshift=-0.3em]n13.south) -- ([yshift=0.2em]n23.north);
\draw[line width=1.2pt,dashed] ([yshift=-0.3em]n14.south) -- ([yshift=0.2em]n24.north);
\draw[line width=1.2pt,dashed] ([yshift=-0.3em]n15.south) -- ([yshift=0.2em]n25.north);
\draw[line width=1.2pt,dashed] ([yshift=-0.3em]n16.south) -- ([yshift=0.2em]n26.north);
\end{scope}
\begin{scope}[yshift=-10.0em]
\tikzstyle{cand} = [draw,inner sep=4pt,line width=1pt,align=center,drop shadow,minimum height =1.6em,minimum width=4.2em,fill=green!30]
\tikzstyle{ref} = [draw,inner sep=4pt,line width=1pt,align=center,drop shadow,minimum height =1.6em,minimum width=4.2em,fill=red!30]
\node[align=center,minimum width=2.4em,minimum height=1.6em,minimum width=6em] (n11) at (0,0){源语};
\node[cand,anchor=west] (n12) at ([xshift=0.0em]n11.east){};
\node[cand,anchor=west] (n13) at ([xshift=1em]n12.east){};
\node[cand,anchor=west] (n14) at ([xshift=1em]n13.east){};
\node[cand,anchor=west] (n15) at ([xshift=1em]n14.east){感到};
\node[cand,anchor=west] (n16) at ([xshift=1em]n15.east){满意};
\node[align=center,minimum width=2.4em,minimum height=1.6em,anchor=north,minimum width=6em] (n21) at ([yshift=-4em]n11.south){调序翻译};
\node[ref,anchor=west] (n22) at ([xshift=0.0em]n21.east){I};
\node[ref,anchor=west] (n23) at ([xshift=1em]n22.east){am};
\node[ref,anchor=west] (n24) at ([xshift=1em]n23.east){satisfied};
\node[ref,anchor=west] (n25) at ([xshift=1em]n24.east){with};
\node[ref,anchor=west] (n26) at ([xshift=1em]n25.east){you};
\draw[line width=1.2pt,dashed] ([yshift=-0.3em]n12.south) -- ([yshift=0.2em]n22.north);
\draw[line width=1.2pt,dashed,out=-40,in=140] ([yshift=-0.3em]n13.south) to ([yshift=0.2em]n25.north);
\draw[line width=1.2pt,dashed,out=-40,in=140] ([yshift=-0.3em]n14.south) to ([yshift=0.2em]n26.north);
\draw[line width=1.2pt,dashed,out=-140,in=40] ([yshift=-0.3em]n15.south) to ([yshift=0.2em]n23.north);
\draw[line width=1.2pt,dashed,out=-140,in=40] ([yshift=-0.3em]n16.south) to ([yshift=0.2em]n24.north);
\end{scope}
\end{tikzpicture}
%---------------------------------------------------------------------
\ No newline at end of file
...@@ -41,7 +41,30 @@ ...@@ -41,7 +41,30 @@
%---------------------------------------------------------------------------------------- %----------------------------------------------------------------------------------------
\subsection{什么是扭曲度} \subsection{什么是扭曲度}
可以考虑先用例子描述一下翻译中的调序,之后说单词调序对应着``调序距离'',这种距离实际上可以被看做是一种扭曲度。。。 \parinterval {\small\sffamily\bfseries{调序}}(Reordering)是自然语言翻译中特有的语言现象。造成这个现象的主要原因在于不同语言之间语序的差异,比如,汉语是“主谓宾”结构,而日语是“主宾谓”结构。即使在句子整体结构相似的语言上进行翻译,调序也是频繁出现的现象。如图\ref{fig:6-1}所示,当一个主动语态的汉语句子翻译为一个被动语态的英语句子时,如果直接顺序翻译,那么翻译结果“I with you am satisfied”很明显不符合英语语法。这里就需要采取一些方法和手段在翻译过程中对词或短语进行调序,从而得到正确的翻译结果。
%----------------------------------------------
\begin{figure}[htp]
\centering
\input{./Chapter6/Figures/figure-examples-of-sequential-translation-and-reorder-translation}
\caption{顺序翻译和调序翻译的实例对比}
\label{fig:6-1}
\end{figure}
%----------------------------------------------
\parinterval 既然调序时翻译中的基本现象,机器翻译自然就需要一种方式对其进行描述。其中,最常见的是基于“调序距离”的方法。这里,可以假设完全进行顺序翻译时,调序的“代价”是最低的。当调序出现时,可以用调序相对于顺序翻译产生的位置偏移来度量调序的程度,也被称为“调序距离”。图\ref{fig:6-2}展示了翻译时两种语言中词的对齐矩阵。比如,在图\ref{fig:6-2}(a)中,系统需要跳过“对”和“你”来翻译“感到”和“满意”,之后再回过头翻译“对”和“你”,这样就完成了对单词的调序。这时可以简单的把调序时需要跳过的单词数看作一种距离。
\parinterval 可以看到,调序距离实际上是在度量译文词序相对于源文词序的一种扭曲程度。因此,也常常把这种调序距离称作{\small\sffamily\bfseries{扭曲度}}(Distortion)。调序距离越大对应的扭曲度也越大。比如,可以明显看出图\ref{fig:6-2}(b)中调序的扭曲度要比图\ref{fig:6-2}(a)中调序的扭曲度大,因此\ref{fig:6-2}(b)实例的调序代价也更大。
\parinterval 在机器翻译中使用扭曲度进行翻译建模是一种十分自然的想法。接下来,会介绍两个基于扭曲度的翻译模型,分别是IBM模型2和隐马尔可夫模型。不同于IBM模型1,它们利用了单词的位置信息定义了扭曲度,并将扭曲度融入翻译模型中,使得对翻译问题的建模更加合理。
%----------------------------------------------
\begin{figure}[htp]
\centering
\input{./Chapter6/Figures/figure-alignment-matrix-for-zh-to-en-translation}
\caption{不同的译文导致不同IBM模型1得分的情况}
\label{fig:6-2}
\end{figure}
%----------------------------------------------
%---------------------------------------------------------------------------------------- %----------------------------------------------------------------------------------------
% NEW SUB-SECTION % NEW SUB-SECTION
......
...@@ -1364,6 +1364,63 @@ ...@@ -1364,6 +1364,63 @@
number={3}, number={3},
year={1957}, year={1957},
} }
@book{lowerre1976the,
title="The HARPY speech recognition system",
author="Bruce T. {Lowerre}",
notes="Sourced from Microsoft Academic - https://academic.microsoft.com/paper/2137095888",
year="1976"
}
@book{bishop1995neural,
title="Neural networks for pattern recognition",
author="Christopher M. {Bishop}",
notes="Sourced from Microsoft Academic - https://academic.microsoft.com/paper/1554663460",
year="1995"
}
@article{åström1965optimal,
title="Optimal control of Markov processes with incomplete state information",
author="Karl Johan {Åström}",
journal="Journal of Mathematical Analysis and Applications",
volume="10",
number="1",
pages="174--205",
notes="Sourced from Microsoft Academic - https://academic.microsoft.com/paper/2011418219",
year="1965"
}
@article{korf1990real,
title="Real-time heuristic search",
author="Richard E. {Korf}",
journal="Artificial Intelligence",
volume="42",
number="2",
pages="189--211",
notes="Sourced from Microsoft Academic - https://academic.microsoft.com/paper/2021061679",
year="1990"
}
@article{ney1994on,
title="On structuring probabilistic dependences in stochastic language modelling",
author="Hermann {Ney} and Ute {Essen} and Reinhard {Kneser}",
journal="Computer Speech \& Language",
volume="8",
number="1",
pages="1--38",
notes="Sourced from Microsoft Academic - https://academic.microsoft.com/paper/2075201173",
year="1994"
}
@inproceedings{ney1991on,
title="On smoothing techniques for bigram-based natural language modelling",
author="H. {Ney} and U. {Essen}",
booktitle="[Proceedings] ICASSP 91: 1991 International Conference on Acoustics, Speech, and Signal Processing",
pages="825--828",
notes="Sourced from Microsoft Academic - https://academic.microsoft.com/paper/2020749563",
year="1991"
}
%%%%% chapter 2------------------------------------------------------ %%%%% chapter 2------------------------------------------------------
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论