更新 chapter8.tex

980015a3 · 曹润柘 · ac42af24 · 980015a3
Commit 980015a3 authored Sep 10, 2020 by 曹润柘
--- a/Chapter8/chapter8.tex
+++ b/Chapter8/chapter8.tex
@@ -328,7 +328,7 @@ d = {r_1} \circ {r_2} \circ {r_3} \circ {r_4}
 \begin{definition} 与词对齐相兼容的层次短语规则

 {\small
-对于句对$(\vectorn{s},\vectorn{t})$和它们之间的词对齐$\vectorn{a}$，令$\Phi$表示在句对$(\vectorn{s},\vectorn{t})$上与$\vectorn{a}$相兼容的双语短语集合。则：
+对于句对$(\vectorn{\emph{s}},\vectorn{\emph{t}})$和它们之间的词对齐$\vectorn{\emph{a}}$，令$\Phi$表示在句对$(\vectorn{\emph{s}},\vectorn{\emph{t}})$上与$\vectorn{\emph{a}}$相兼容的双语短语集合。则：
 \begin{enumerate}
 \item 	如果$(x,y)\in \Phi$，则$\textrm{X} \to \langle x,y,\phi \rangle$是与词对齐相兼容的层次短语规则。
 \item 	对于$(x,y)\in \Phi$，存在$m$个双语短语$(x_i,y_j)\in \Phi$，同时存在(1,$...$,$m$)上面的一个排序$\sim = \{\pi_1 , ... ,\pi_m\}$，且：
@@ -376,7 +376,7 @@ y&=&\beta_0 y_{\pi_1} \beta_1 y_{\pi_2} ... \beta_{m-1} y_{\pi_m} \beta_m

 \subsection{翻译特征}

-\parinterval 在层次短语模型中，每个翻译推导都有一个模型得分$\textrm{score}(d,\vectorn{s},\vectorn{t})$。$\textrm{score}(d,\vectorn{s},\vectorn{t})$是若干特征的线性加权之和：$\textrm{score}(d,\vectorn{t},\vectorn{s})=\sum_{i=1}^M\lambda_i\cdot h_i (d,\vectorn{t},\vectorn{s})$，其中$\lambda_i$是特征权重，$h_i (d,\vectorn{t},\vectorn{s})$是特征函数。层次短语模型的特征包括与规则相关的特征和语言模型特征，如下：
+\parinterval 在层次短语模型中，每个翻译推导都有一个模型得分$\textrm{score}(d,\vectorn{\emph{s}},\vectorn{\emph{t}})$。$\textrm{score}(d,\vectorn{\emph{s}},\vectorn{\emph{t}})$是若干特征的线性加权之和：$\textrm{score}(d,\vectorn{\emph{t}},\vectorn{\emph{s}})=\sum_{i=1}^M\lambda_i\cdot h_i (d,\vectorn{\emph{t}},\vectorn{\emph{s}})$，其中$\lambda_i$是特征权重，$h_i (d,\vectorn{\emph{t}},\vectorn{\emph{s}})$是特征函数。层次短语模型的特征包括与规则相关的特征和语言模型特征，如下：

 \parinterval 对于每一条翻译规则LHS$\to \langle \alpha, \beta ,\sim \rangle$，有：

@@ -396,19 +396,19 @@ y&=&\beta_0 y_{\pi_1} \beta_1 y_{\pi_2} ... \beta_{m-1} y_{\pi_m} \beta_m

 \parinterval 这些特征可以被具体描述为：
 \begin{eqnarray}
-h_i (d,\vectorn{t},\vectorn{s})=\sum_{r \in d}h_i (r)
+h_i (d,\vectorn{\emph{t}},\vectorn{\emph{s}})=\sum_{r \in d}h_i (r)
 \label{eq:8-4}
 \end{eqnarray}

 \parinterval 公式\ref{eq:8-4}中，$r$表示推导$d$中的一条规则，$h_i (r)$表示规则$r$上的第$i$个特征。可以看出，推导$d$的特征值就是所有包含在$d$中规则的特征值的和。进一步，可以定义
 \begin{eqnarray}
-\textrm{rscore}(d,\vectorn{t},\vectorn{s})=\sum_{i=1}^7 \lambda_i \cdot h_i (d,\vectorn{t},\vectorn{s})
+\textrm{rscore}(d,\vectorn{\emph{t}},\vectorn{\emph{s}})=\sum_{i=1}^7 \lambda_i \cdot h_i (d,\vectorn{\emph{t}},\vectorn{\emph{s}})
 \label{eq:8-5}
 \end{eqnarray}

 \parinterval 最终，模型得分被定义为：
 \begin{eqnarray}
-\textrm{score}(d,\vectorn{t},\vectorn{s})=\textrm{rscore}(d,\vectorn{t},\vectorn{s})+ \lambda_8 \textrm{log}⁡(\textrm{P}_{\textrm{lm}}(\vectorn{t}))+\lambda_9 \mid \vectorn{t} \mid
+\textrm{score}(d,\vectorn{\emph{t}},\vectorn{\emph{s}})=\textrm{rscore}(d,\vectorn{\emph{t}},\vectorn{\emph{s}})+ \lambda_8 \textrm{log}⁡(\textrm{P}_{\textrm{lm}}(\vectorn{\emph{t}}))+\lambda_9 \mid \vectorn{\emph{t}} \mid
 \label{eq:8-6}
 \end{eqnarray}

@@ -432,14 +432,14 @@ h_i (d,\vectorn{t},\vectorn{s})=\sum_{r \in d}h_i (r)

 \parinterval 层次短语模型解码的目标是找到模型得分最高的推导，即：
 \begin{eqnarray}
-\hat{d} = \argmax_{d}\ \textrm{score}(d,\vectorn{s},\vectorn{t})
+\hat{d} = \argmax_{d}\ \textrm{score}(d,\vectorn{\emph{s}},\vectorn{\emph{t}})
 \label{eq:8-7}
 \end{eqnarray}

-\noindent 这里，$\hat{d}$的目标语部分即最佳译文$\hat{\vectorn{t}}$。令函数$t(\cdot)$返回翻译推导的目标语词串，于是有：
+\noindent 这里，$\hat{d}$的目标语部分即最佳译文$\hat{\vectorn{\emph{t}}}$。令函数$t(\cdot)$返回翻译推导的目标语词串，于是有：

 \begin{eqnarray}
-\hat{\vectorn{t}}=t(\hat{d})
+\hat{\vectorn{\emph{t}}}=t(\hat{d})
 \label{eq:8-8}
 \end{eqnarray}

@@ -1305,7 +1305,7 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex

 \subsection{句法翻译模型的特征}

-\parinterval 基于语言学句法的翻译模型使用判别式模型对翻译推导进行建模（{\chapterseven}数学建模小节）。给定双语句对($\vectorn{s}$,$\vectorn{t}$)，由$M$个特征经过线性加权，得到每个翻译推导$d$的得分，记为$\textrm{score(}d,\vectorn{t},\vectorn{s})=\sum_{i=1}^{M} \lambda_i \cdot h_{i}(d,\vectorn{t},\vectorn{s})$，其中$\lambda_i$表示特征权重，$h_{i}(d,\vectorn{t},\vectorn{s})$表示特征函数。翻译的目标就是要找到使$\textrm{score(}d,\vectorn{t},\vectorn{s})$达到最高的推导$d$。
+\parinterval 基于语言学句法的翻译模型使用判别式模型对翻译推导进行建模（{\chapterseven}数学建模小节）。给定双语句对($\vectorn{\emph{s}}$,$\vectorn{\emph{t}}$)，由$M$个特征经过线性加权，得到每个翻译推导$d$的得分，记为$\textrm{score(}d,\vectorn{\emph{t}},\vectorn{\emph{s}})=\sum_{i=1}^{M} \lambda_i \cdot h_{i}(d,\vectorn{\emph{t}},\vectorn{\emph{s}})$，其中$\lambda_i$表示特征权重，$h_{i}(d,\vectorn{\emph{t}},\vectorn{\emph{s}})$表示特征函数。翻译的目标就是要找到使$\textrm{score(}d,\vectorn{\emph{t}},\vectorn{\emph{s}})$达到最高的推导$d$。

 \parinterval 这里，可以使用最小错误率训练对特征权重进行调优（{\chapterseven}最小错误率训练小节）。而特征函数可参考如下定义：

@@ -1346,9 +1346,9 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex

 \begin{itemize}
 \vspace{0.5em}
-\item (h8)语言模型得分（取对数），即$\log(\textrm{P}_{\textrm{lm}}(\vectorn{t}))$，用于度量译文的流畅度；
+\item (h8)语言模型得分（取对数），即$\log(\textrm{P}_{\textrm{lm}}(\vectorn{\emph{t}}))$，用于度量译文的流畅度；
 \vspace{0.5em}
-\item (h9)译文长度，即$|\vectorn{t}|$，用于避免模型过于倾向生成短译文（因为短译文语言模型分数高）；
+\item (h9)译文长度，即$|\vectorn{\emph{t}}|$，用于避免模型过于倾向生成短译文（因为短译文语言模型分数高）；
 \vspace{0.5em}
 \item (h10)翻译规则数量，学习对使用规则数量的偏好。比如，如果这个特征的权重较高，则表明系统更喜欢使用数量多的规则；
 \vspace{0.5em}
@@ -1455,7 +1455,7 @@ d_1 = {d'} \circ {r_5}

 \parinterval 解码的目标是找到得分score($d$)最高的推导$d$。这个过程通常被描述为：
 \begin{eqnarray}
-\hat{d} = \argmax_d\ \textrm{score} (d,\vectorn{s},\vectorn{t})
+\hat{d} = \argmax_d\ \textrm{score} (d,\vectorn{\emph{s}},\vectorn{\emph{t}})
 \label{eq:8-13}
 \end{eqnarray}