bug fixes

1d54dd5e · xiaotong · 6c53c6ab · 1d54dd5e
Commit 1d54dd5e authored Mar 21, 2020 by xiaotong
--- a/Section04-Phrasal-and-Syntactic-Models/section04.tex
+++ b/Section04-Phrasal-and-Syntactic-Models/section04.tex
@@ -2546,9 +2546,9 @@ f_{\textrm{ME}}(d) = \prod_{<o,X_1,X_2> \in d} \Pr(o|X_1, X_2)
 \begin{frame}{特征}
 % 给出特征列表
 \begin{itemize}
-\item \textbf{特征1-2： 短语翻译概率}，即正向翻译概率$\Pr(\bar{s}|\bar{t})$和反向翻译概率$\Pr(\bar{t}|\bar{s})$。是基于短语的统计机器翻译模型中最主要的特征。
-\item \textbf{特征3-4： 词汇翻译概率}，即正向词汇翻译概率$\Pr_{\textrm{lex}}(\bar{t}|\bar{s})$和反向词汇翻译概率$\Pr_{\textrm{lex}}(\bar{s}|\bar{t})$。用来描述短语对中源语端单词和目标语端单词的对应关系
-\item<2-> \textbf{特征5： $n$-gram语言模型}，即$\textrm{P}_{\textrm{lm}}(\textbf{t})$。度量译文的流畅度，可以使用大规模目标语单语数据得到。
+\item \textbf{特征1-2： 短语翻译概率}，即正向翻译概率$\log(\textrm{P}(\bar{s}|\bar{t}))$和反向翻译概率$\log(\textrm{P}(\bar{t}|\bar{s}))$。是基于短语的统计机器翻译模型中最主要的特征。
+\item \textbf{特征3-4： 词汇翻译概率}，即正向词汇翻译概率$\log(\textrm{P}_{\textrm{lex}}(\bar{t}|\bar{s}))$和反向词汇翻译概率$\log(\textrm{P}_{\textrm{lex}}(\bar{s}|\bar{t}))$。用来描述短语对中源语端单词和目标语端单词的对应关系
+\item<2-> \textbf{特征5： $n$-gram语言模型}，即$\log(\textrm{P}_{\textrm{lm}}(\textbf{t}))$。度量译文的流畅度，可以使用大规模目标语单语数据得到。
 \item<2-> \textbf{特征6：译文长度}，即$|\textbf{t}|$。避免模型倾向于短译文，同时让系统自动学习对译文长度的偏好。
 \item<2-> \textbf{特征7：翻译规则数量}。这个特征是为了避免模型仅仅使用少量特征构成翻译推导(因为翻译概率相乘，因子少结果一般会大一些)，同时让系统自动学习对使用规则数量的偏好。
 \end{itemize}
@@ -3680,17 +3680,12 @@ d = r_1 \circ r_2 \circ r_3 \circ r_4
 % 还是David Chiang的论文
 \begin{itemize}
 \item 与短语模型一样，层次短语模型也使用判别式模型进行建模 - $\textrm{P}(d,\textbf{t}|\textbf{s}) = \frac{\exp(\sum_{i=1}^{M} \lambda_i \cdot h_i(d,\textbf{s},\textbf{t}))}{\sum_{d',t'}\exp(\sum_{i=1}^{M} \lambda_i \cdot h_i(d',\textbf{s},\textbf{t}'))}$。其中特征权重$\{\lambda_i\}$可以使用最小错误率训练进行调优，特征函数$\{h_i\}$需要用户定义。
-\item<2-> 这里，所有层次短语规则满足$\langle\ \alpha, \beta, \sim\ \rangle$的形式
+\item<2-> 这里，所有层次短语规则满足$\textrm{LHS} \to \langle\ \alpha, \beta, \sim\ \rangle$的形式
    \begin{itemize}
    \item $\alpha$和$\beta$表示源语和目标语的规则串，$\sim$表示他们的对应关系
-    \item 此外，定义$\tau(\alpha)$和$\tau(\beta)$为源语端和目标语端的规则序列。例如
-        \vspace{-0.8em}
-        \begin{eqnarray}
-        \tau(\alpha) & = & \textrm{对}\ \textrm{X}_1\ \textrm{感到}\ \textrm{X}_2 \nonumber \\
-        \tau(\beta) & = & \textrm{be}\ \textrm{X}_2\ \textrm{with}\ \textrm{X}_1 \nonumber
-        \end{eqnarray}
    \end{itemize}
-\item<3-> \textbf{特征1-2： 短语翻译概率}，即正向翻译概率$\textrm{P}(\tau(\alpha)|\tau(\beta))$和反向翻译概率$\textrm{P}(\tau(\alpha)|\tau(\beta))$。这里，$\tau(\alpha)$和$\tau(\beta)$ 都被看做短语，因此可以直接复用短语系统的方法，使用极大似然估计进行计算。
+\item<3-> \textbf{特征1-2： 短语翻译概率}，即正向翻译概率$\log(\textrm{P}(\alpha|\beta))$和反向翻译概率$\log(\textrm{P}(\beta|\alpha))$。这里，$\alpha$和$\beta$ 都被看做短语，因此可以直接复用短语系统的方法，使用极大似然估计进行计算。
+\item<3-> \textbf{特征3-4： 词汇翻译概率}，即正向词汇翻译概率$\log(\textrm{P}_{lex}(\alpha|\beta))$和反向词汇翻译概率$\log(\textrm{P}_{lex}(\beta|\alpha))$。用来描述短语对中源语端单词和目标语端单词的对应关系
 \end{itemize}
 \end{frame}

@@ -3699,11 +3694,11 @@ d = r_1 \circ r_2 \circ r_3 \circ r_4
 \begin{frame}{特征(续)}
 % 给出特征列表
 \begin{itemize}
-\item \textbf{特征3-4： 词汇翻译概率}，即正向词汇翻译概率$\Pr_{lex}(\bar{t}|\bar{s})$和反向词汇翻译概率$\Pr_{lex}(\bar{s}|\bar{t})$。用来描述短语对中源语端单词和目标语端单词的对应关系
-\item \textbf{特征5： $n$-gram语言模型}，即$\textrm{P}_{\textrm{lm}}(\textbf{t})$。度量译文的流畅度，可以使用大规模目标语单语数据得到。
-\item<2-> \textbf{特征6：译文长度}，即$|\textbf{t}|$。避免模型倾向于短译文，同时让系统自动学习对译文长度的偏好。
+
+\item \textbf{特征5： $n$-gram语言模型}，即$\log(\textrm{P}_{\textrm{lm}}(\textbf{t}))$。度量译文的流畅度，可以使用大规模目标语单语数据得到。
+\item \textbf{特征6：译文长度}，即$|\textbf{t}|$。避免模型倾向于短译文，同时让系统自动学习对译文长度的偏好。
 \item<2-> \textbf{特征7：翻译规则数量}。这个特征是为了避免模型仅仅使用少量特征构成翻译推导(因为翻译概率相乘，因子少结果一般会大一些)，同时让系统自动学习对使用规则数量的偏好。
-\item<2-> \textbf{特征8：源语言被翻译为空的单词数量}。注意，空翻译规则(或特征)有时也被称作evil feature，这类特征在一些数据集上对BLEU有很好的提升作用，但是会造成人工评价的下降，因此需要谨慎使用。
+\item<2-> \textbf{特征8：胶水规则数量}。这个特征是为了让系统可以控制使用胶水规则的偏好。
 \end{itemize}
 \end{frame}

@@ -6709,9 +6704,9 @@ NP-BAR(NN$_1$ NP-BAR$_2$) $\to$ NN$_1$ NP-BAR$_2$
 %%%  翻译特征(续)
 \begin{frame}{特征(续)}
 \begin{itemize}
-\item \textbf{特征1-2： 短语翻译概率}，即正向翻译概率$\textrm{P}(\tau(\beta_r)|\tau(\alpha_r))$和反向翻译概率$\textrm{P}(\tau(\alpha_r)|\tau(\beta_r))$。这里，$\tau(\alpha_r)$和$\tau(\beta_r)$ 都被看做短语，因此可以直接复用短语系统的方法进行计算。
-\item \textbf{特征3-4： 词汇翻译概率}，即$\textrm{P}_{\textrm{lex}}(\tau(\beta_r)|\tau(\alpha_r))$和$\textrm{P}_{\textrm{lex}}(\tau(\alpha_r)|\tau(\beta_r))$。可以用短语系统中的词汇翻译概率描述源语和目标语单词对应的情况。
-\item<2-> \textbf{特征5： $n$-gram语言模型}，即$\textrm{P}_{\textrm{lm}}(\textbf{t})$。度量译文的流畅度，可以使用大规模目标语单语数据得到。
+\item \textbf{特征1-2： 短语翻译概率}，即正向翻译概率$\log(\textrm{P}(\tau(\beta_r)|\tau(\alpha_r)))$和反向翻译概率$\log(\textrm{P}(\tau(\alpha_r)|\tau(\beta_r)))$。这里，$\tau(\alpha_r)$ 和$\tau(\beta_r)$ 都被看做短语，因此可以直接复用短语系统的方法进行计算。
+\item \textbf{特征3-4： 词汇翻译概率}，即$\log(\textrm{P}_{\textrm{lex}}(\tau(\beta_r)|\tau(\alpha_r)))$和$\log(\textrm{P}_{\textrm{lex}}(\tau(\alpha_r)|\tau(\beta_r)))$。可以用短语系统中的词汇翻译概率描述源语和目标语单词对应的情况。
+\item<2-> \textbf{特征5： $n$-gram语言模型}，即$\log(\textrm{P}_{\textrm{lm}}(\textbf{t}))$。度量译文的流畅度，可以使用大规模目标语单语数据得到。
 \item<2-> \textbf{特征6：译文长度}，即$|\textbf{t}|$。避免模型倾向于短译文，同时让系统自动学习对译文长度的偏好。
 \item<2-> \textbf{特征7：翻译规则数量}。这个特征是为了避免模型仅仅使用少量特征构成翻译推导(因为翻译概率相乘，因子少结果一般会大一些)，同时让系统自动学习对使用规则数量的偏好。
 \end{itemize}
@@ -6722,7 +6717,7 @@ NP-BAR(NN$_1$ NP-BAR$_2$) $\to$ NN$_1$ NP-BAR$_2$
 \begin{frame}{特征(续2)}
 \begin{itemize}
 \item \textbf{特征8：源语言被翻译为空的单词数量}。注意，空翻译规则(或特征)有时也被称作evil feature，这类特征在一些数据集上对BLEU有很好的提升作用，但是会造成人工评价的下降，因此需要谨慎使用。
-\item<2-> \textbf{特征9： 翻译规则生成概率}，即$\textrm{P}_{\textrm{rule}}(\alpha_r,\beta_r,\sim|\alpha_h,\beta_h)$。这个特征可以被看做是生成翻译推导的概率。
+\item<2-> \textbf{特征9： 翻译规则生成概率}，即$\log(\textrm{P}_{\textrm{rule}}(\alpha_r,\beta_r,\sim|\alpha_h,\beta_h))$。这个特征可以被看做是生成翻译推导的概率。
 \item<2-> \textbf{特征10：组合规则的数量}。学习使用组合规则(或最小规则)的偏好。
 \item<2-> \textbf{特征11：词汇化规则的数量}。学习使用含有终结符规则的偏好。
 \item<2-> \textbf{特征12：低频规则的数量}。学习使用训练数据中出现频次低于3的规则的偏好。低频规则大多并不可靠，这个特征本质上也是为了区分不同质量规则。