updates (section4, slides)

3146f0ea · xiaotong · f8580d8f · 3146f0ea
Commit 3146f0ea authored Mar 15, 2020 by xiaotong
--- a/Section04-Phrasal-and-Syntactic-Models/section04.tex
+++ b/Section04-Phrasal-and-Syntactic-Models/section04.tex
@@ -2527,7 +2527,7 @@ f_{\textrm{ME}}(d) = \prod_{<o,X_1,X_2> \in d} \Pr(o|X_1, X_2)
 \item 把每个子模型当作一个特征，为每个模型添加一个权重，然后使用对数线性模型对这些子模型进行建模，对数线性模型的形式如下：
 \vspace{-0.8em}
 \begin{displaymath}
-\textrm{P}(d,\textbf{t}|\textbf{s}) \propto \exp(\sum_{i=1}^{M} \lambda_i \cdot h_i(d,\textbf{s},\textbf{t}))
+\textrm{P}(d,\textbf{t}|\textbf{s}) \propto \textrm{mscore}(d,\textbf{s}|\textbf{t}) = \exp(\sum_{i=1}^{M} \lambda_i \cdot h_i(d,\textbf{s},\textbf{t}))
 \end{displaymath}
 \vspace{-1.2em}
 	\begin{itemize}
@@ -2535,7 +2535,7 @@ f_{\textrm{ME}}(d) = \prod_{<o,X_1,X_2> \in d} \Pr(o|X_1, X_2)
 	\end{itemize}
 \vspace{0.8em}
 \begin{displaymath}
-\textrm{P}(d,\textbf{t}|\textbf{s}) = \prod_{(\bar{s},\bar{t}) \in d} \Pr(\bar{t}|\bar{s})^{\lambda_{1}} \times f(d)^{\lambda_{2}} \times \Pr\nolimits_{\textrm{lm}}(\mathbf{t})^{\lambda_{lm}}
+\textrm{mscore}(d,\textbf{t}|\textbf{s}) = \prod_{(\bar{s},\bar{t}) \in d} \Pr(\bar{t}|\bar{s})^{\lambda_{1}} \times f(d)^{\lambda_{2}} \times \Pr\nolimits_{\textrm{lm}}(\mathbf{t})^{\lambda_{lm}}
 \end{displaymath}
 \item 可以引入更多的特征来提高翻译质量（下面介绍）
 \end{itemize}
@@ -2567,9 +2567,9 @@ f_{\textrm{ME}}(d) = \prod_{<o,X_1,X_2> \in d} \Pr(o|X_1, X_2)
 \begin{center}
 \begin{tikzpicture}
 \begin{scope}[minimum height = 15pt]
-\node[anchor=west,minimum width=3em] (x1) at (0, 0) {\footnotesize{$\textrm{P}(d,\textbf{t}|\textbf{s}) = \prod_{(\bar{s},\bar{t}) \in d} score(\bar{s},\bar{t}) \times f_{\textrm{ME}}(d)^{\lambda_{ME}} \times f_{\textrm{MSD}}(d)^{\lambda_{MSD}} \times$}};
+\node[anchor=west,minimum width=3em] (x1) at (0, 0) {\footnotesize{$\textrm{mscore}(d,\textbf{t}|\textbf{s}) = \prod_{(\bar{s},\bar{t}) \in d} \textrm{pscore}(\bar{s},\bar{t}) \times f_{\textrm{ME}}(d)^{\lambda_{ME}} \times f_{\textrm{MSD}}(d)^{\lambda_{MSD}} \times$}};
 \node[anchor=north west] (x2) at ([xshift=4em,yshift=0.1em]x1.south west) {\footnotesize{$\Pr\nolimits_{\textrm{lm}}(\mathbf{t})^{\lambda_{lm}} \times \exp(\lambda_{TWB} \cdot length(\mathbf{t})) / Z(\mathbf{s})$}};
-\node[anchor=north west] (x3) at ([yshift=-1.8em]x1.south west) {\footnotesize{$score(\bar{s},\bar{t}) = \Pr(\bar{t}|\bar{s})^{\lambda_{1}} \times \Pr(\bar{s}|\bar{t})^{\lambda_{2}} \times \Pr\nolimits_{\textrm{lex}}(\bar{t}|\bar{s})^{\lambda_{3}} \times \Pr\nolimits_{\textrm{lex}}(\bar{s}|\bar{t})^{\lambda_{4}} \times$}};
+\node[anchor=north west] (x3) at ([yshift=-1.8em]x1.south west) {\footnotesize{$\textrm{pscore}(\bar{s},\bar{t}) = \Pr(\bar{t}|\bar{s})^{\lambda_{1}} \times \Pr(\bar{s}|\bar{t})^{\lambda_{2}} \times \Pr\nolimits_{\textrm{lex}}(\bar{t}|\bar{s})^{\lambda_{3}} \times \Pr\nolimits_{\textrm{lex}}(\bar{s}|\bar{t})^{\lambda_{4}} \times$}};
 \node[anchor=north west] (x4) at ([xshift=5em,yshift=0.1em]x3.south west) {\footnotesize{$\exp(\lambda_{PB}) \times \exp(\lambda_{WDB} \cdot \delta(\bar{s} \to null))$}};
 \end{scope}
 \end{tikzpicture}
@@ -2616,11 +2616,11 @@ d_{i}^{*} = \argmax_{d_{ij}} \sum_{k=1}^{M} \lambda_k \cdot h_k(d_{ij})
 \item 如何得到最优的$\lambda^*$
 	\begin{itemize}
 	\item 最简单的方法是枚举所有可能的$\lambda$值，但是这样做效率很低。可以只考虑最优译文发生变化的点:）
-	\item 对于每个训练样本，假设有2-best个推导$\mathbf{d}=\{d_1,d_2\}$，每个推导$d$的得分modelscore($d$)可以表示成关于权重$\lambda_i$的函数
+	\item 对于每个训练样本，假设有2-best个推导$\mathbf{d}=\{d_1,d_2\}$，每个推导$d$的得分score($d$)可以表示成关于权重$\lambda_i$的函数
 	\end{itemize}
 \vspace{0.2em}
 \begin{displaymath}
-\textrm{modelscore}(d) = \lambda_i \cdot h_i(d) + \sum_{k{\ne}i}^{M} \lambda_k \cdot h_k(d) = a \cdot \lambda_i + b
+\textrm{score}(d) = \lambda_i \cdot h_i(d) + \sum_{k{\ne}i}^{M} \lambda_k \cdot h_k(d) = a \cdot \lambda_i + b
 \end{displaymath}
 \vspace{-0.7em}
 \begin{center}