更新 chapter8.tex

706442fd · 曹润柘 · 44151631 · 706442fd
Commit 706442fd authored Sep 16, 2020 by 曹润柘
--- a/Chapter8/chapter8.tex
+++ b/Chapter8/chapter8.tex
@@ -1574,7 +1574,7 @@ d_1 = {d'} \circ {r_5}
 \textrm{VP}_1\ \ \textrm{NP}_2 &\rightarrow& \textrm{V103(}\ \ \textrm{VP}_1\ \ \textrm{NP}_2 ) \nonumber
 \end{eqnarray}

-\noindent 可以看到，这两条新的规则源语言端只有两个部分，代表两个分叉。V103是一个新的标签，它没有任何句法含义。不过，为了保证二叉化后规则目标语部分的连续性，需要考虑源语言和目标语二叉化的同步性\upcite{zhang2006synchronous,Tong2009Better}。这样的规则与CKY方法一起使用完成解码，具体内容可以参考\ref{section-8.2.4}节的内容。
+\noindent 可以看到，这两条新的规则源语言端只有两个部分，代表两个分叉。V103是一个新的标签，它没有任何句法含义。不过，为了保证二叉化后规则目标语部分的连续性，需要考虑源语言和目标语二叉化的同步性\upcite{DBLP:conf/naacl/ZhangHGK06,Tong2009Better}。这样的规则与CKY方法一起使用完成解码，具体内容可以参考\ref{section-8.2.4}节的内容。
 \vspace{0.5em}
 \end{itemize}

@@ -1592,9 +1592,9 @@ d_1 = {d'} \circ {r_5}

 \begin{itemize}
 \vspace{0.5em}
-\item 从建模的角度看，早期的统计机器翻译模型已经涉及到了树结构的表示问题\upcite{DBLP:conf/acl/AlshawiBX97,DBLP:conf/acl/WangW98}。不过，基于句法的翻译模型的真正崛起还源自同步文法的提出。初期的工作大多集中在反向转录文法和括号转录文法方面\upcite{DBLP:conf/acl-vlc/Wu95,wu1997stochastic,DBLP:conf/acl/WuW98}，这类方法也被用于短语获取\upcite{ja2006obtaining,DBLP:conf/acl/ZhangQMG08}。进一步，研究者提出了更加通用的层次模型来描述翻译过程\upcite{chiang2005a,DBLP:conf/coling/ZollmannVOP08,DBLP:conf/acl/WatanabeTI06}，本章介绍的层次短语模型就是其中典型的代表。之后，使用语言学句法的模型也逐渐兴起。最具代表性的是在单语言端使用语言学句法信息的模型\upcite{DBLP:conf/naacl/GalleyHKM04,galley2006scalable,marcu2006spmt,DBLP:conf/naacl/HuangK06,DBLP:conf/emnlp/DeNeefeKWM07,DBLP:conf/wmt/LiuG08,DBLP:conf/acl/LiuLL06}，即：树到串翻译模型和串到树翻译模型。值得注意的是，除了直接用句法信息定义翻译规则，也有研究者将句法信息作为软约束改进层次短语模型\upcite{zollmann2006syntax,DBLP:conf/acl/MartonR08}。这类方法具有很大的灵活性，既保留了层次短语模型比较健壮的特点，同时也兼顾了语言学句法对翻译的指导作用。在同一时期，也有研究者提出同时使用双语两端的语言学句法树对翻译进行建模，比较有代表性的工作是使用同步树插入文法（Synchronous Tree-Insertion Grammars）和同步树替换文法（Synchronous Tree-Substitution Grammars）进行树到树翻译的建模\upcite{Nesson06inductionof,Zhang07atree-to-tree,DBLP:conf/acl/LiuLL09}。不过，树到树翻译假设两种语言间的句法结构能够相互转换，而这个假设并不总是成立。因此树到树翻译系统往往要配合一些技术，如树二叉化，来提升系统的健壮性。
+\item 从建模的角度看，早期的统计机器翻译模型已经涉及到了树结构的表示问题\upcite{DBLP:conf/acl/AlshawiBX97,DBLP:conf/acl/WangW98}。不过，基于句法的翻译模型的真正崛起还源自同步文法的提出。初期的工作大多集中在反向转录文法和括号转录文法方面\upcite{DBLP:conf/acl-vlc/Wu95,wu1997stochastic,DBLP:conf/acl/WuW98}，这类方法也被用于短语获取\upcite{ja2006obtaining,DBLP:conf/acl/ZhangQMG08}。进一步，研究者提出了更加通用的层次模型来描述翻译过程\upcite{chiang2005a,DBLP:conf/coling/ZollmannVOP08,DBLP:conf/acl/WatanabeTI06}，本章介绍的层次短语模型就是其中典型的代表。之后，使用语言学句法的模型也逐渐兴起。最具代表性的是在单语言端使用语言学句法信息的模型\upcite{DBLP:conf/naacl/GalleyHKM04,galley2006scalable,marcu2006spmt,DBLP:conf/naacl/HuangK06,DBLP:conf/emnlp/DeNeefeKWM07,DBLP:conf/wmt/LiuG08,liu2006tree}，即：树到串翻译模型和串到树翻译模型。值得注意的是，除了直接用句法信息定义翻译规则，也有研究者将句法信息作为软约束改进层次短语模型\upcite{zollmann2006syntax,DBLP:conf/acl/MartonR08}。这类方法具有很大的灵活性，既保留了层次短语模型比较健壮的特点，同时也兼顾了语言学句法对翻译的指导作用。在同一时期，也有研究者提出同时使用双语两端的语言学句法树对翻译进行建模，比较有代表性的工作是使用同步树插入文法（Synchronous Tree-Insertion Grammars）和同步树替换文法（Synchronous Tree-Substitution Grammars）进行树到树翻译的建模\upcite{Nesson06inductionof,Zhang07atree-to-tree,liu2009improving}。不过，树到树翻译假设两种语言间的句法结构能够相互转换，而这个假设并不总是成立。因此树到树翻译系统往往要配合一些技术，如树二叉化，来提升系统的健壮性。
 \vspace{0.5em}
-\item 在基于句法的模型中，常常会使用句法分析器完成句法分析树的生成。由于句法分析器会产生错误，因此这些错误会对机器翻译系统产生影响。对于这个问题，一种解决办法是同时考虑更多的句法树，这样增加正确句法分析结果被使用到的概率。其中，比较典型的方式基于句法森林的方法\upcite{DBLP:conf/acl/MiHL08,DBLP:conf/emnlp/MiH08}，比如，在规则抽取或者解码阶段使用句法森林，而不是仅仅使用一棵单独的句法树。另一种思路是，对句法结构进行松弛操作，即在翻译的过程中并不严格遵循句法结构\upcite{DBLP:conf/acl/ZhuX11,DBLP:conf/emnlp/ZhangZZ11}。实际上，前面提到的基于句法软约束的模型也是这类方法的一种体现\upcite{DBLP:conf/wmt/ZollmannV06,DBLP:conf/acl/MartonR08}。实际上，机器翻译领域的长期存在一个问题：使用什么样的句法结构是最适合机器翻译？因此，有研究者尝试对比不同的句法分析结果对机器翻译系统的影响\upcite{DBLP:conf/wmt/PopelMGZ11,DBLP:conf/coling/XiaoZZZ10}。也有研究者面向机器翻译任务自动归纳句法结构\upcite{DBLP:journals/tacl/ZhaiZZZ13}，而不是直接使用从单语小规模树库学习到的句法分析器，这样可以提高系统的健壮性。
+\item 在基于句法的模型中，常常会使用句法分析器完成句法分析树的生成。由于句法分析器会产生错误，因此这些错误会对机器翻译系统产生影响。对于这个问题，一种解决办法是同时考虑更多的句法树，这样增加正确句法分析结果被使用到的概率。其中，比较典型的方式基于句法森林的方法\upcite{DBLP:conf/acl/MiHL08,DBLP:conf/emnlp/MiH08}，比如，在规则抽取或者解码阶段使用句法森林，而不是仅仅使用一棵单独的句法树。另一种思路是，对句法结构进行松弛操作，即在翻译的过程中并不严格遵循句法结构\upcite{zhu2011improving,DBLP:conf/emnlp/ZhangZZ11}。实际上，前面提到的基于句法软约束的模型也是这类方法的一种体现\upcite{DBLP:conf/wmt/ZollmannV06,DBLP:conf/acl/MartonR08}。实际上，机器翻译领域的长期存在一个问题：使用什么样的句法结构是最适合机器翻译？因此，有研究者尝试对比不同的句法分析结果对机器翻译系统的影响\upcite{DBLP:conf/wmt/PopelMGZ11,DBLP:conf/coling/XiaoZZZ10}。也有研究者面向机器翻译任务自动归纳句法结构\upcite{DBLP:journals/tacl/ZhaiZZZ13}，而不是直接使用从单语小规模树库学习到的句法分析器，这样可以提高系统的健壮性。
 \vspace{0.5em}
 \item 本章所讨论的模型大多基于短语结构树。另一个重要的方向是使用依存树进行翻译建模\upcite{DBLP:journals/mt/QuirkM06,DBLP:conf/wmt/XiongLL07,DBLP:conf/coling/Lin04}。依存树比短语结构树有更简单的结构，而且依存关系本身也是对“语义”的表征，因此也可以扑捉到短语结构树所无法涵盖的信息。同其它基于句法的模型类似，基于依存树的模型大多也需要进行规则抽取、解码等步骤，因此这方面的研究工作大多涉及翻译规则的抽取、基于依存树的解码等\upcite{DBLP:conf/acl/DingP05,DBLP:conf/coling/ChenXMJL14,DBLP:conf/coling/SuLMZLL10,DBLP:conf/coling/XieXL14,DBLP:conf/emnlp/LiWL15}。此外，基于依存树的模型也可以与句法森林结构相结合，对系统性能进行进一步提升\upcite{DBLP:conf/acl/MiL10,DBLP:conf/coling/TuLHLL10}。
 \vspace{0.5em}