wording (sec 15)

e9d44aef · xiaotong · cb9e76ab · e9d44aef
Commit e9d44aef authored Jan 06, 2021 by xiaotong
--- a/Chapter15/chapter15.tex
+++ b/Chapter15/chapter15.tex
@@ -642,7 +642,7 @@ $\mathbi{g}_l$会作为输入的一部分送入第$l+1$层。其网络的结构

 \noindent 其中，$\mathbi{w}$和$\mathbi{b}$为可学习参数。进一步将公式\eqref{eq:15-41}展开后可得：
 \begin{eqnarray}
-\mathbi{x}_{l+1}^{\textrm{post}} &=& \frac{\mathbi{x}_l+\mathbi{y}_l}{\bm  \sigma} \cdot \mathbi{w} - \frac{\bm  \mu}{\bm  \sigma} \cdot \mathbi{w}+\mathbi{b} \nonumber \\ 
+\mathbi{x}_{l+1}^{\textrm{post}} &=& \frac{\mathbi{x}_l+\mathbi{y}_l}{\bm  \sigma} \cdot \mathbi{w} - \frac{\bm  \mu}{\bm  \sigma} \cdot \mathbi{w}+\mathbi{b} \nonumber \\
                                 &=& \frac{\mathbi{w}}{\bm  \sigma} \cdot \mathbi{x}_{l+1}^{\textrm{pre}}-\frac{\mathbi{w}}{\bm  \sigma} \cdot {\bm  \mu}+\mathbi{b}
 \label{eq:15-42}
 \end{eqnarray}
@@ -1015,7 +1015,7 @@ lr &=& d_{\textrm{model}}^{-0.5}\cdot step\_num^{-0.5}

 \parinterval 另一种方法是直接在目标语言端使用句法树进行建模。与源语言句法树的建模不同，目标语言句法树的生成伴随着译文的生成，因此无法像源语言端一样将整个句法树一起处理。这样译文生成问题本质上就变成了目标语言树结构的生成，从这个角度说，这个过程与统计机器翻译中串到树的模型是类似的（见{\chaptereight}）。树结构的生成有很多种策略，基本的思想均是根据已经生成的局部结构预测新的局部结构，并将这些局部结构拼装成更大的结构，直到得到完整的句法树结构\upcite{DBLP:conf/iclr/Alvarez-MelisJ17}{\red（文献格式错误？）}。

-\parinterval 实现目标语言句法树生成的一种手段是将形式文法扩展，以适应分布式表示学习框架。这样，可以使用形式文法描述句法树的生成过程（见{\chapterthree}），同时利用分布式表示来进行建模和学习。比如，可以使用基于循环神经网络的文法描述方法，把句法分析过程看作是一个循环神经网络的执行过程\upcite{DBLP:conf/naacl/DyerKBS16}{\red（文献格式错误？）}。此外，也可以从多任务学习出发，用多个解码端共同完成目标语言句子的生成\upcite{DBLP:journals/corr/LuongLSVK15}{\red（文献格式错误？）}。图\ref{fig:15-25}展示了由一个编码器（汉语）和多个解码器组成的序列生成模型。其中不同解码器分别负责不同的任务：第一个用于预测翻译结果，即翻译任务；{\red 第二个用于预测句法结构；第三个用于重新生成源语言序列，进行自编码。（描述和图不对应？）}其设计思想是各个任务之间能够相互辅助，使得编码器的表示能包含更多的信息，进而让多个任务都获得性能提升。这种方法也可以使用在多个编码器上，其思想是类似的。
+\parinterval 实现目标语言句法树生成的一种手段是将形式文法扩展，以适应分布式表示学习框架。这样，可以使用形式文法描述句法树的生成过程（见{\chapterthree}），同时利用分布式表示来进行建模和学习。比如，可以使用基于循环神经网络的文法描述方法，把句法分析过程看作是一个循环神经网络的执行过程\upcite{DBLP:conf/naacl/DyerKBS16}{\red（文献格式错误？）}。此外，也可以从{\small\sffamily\bfnew{多任务学习}}\index{多任务学习}（Multitask Learning）\index{Multitask Learning}学习出发，用多个解码端共同完成目标语言句子的生成\upcite{DBLP:journals/corr/LuongLSVK15}{\red（文献格式错误？）}。图\ref{fig:15-25}展示了由一个编码器（汉语）和多个解码器组成的序列生成模型。其中不同解码器分别负责不同的任务：第一个用于预测翻译结果，即翻译任务；{\red 第二个用于预测句法结构；第三个用于重新生成源语言序列，进行自编码。（描述和图不对应？）}其设计思想是各个任务之间能够相互辅助，使得编码器的表示能包含更多的信息，进而让多个任务都获得性能提升。这种方法也可以使用在多个编码器上，其思想是类似的。

 %----------------------------------------------
 \begin{figure}[htp]