合并分支 'shanweiqiao' 到 'caorunzhe'

13章采样查看合并请求 !853

合并分支 'shanweiqiao' 到 'caorunzhe'
13章采样查看合并请求 !853
026ef639 · 单韦乔 · 45473557 · 73a13672 · 026ef639 · 026ef639
Commit 026ef639 authored Jan 10, 2021 by 单韦乔
--- a/Chapter13/chapter13.tex
+++ b/Chapter13/chapter13.tex
@@ -557,9 +557,9 @@ Loss_{\textrm{robust}}(\theta_{\textrm{mt}}) &=&  \frac{1}{N}\sum_{(\mathbi{x},\
 \label{eq:13-15}
 \end{eqnarray}

-\noindent 公式\eqref{eq:13-15}使用了{\small\bfnew{策略梯度}}\index{策略梯度}（Policy Gradient\index{Policy Gradient}）的手段将$\vartriangle(\hat{\seq{y}},\seq{y}^{[k]})$提到微分操作之外\upcite{DBLP:conf/nips/Kakade01,DBLP:journals/corr/abs-1810-02525}。这样，就无需对$\vartriangle(\hat{\seq{y}},\seq{y}^{[k]})$进行微分，因此最小风险训练允许任意不可微的损失函数，包括BLEU等常用的评价函数。使用公式\eqref{eq:13-15}就可以求出模型参数相对于风险函数的损失，进而进行基于梯度的优化。这里需要注意的是，公式\eqref{eq:13-15}中求期望的过程是无法直接实现的，因为无法遍历所有的译文句子。通常，会使用采样的方法搜集一定数量的译文，来模拟译文空间。例如，可以使用推断系统生成若干译文。同时，为了保证生成的译文之间具有一定的差异性，也可以对推断过程进行一些“干扰”。从实践的角度看，采样方法是影响强化学习系统的重要因素，因此往往需要对不同的任务设计相适应的采样方法（{\color{red} 参考文献！我记得李炎洋以前写过一个文章介绍采样方法，可以问问他，或者在这里再多说两句，采样还是很重要的。}）。
+\noindent 公式\eqref{eq:13-15}使用了{\small\bfnew{策略梯度}}\index{策略梯度}（Policy Gradient\index{Policy Gradient}）的手段将$\vartriangle(\hat{\seq{y}},\seq{y}^{[k]})$提到微分操作之外\upcite{DBLP:conf/nips/Kakade01,DBLP:journals/corr/abs-1810-02525}。这样，就无需对$\vartriangle(\hat{\seq{y}},\seq{y}^{[k]})$进行微分，因此最小风险训练允许任意不可微的损失函数，包括BLEU等常用的评价函数。使用公式\eqref{eq:13-15}就可以求出模型参数相对于风险函数的损失，进而进行基于梯度的优化。这里需要注意的是，公式\eqref{eq:13-15}中求期望的过程是无法直接实现的，因为无法遍历所有的译文句子。通常，会使用采样的方法搜集一定数量的译文，来模拟译文空间。例如，可以使用推断系统生成若干译文。同时，为了保证生成的译文之间具有一定的差异性，也可以对推断过程进行一些“干扰”。从实践的角度看，采样方法是影响强化学习系统的重要因素，因此往往需要对不同的任务设计相适应的采样方法。对于翻译模型来说，随机采样句子的方法有很多。最简单的方法就是在产生译文的每一个词时候，根据模型产生的下一词分布随机选取词当作模型预测，直到选到句子结束符或者达到特定长度的时候停止\upcite{DBLP:conf/emnlp/EdunovOAG18}。其他方法还包括随机束搜索，它把束搜索中选取top-$k$的操作替换成随机选取$k$个词。这个方法不会采集到重复的样本；基于Gumbel-Top-$k$的随机束搜索在普通的随机束搜索基础上更好地控制样本里的噪声\upcite{DBLP:conf/icml/KoolHW19}。

-\parinterval 相比于最大似然估计，最小风险训练有着以下优点：
+\parinterval 实际上，相比于最大似然估计，最小风险训练有着以下优点：

 \begin{itemize}
 \vspace{0.5em}

--- a/bibliography.bib
+++ b/bibliography.bib
@@ -9261,6 +9261,18 @@ author    = {Zhuang Liu and
  publisher = {Advances in Neural Information Processing Systems},
  year      = {2001}
 }
+@inproceedings{DBLP:conf/icml/KoolHW19,
+  author    = {Wouter Kool and
+               Herke van Hoof and
+               Max Welling},
+  title     = {Stochastic Beams and Where To Find Them: The Gumbel-Top-k Trick for
+               Sampling Sequences Without Replacement},
+  series    = {Proceedings of Machine Learning Research},
+  volume    = {97},
+  pages     = {3499--3508},
+  publisher = {International Conference on Machine Learning},
+  year      = {2019}
+}
 %%%%% chapter 15------------------------------------------------------
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%