更新 chapter16.tex

5e1f0bea · 曹润柘 · 5858d31e · 5e1f0bea
Commit 5e1f0bea authored Dec 21, 2020 by 曹润柘
--- a/Chapter16/chapter16.tex
+++ b/Chapter16/chapter16.tex
@@ -342,7 +342,7 @@
 \end{figure}
 %----------------------------------------------

-\parinterval 这个过程与强化学习的流程非常相似。在训练过程中，模型无法知道某个状态下正确的行为是什么，只能通过这种试错-反馈的机制来反复调整。训练这两个模型可以用已有的强化学习算法来训练，比如策略梯度方法。策略梯度的基本思想如下：如果我们在执行某个动作之后，获得了一个不错的反馈，那么我们会调整策略来增加这个状态下执行该动作的概率；反之，如果采取某个动作后获得了一个负反馈，就需要调整策略来降低这个状态下执行该动作的概率。在算法的实现上，首先对两个翻译模型求梯度，然后在策略调整时选择将梯度加到模型上（获得正反馈）或者减去该梯度（获得负反馈）。
+\parinterval 这个过程与强化学习的流程非常相似。在训练过程中，模型无法知道某个状态下正确的行为是什么，只能通过这种试错-反馈的机制来反复调整。训练这两个模型可以用已有的强化学习算法来训练，比如策略梯度方法\upcite{DBLP:conf/nips/SuttonMSM99}。策略梯度的基本思想如下：如果我们在执行某个动作之后，获得了一个不错的反馈，那么我们会调整策略来增加这个状态下执行该动作的概率；反之，如果采取某个动作后获得了一个负反馈，就需要调整策略来降低这个状态下执行该动作的概率。在算法的实现上，首先对两个翻译模型求梯度，然后在策略调整时选择将梯度加到模型上（获得正反馈）或者减去该梯度（获得负反馈）。

 %----------------------------------------------------------------------------------------
 %    NEW SECTION