\parinterval 公式\ref{eqC6.29}展示了最基本的优化策略,也被称为标准的SGD优化器。实际上,训练神经机器翻译模型时,还有非常多的优化器可以选择,在第五章也有详细介绍,这里考虑Adam优化器。 Adam 通过对梯度的一阶矩估计(First Moment Estimation)和二阶矩估计(Second Moment Estimation)进行综合考虑,计算出更新步长。
\parinterval 公式\ref{eqC6.29}展示了最基本的优化策略,也被称为标准的SGD优化器。实际上,训练神经机器翻译模型时,还有非常多的优化器可以选择,在第五章也有详细介绍,这里考虑Adam优化器。 Adam 通过对梯度的{\small\bfnew{一阶矩估计}}(First Moment Estimation)和{\small\bfnew{二阶矩估计}}(Second Moment Estimation)进行综合考虑,计算出更新步长。
\parinterval 表\ref{tab:Adam vs SGD}从效果上对比了Adam和SGD的区别。通常,Adam收敛的比较快,不同任务基本上可以使用一套配置进行优化,虽性能不算差,但很难达到最优效果。相反,SGD虽能通过在不同的数据集上进行调整,来达到最优的结果,但是收敛速度慢。因此需要根据不同的需求来选择合适的优化器。若需要快速得到模型的初步结果,选择Adam较为合适,若是需要在一个任务上得到最优的结果,选择SGD更为合适。