Commit a3a098db by 孟霞

合并分支 'master' 到 'mengxia'

Master

查看合并请求 !96
parents 317d5605 b1ec1728
......@@ -725,7 +725,9 @@ His house is on the south bank of the river.
\parinterval 《Neural Network Methods for Natural Language Processing》\cite{goldberg2017neural}是Yoav Goldberg编写的面向自然语言处理的深度学习参考书。相比《Deep Learning》,该书聚焦在自然语言处理中的深度学习方法,内容更加易读,非常适合刚入门自然语言处理及深度学习应用的人员参考。
\parinterval 《机器学习》\cite{周志华2016机器学习}由南京大学教授周志华教授所著,作为机器学习领域入门教材,该书尽可能地涵盖了机器学习基础知识的各个方面,试图尽可能少地使用数学知识介绍机器学习方法与思想。在机器翻译中使用的很多机器学习概念和方法可以从该书中进行学习。
\parinterval 《机器学习》\cite{周志华2016机器学习}由南京大学教授周志华教授所著,作为机器学习领域入门教材,该书尽可能地涵盖了机器学习基础知识的各个方面,试图尽可能少地使用数学知识介绍机器学习方法与思想。
\parinterval 《统计学习方法》({\red 参考文献})由李航博士所著,该书对机器学习的有监督和无监督等方法进行了全面而系统的介绍。可以作为梳理机器学习的知识体系,同时了解相关基础概念的参考读物。
\parinterval 《神经网络与深度学习》\cite{邱锡鹏2020神经网络与深度学习}由复旦大学邱锡鹏教授所著,全面的介绍了神经网络和深度学习的基本概念和常用技术,同时涉及了许多深度学习的前沿方法。该书适合初学者阅读,同时又不失为一本面向专业人士的参考书。
......
......@@ -225,7 +225,7 @@
\parinterval 中文:今天\ \ 天气\ \ 不错\ \
\parinterval 英文:Let's\ \ go\ \ !
\parinterval 英文:Let's\ \ go\ \ !
\vspace{1em}
......@@ -521,7 +521,7 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsubsection{Layer Dropout}
\parinterval 随时网络层数的增多,相互适应也会出现在不同层之间。特别是在引入残差网络之后,不同层的输出可以进行线性组合,因此不同层之间的相互影响用会更加直接。对于这个问题,也可以使用Dropout的思想对不同层进行屏蔽。比如,可以使用一个开关来控制一个层能否发挥作用,这个开关以概率$p$被随机关闭,即该层有为$p$的可能性不工作。图\ref{fig:7-15}展示了Transformer多层网络引入Layer Dropout前后的情况。可以看到,使用Layer Dropout后,开关M会被随机打开或者关闭,以达到屏蔽某一层计算的目的。由于使用了残差网络,关闭每一层相当于``跳过''这一层网络,因此Layer Dropout并不会影响神经网络中数据流的传递。
\parinterval 随时网络层数的增多,相互适应也会出现在不同层之间。特别是在引入残差网络之后,不同层的输出可以进行线性组合,因此不同层之间的相互影响用会更加直接。对于这个问题,也可以使用Dropout的思想对不同层进行屏蔽。比如,可以使用一个开关来控制一个层能否发挥作用,这个开关以概率$p$被随机关闭,即该层有为$p$的可能性不工作。图\ref{fig:7-15}展示了Transformer多层网络引入Layer Dropout 前后的情况。可以看到,使用Layer Dropout后,开关M会被随机打开或者关闭,以达到屏蔽某一层计算的目的。由于使用了残差网络,关闭每一层相当于``跳过''这一层网络,因此Layer Dropout并不会影响神经网络中数据流的传递。
%----------------------------------------------
% 图7.
......@@ -989,7 +989,7 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsubsection{长度惩罚因子}
\parinterval 最常用的方法是直接对翻译概率进行正规化,也就是用译文长度来归一化翻译概率。令源语言句子为$\mathbf{x}=\{ x_1, ...,x_m \}$,译文为$\mathbf{y}=\{ y_1,...,y_n\}$,于是翻译模型得分$\textrm{score}(\mathbf{x},\mathbf{y})$可以被定义为:
\parinterval 最常用的方法是直接对翻译概率进行正规化,也就是用译文长度来归一化翻译概率。第六章已经对长度归一化方法进行过介绍。为了保证内容的连贯性,这里再简单回顾一下相关内容。令源语言句子为$\mathbf{x}=\{ x_1, ...,x_m \}$,译文为$\mathbf{y}=\{ y_1,...,y_n\}$, 于是翻译模型得分$\textrm{score}(\mathbf{x},\mathbf{y})$可以被定义为:
\begin{eqnarray}
\textrm{score}(\mathbf{x},\mathbf{y}) = \textrm{log}(\textrm{P}(\mathbf{y} | \mathbf{x}))
\label{eq:7-8}
......@@ -1539,7 +1539,7 @@ p_l=\frac{l}{2L}\cdot \varphi
\parinterval 除了多任务学习,还有一些方法将前向模型和反向模型一起训练,在训练过程中同时使用源语言端和目标语言端的单语数据来提升模型性能,双向训练的内容会在\ref{subsection-7.5.4}节中进行介绍。
%--7.5.3 知识精炼---------------------
\subsection{知识精炼}
\subsection{知识精炼}
\label{subsection-7.5.3}
\parinterval 理想的机器翻译系统应该是品质好、速度块、存储占用少。不过现实的机器翻译系统往往需要用运行速度和存储空间来换取翻译品质,比如,\ref{subsection-7.3.2}节提到的增大模型容量的方法就是通过增加模型参数量来达到更好的函数拟合效果,但是这也导致系统变得更加笨拙。在很多场景下,这样的模型甚至无法使用。比如,Transformer-Big等``大''模型通常在专用GPU服务器上运行,在手机等受限环境下仍很难应用。
......
\indexentry{流畅度|hyperpage}{12}
\indexentry{Fluency|hyperpage}{12}
\indexentry{准确性|hyperpage}{12}
\indexentry{Accuracy|hyperpage}{12}
\indexentry{充分性|hyperpage}{12}
\indexentry{Adequacy|hyperpage}{12}
\indexentry{翻译候选|hyperpage}{13}
\indexentry{Translation Candidate|hyperpage}{13}
\indexentry{训练|hyperpage}{15}
\indexentry{Training|hyperpage}{15}
\indexentry{解码|hyperpage}{15}
\indexentry{Decoding|hyperpage}{15}
\indexentry{推断|hyperpage}{15}
\indexentry{Inference|hyperpage}{15}
\indexentry{词对齐|hyperpage}{20}
\indexentry{Word Alignment|hyperpage}{20}
\indexentry{词对齐连接|hyperpage}{20}
\indexentry{解码|hyperpage}{23}
\indexentry{Decoding|hyperpage}{23}
\indexentry{噪声信道模型|hyperpage}{26}
\indexentry{Noise Channel Model|hyperpage}{26}
\indexentry{词对齐|hyperpage}{29}
\indexentry{Word Alignment|hyperpage}{29}
\indexentry{非对称的词对齐|hyperpage}{29}
\indexentry{Asymmetric Word Alignment|hyperpage}{29}
\indexentry{空对齐|hyperpage}{29}
\indexentry{拉格朗日乘数法|hyperpage}{37}
\indexentry{The Lagrange Multiplier Method|hyperpage}{37}
\indexentry{期望最大化|hyperpage}{40}
\indexentry{Expectation Maximization|hyperpage}{40}
\indexentry{期望频次|hyperpage}{40}
\indexentry{Expected Count|hyperpage}{41}
\indexentry{产出率|hyperpage}{44}
\indexentry{繁衍率|hyperpage}{44}
\indexentry{Fertility|hyperpage}{44}
\indexentry{扭曲度|hyperpage}{46}
\indexentry{Distortion|hyperpage}{46}
\indexentry{概念单元|hyperpage}{48}
\indexentry{概念|hyperpage}{48}
\indexentry{Concept|hyperpage}{48}
\indexentry{缺陷|hyperpage}{49}
\indexentry{Deficiency|hyperpage}{49}
\indexentry{凸函数|hyperpage}{54}
\indexentry{Convex function|hyperpage}{54}
\indexentry{对称化|hyperpage}{55}
\indexentry{Symmetrization|hyperpage}{55}
\indexentry{系统偏置|hyperpage}{56}
\indexentry{System Bias|hyperpage}{56}
......@@ -80,6 +80,7 @@
\noindent \textsc{东北大学自然语言处理实验室\ $\cdot$\ 小牛翻译}\\
\noindent \textsc{\url{https://opensource.niutrans.com/mtbook/index.html}}\\
\noindent \textsc{\url{https://github.com/NiuTrans/MTBook}}\\
\noindent {\red{Licensed under the Creative Commons Attribution-NonCommercial 4.0 Unported License (the ``License''). You may not use this file except in compliance with the License. You may obtain a copy of the License at \url{http://creativecommons.org/licenses/by-nc/4.0}. Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an \textsc{``as is'' basis, without warranties or conditions of any kind}, either express or implied. See the License for the specific language governing permissions and limitations under the License.}}\\
......@@ -121,9 +122,9 @@
% CHAPTERS
%----------------------------------------------------------------------------------------
%\include{Chapter1/chapter1}
\include{Chapter1/chapter1}
%\include{Chapter2/chapter2}
\include{Chapter3/chapter3}
%\include{Chapter3/chapter3}
%\include{Chapter4/chapter4}
%\include{Chapter5/chapter5}
%\include{Chapter6/chapter6}
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论