Commit b3263c4b by xiaotong

minor updates

parent 1655ce5d
...@@ -1231,16 +1231,16 @@ x_{l+1}=x_l+\mathcal{F}(\textrm{LN}(x_l);\theta_l) ...@@ -1231,16 +1231,16 @@ x_{l+1}=x_l+\mathcal{F}(\textrm{LN}(x_l);\theta_l)
\parinterval 尽管使用Pre-Norm结构可以很容易地训练深层Transformer模型,但从信息传递的角度看,Transformer模型中第$n$层的输入仅仅依赖于前一层的输出。虽然残差连接可以将信息跨层传递,但是对于很深的网络,整个模型的输入和输出之间仍需要很多次残差连接才能进行有效的传递。为了使上层的网络可以更加方便地访问下层网络的信息,一种方法是直接引入更多跨层的连接。最简单的一种方法是直接将所有层的输出都连接到最上层,达到聚合多层信息的目的\cite{DBLP:conf/emnlp/BapnaCFCW18}\cite{wang-etal-2018-multi-layer}。另一种更加有效的方式是使用{\small\bfnew{动态线性层聚合方法}}\index{动态线性层聚合方法}(Dynamic Linear Combination of Layers,DLCL)\index{Dynamic Linear Combination of Layers,DLCL}。在每一层的输入中不仅考虑前一层的输出,而是将前面所有层的中间结果(包括词嵌入)进行线性聚合,理论上等价于常微分方程中的高阶求解方法\cite{WangLearning}。以Pre-Norm结构为例,具体做法如下: \parinterval 尽管使用Pre-Norm结构可以很容易地训练深层Transformer模型,但从信息传递的角度看,Transformer模型中第$n$层的输入仅仅依赖于前一层的输出。虽然残差连接可以将信息跨层传递,但是对于很深的网络,整个模型的输入和输出之间仍需要很多次残差连接才能进行有效的传递。为了使上层的网络可以更加方便地访问下层网络的信息,一种方法是直接引入更多跨层的连接。最简单的一种方法是直接将所有层的输出都连接到最上层,达到聚合多层信息的目的\cite{DBLP:conf/emnlp/BapnaCFCW18}\cite{wang-etal-2018-multi-layer}。另一种更加有效的方式是使用{\small\bfnew{动态线性层聚合方法}}\index{动态线性层聚合方法}(Dynamic Linear Combination of Layers,DLCL)\index{Dynamic Linear Combination of Layers,DLCL}。在每一层的输入中不仅考虑前一层的输出,而是将前面所有层的中间结果(包括词嵌入)进行线性聚合,理论上等价于常微分方程中的高阶求解方法\cite{WangLearning}。以Pre-Norm结构为例,具体做法如下:
\begin{itemize} \begin{itemize}
\vspace{0.5em} \vspace{0.5em}
\item 对于每一层的输出$z_l$(即$z_l=x_{l+1}$,对其进行层正则化,得到每一层的信息的表示 \item 对于每一层的输出$x_{l+1}$,对其进行层正则化,得到每一层的信息的表示
\begin{eqnarray} \begin{eqnarray}
L_{l}=\textrm{LN}(z_l) z_{l}=\textrm{LN}(x_{l+1})
\label{eq:7.5-5} \label{eq:7.5-5}
\end{eqnarray} \end{eqnarray}
注意,$z_0$表示词嵌入层的输出,$z_l(l>0)$表示Transformer网络中的各个子层。 注意,$z_0$表示词嵌入层的输出,$z_l(l>0)$表示Transformer网络中的各个子层。
\vspace{0.5em} \vspace{0.5em}
\item 定义一个维度为$(L_{num}+1)\times(L_{num}+1)$的权值矩阵$\mathbf{W}$,矩阵中每一行表示之前各子层对当前子层计算的贡献度,其中$L_{num}$的大小是编码端(或解码端)的层数。令$\mathbf{W}_{l,i}$代表权值矩阵$\mathbf{W}$$l$行第$i$列的权重,则层聚合的输出为$L_i$的线性加权和: \item 定义一个维度为$(N+1)\times(N+1)$的权值矩阵$\mathbf{W}$,矩阵中每一行表示之前各子层对当前子层计算的贡献度,其中$N$的大小是编码端(或解码端)的层数。令$\mathbf{W}_{l,i}$代表权值矩阵$\mathbf{W}$$l$行第$i$列的权重,则层聚合的输出为$z_i$的线性加权和:
\begin{eqnarray} \begin{eqnarray}
g_l=\sum_{i=0}^{l}L_i\times \mathbf{W}_{l,i} g_l=\sum_{i=0}^{l}z_i\times \mathbf{W}_{l,i}
\label{eq:7.5-6} \label{eq:7.5-6}
\end{eqnarray} \end{eqnarray}
$g_l$会作为输入的一部分送入第$l+1$个子层。其网络的结构图\ref{fig:7.5-2}所示 $g_l$会作为输入的一部分送入第$l+1$个子层。其网络的结构图\ref{fig:7.5-2}所示
...@@ -1256,7 +1256,7 @@ $g_l$会作为输入的一部分送入第$l+1$个子层。其网络的结构图\ ...@@ -1256,7 +1256,7 @@ $g_l$会作为输入的一部分送入第$l+1$个子层。其网络的结构图\
\end{figure} \end{figure}
%------------------------------------------- %-------------------------------------------
\parinterval 可以看到,权值矩阵$\mathbf{W}$是一个下三角矩阵。开始时,对矩阵参数的每行进行平均初始化,即初始化矩阵$\mathbf{W}_0$的每一行各个位置的值为$1/N,N \in (1,2,3 \cdots L_{num}+1)$。 伴随着神经网络的训练,网络通过反向传播算法来不断更新$\mathbf{W}$中每一行不同位置权重的大小。 \parinterval 可以看到,权值矩阵$\mathbf{W}$是一个下三角矩阵。开始时,对矩阵参数的每行进行平均初始化,即初始化矩阵$\mathbf{W}_0$的每一行各个位置的值为$1/M,M \in (1,2,3 \cdots N+1)$。 伴随着神经网络的训练,网络通过反向传播算法来不断更新$\mathbf{W}$中每一行不同位置权重的大小。
\parinterval 动态线性层聚合的一个好处是,系统可以自动学习不同子层对当前子层的贡献度。在实验中也发现,离当前子层更近的部分贡献度(权重)会更大,这也是符合直觉的。 \parinterval 动态线性层聚合的一个好处是,系统可以自动学习不同子层对当前子层的贡献度。在实验中也发现,离当前子层更近的部分贡献度(权重)会更大,这也是符合直觉的。
......
\indexentry{未登录词|hyperpage}{17} \indexentry{未登录词|hyperpage}{11}
\indexentry{Out of Vocabulary Word,OOV Word|hyperpage}{17} \indexentry{Out of Vocabulary Word,OOV Word|hyperpage}{11}
\indexentry{子词切分|hyperpage}{17} \indexentry{子词切分|hyperpage}{11}
\indexentry{Sub-word Segmentation|hyperpage}{17} \indexentry{Sub-word Segmentation|hyperpage}{11}
\indexentry{标准化|hyperpage}{17} \indexentry{标准化|hyperpage}{11}
\indexentry{Normalization|hyperpage}{17} \indexentry{Normalization|hyperpage}{11}
\indexentry{数据清洗|hyperpage}{17} \indexentry{数据清洗|hyperpage}{11}
\indexentry{Dada Cleaning|hyperpage}{17} \indexentry{Dada Cleaning|hyperpage}{11}
\indexentry{数据选择|hyperpage}{19} \indexentry{数据选择|hyperpage}{13}
\indexentry{Data Selection|hyperpage}{19} \indexentry{Data Selection|hyperpage}{13}
\indexentry{数据过滤|hyperpage}{19} \indexentry{数据过滤|hyperpage}{13}
\indexentry{Data Filtering|hyperpage}{19} \indexentry{Data Filtering|hyperpage}{13}
\indexentry{开放词表|hyperpage}{22} \indexentry{开放词表|hyperpage}{16}
\indexentry{Open-Vocabulary|hyperpage}{22} \indexentry{Open-Vocabulary|hyperpage}{16}
\indexentry{子词|hyperpage}{23} \indexentry{子词|hyperpage}{17}
\indexentry{Sub-word|hyperpage}{23} \indexentry{Sub-word|hyperpage}{17}
\indexentry{字节对编码|hyperpage}{23} \indexentry{字节对编码|hyperpage}{17}
\indexentry{双字节编码|hyperpage}{23} \indexentry{双字节编码|hyperpage}{17}
\indexentry{Byte Pair Encoding,BPE|hyperpage}{23} \indexentry{Byte Pair Encoding,BPE|hyperpage}{17}
\indexentry{正则化|hyperpage}{26} \indexentry{正则化|hyperpage}{20}
\indexentry{Regularization|hyperpage}{26} \indexentry{Regularization|hyperpage}{20}
\indexentry{过拟合问题|hyperpage}{26} \indexentry{过拟合问题|hyperpage}{20}
\indexentry{Overfitting Problem|hyperpage}{26} \indexentry{Overfitting Problem|hyperpage}{20}
\indexentry{反问题|hyperpage}{26} \indexentry{反问题|hyperpage}{20}
\indexentry{Inverse Problem|hyperpage}{26} \indexentry{Inverse Problem|hyperpage}{20}
\indexentry{适定的|hyperpage}{26} \indexentry{适定的|hyperpage}{20}
\indexentry{Well-posed|hyperpage}{26} \indexentry{Well-posed|hyperpage}{20}
\indexentry{不适定问题|hyperpage}{26} \indexentry{不适定问题|hyperpage}{20}
\indexentry{Ill-posed Problem|hyperpage}{26} \indexentry{Ill-posed Problem|hyperpage}{20}
\indexentry{降噪|hyperpage}{27} \indexentry{降噪|hyperpage}{21}
\indexentry{Denoising|hyperpage}{27} \indexentry{Denoising|hyperpage}{21}
\indexentry{泛化|hyperpage}{27} \indexentry{泛化|hyperpage}{21}
\indexentry{Generalization|hyperpage}{27} \indexentry{Generalization|hyperpage}{21}
\indexentry{标签平滑|hyperpage}{29} \indexentry{标签平滑|hyperpage}{23}
\indexentry{Label Smoothing|hyperpage}{29} \indexentry{Label Smoothing|hyperpage}{23}
\indexentry{相互适应|hyperpage}{30} \indexentry{相互适应|hyperpage}{24}
\indexentry{Co-Adaptation|hyperpage}{30} \indexentry{Co-Adaptation|hyperpage}{24}
\indexentry{集成学习|hyperpage}{31} \indexentry{集成学习|hyperpage}{25}
\indexentry{Ensemble Learning|hyperpage}{31} \indexentry{Ensemble Learning|hyperpage}{25}
\indexentry{容量|hyperpage}{32} \indexentry{容量|hyperpage}{26}
\indexentry{Capacity|hyperpage}{32} \indexentry{Capacity|hyperpage}{26}
\indexentry{宽残差网络|hyperpage}{33} \indexentry{宽残差网络|hyperpage}{27}
\indexentry{Wide Residual Network|hyperpage}{33} \indexentry{Wide Residual Network|hyperpage}{27}
\indexentry{探测任务|hyperpage}{34} \indexentry{探测任务|hyperpage}{28}
\indexentry{Probing Task|hyperpage}{34} \indexentry{Probing Task|hyperpage}{28}
\indexentry{表面信息|hyperpage}{34} \indexentry{表面信息|hyperpage}{28}
\indexentry{Surface Information|hyperpage}{34} \indexentry{Surface Information|hyperpage}{28}
\indexentry{语法信息|hyperpage}{34} \indexentry{语法信息|hyperpage}{28}
\indexentry{Syntactic Information|hyperpage}{34} \indexentry{Syntactic Information|hyperpage}{28}
\indexentry{语义信息|hyperpage}{34} \indexentry{语义信息|hyperpage}{28}
\indexentry{Semantic Information|hyperpage}{34} \indexentry{Semantic Information|hyperpage}{28}
\indexentry{词嵌入|hyperpage}{35} \indexentry{词嵌入|hyperpage}{29}
\indexentry{Embedding|hyperpage}{35} \indexentry{Embedding|hyperpage}{29}
\indexentry{数据并行|hyperpage}{35} \indexentry{数据并行|hyperpage}{29}
\indexentry{Data Parallelism|hyperpage}{35} \indexentry{Data Parallelism|hyperpage}{29}
\indexentry{模型并行|hyperpage}{35} \indexentry{模型并行|hyperpage}{29}
\indexentry{Model Parallelism|hyperpage}{35} \indexentry{Model Parallelism|hyperpage}{29}
\indexentry{小批量训练|hyperpage}{35} \indexentry{小批量训练|hyperpage}{29}
\indexentry{Mini-batch Training|hyperpage}{35} \indexentry{Mini-batch Training|hyperpage}{29}
\indexentry{课程学习|hyperpage}{37} \indexentry{课程学习|hyperpage}{31}
\indexentry{Curriculum Learning|hyperpage}{37} \indexentry{Curriculum Learning|hyperpage}{31}
\indexentry{推断|hyperpage}{38} \indexentry{推断|hyperpage}{32}
\indexentry{Inference|hyperpage}{38} \indexentry{Inference|hyperpage}{32}
\indexentry{解码|hyperpage}{38} \indexentry{解码|hyperpage}{32}
\indexentry{Decoding|hyperpage}{38} \indexentry{Decoding|hyperpage}{32}
\indexentry{搜索错误|hyperpage}{38} \indexentry{搜索错误|hyperpage}{32}
\indexentry{Search Error|hyperpage}{38} \indexentry{Search Error|hyperpage}{32}
\indexentry{模型错误|hyperpage}{38} \indexentry{模型错误|hyperpage}{32}
\indexentry{Modeling Error|hyperpage}{38} \indexentry{Modeling Error|hyperpage}{32}
\indexentry{重排序|hyperpage}{40} \indexentry{重排序|hyperpage}{34}
\indexentry{Re-ranking|hyperpage}{40} \indexentry{Re-ranking|hyperpage}{34}
\indexentry{双向推断|hyperpage}{40} \indexentry{双向推断|hyperpage}{34}
\indexentry{Bidirectional Inference|hyperpage}{40} \indexentry{Bidirectional Inference|hyperpage}{34}
\indexentry{批量推断|hyperpage}{44} \indexentry{批量推断|hyperpage}{38}
\indexentry{Batch Inference|hyperpage}{44} \indexentry{Batch Inference|hyperpage}{38}
\indexentry{批量处理|hyperpage}{44} \indexentry{批量处理|hyperpage}{38}
\indexentry{Batching|hyperpage}{44} \indexentry{Batching|hyperpage}{38}
\indexentry{二值网络|hyperpage}{45} \indexentry{二值网络|hyperpage}{39}
\indexentry{Binarized Neural Networks|hyperpage}{45} \indexentry{Binarized Neural Networks|hyperpage}{39}
\indexentry{自回归翻译|hyperpage}{46} \indexentry{自回归翻译|hyperpage}{40}
\indexentry{Autoregressive Translation|hyperpage}{46} \indexentry{Autoregressive Translation|hyperpage}{40}
\indexentry{非自回归翻译|hyperpage}{46} \indexentry{非自回归翻译|hyperpage}{40}
\indexentry{Regressive Translation|hyperpage}{46} \indexentry{Regressive Translation|hyperpage}{40}
\indexentry{繁衍率|hyperpage}{46} \indexentry{繁衍率|hyperpage}{40}
\indexentry{Fertility|hyperpage}{46} \indexentry{Fertility|hyperpage}{40}
\indexentry{偏置|hyperpage}{47} \indexentry{偏置|hyperpage}{41}
\indexentry{Bias|hyperpage}{47} \indexentry{Bias|hyperpage}{41}
\indexentry{退化|hyperpage}{48} \indexentry{退化|hyperpage}{42}
\indexentry{Degenerate|hyperpage}{48} \indexentry{Degenerate|hyperpage}{42}
\indexentry{过翻译|hyperpage}{49} \indexentry{过翻译|hyperpage}{43}
\indexentry{Over Translation|hyperpage}{49} \indexentry{Over Translation|hyperpage}{43}
\indexentry{欠翻译|hyperpage}{49} \indexentry{欠翻译|hyperpage}{43}
\indexentry{Under Translation|hyperpage}{49} \indexentry{Under Translation|hyperpage}{43}
\indexentry{充分性|hyperpage}{50} \indexentry{充分性|hyperpage}{44}
\indexentry{Adequacy|hyperpage}{50} \indexentry{Adequacy|hyperpage}{44}
\indexentry{系统融合|hyperpage}{50} \indexentry{系统融合|hyperpage}{44}
\indexentry{System Combination|hyperpage}{50} \indexentry{System Combination|hyperpage}{44}
\indexentry{假设选择|hyperpage}{51} \indexentry{假设选择|hyperpage}{45}
\indexentry{Hypothesis Selection|hyperpage}{51} \indexentry{Hypothesis Selection|hyperpage}{45}
\indexentry{多样性|hyperpage}{51} \indexentry{多样性|hyperpage}{45}
\indexentry{Diversity|hyperpage}{51} \indexentry{Diversity|hyperpage}{45}
\indexentry{重排序|hyperpage}{52} \indexentry{重排序|hyperpage}{46}
\indexentry{Re-ranking|hyperpage}{52} \indexentry{Re-ranking|hyperpage}{46}
\indexentry{混淆网络|hyperpage}{53} \indexentry{混淆网络|hyperpage}{47}
\indexentry{Confusion Network|hyperpage}{53} \indexentry{Confusion Network|hyperpage}{47}
\indexentry{动态线性层聚合方法|hyperpage}{57} \indexentry{动态线性层聚合方法|hyperpage}{51}
\indexentry{Dynamic Linear Combination of Layers,DLCL|hyperpage}{57} \indexentry{Dynamic Linear Combination of Layers,DLCL|hyperpage}{51}
\indexentry{相互适应|hyperpage}{61} \indexentry{相互适应|hyperpage}{55}
\indexentry{Co-adaptation|hyperpage}{61} \indexentry{Co-adaptation|hyperpage}{55}
\indexentry{数据增强|hyperpage}{63} \indexentry{数据增强|hyperpage}{57}
\indexentry{Data Augmentation|hyperpage}{63} \indexentry{Data Augmentation|hyperpage}{57}
\indexentry{回译|hyperpage}{63} \indexentry{回译|hyperpage}{57}
\indexentry{Back Translation|hyperpage}{63} \indexentry{Back Translation|hyperpage}{57}
\indexentry{迭代式回译|hyperpage}{64} \indexentry{迭代式回译|hyperpage}{58}
\indexentry{Iterative Back Translation|hyperpage}{64} \indexentry{Iterative Back Translation|hyperpage}{58}
\indexentry{前向翻译|hyperpage}{64} \indexentry{前向翻译|hyperpage}{58}
\indexentry{Forward Translation|hyperpage}{64} \indexentry{Forward Translation|hyperpage}{58}
\indexentry{预训练|hyperpage}{65} \indexentry{预训练|hyperpage}{59}
\indexentry{Pre-training|hyperpage}{65} \indexentry{Pre-training|hyperpage}{59}
\indexentry{微调|hyperpage}{65} \indexentry{微调|hyperpage}{59}
\indexentry{Fine-tuning|hyperpage}{65} \indexentry{Fine-tuning|hyperpage}{59}
\indexentry{多任务学习|hyperpage}{67} \indexentry{多任务学习|hyperpage}{61}
\indexentry{Multitask Learning|hyperpage}{67} \indexentry{Multitask Learning|hyperpage}{61}
\indexentry{模型压缩|hyperpage}{68} \indexentry{模型压缩|hyperpage}{62}
\indexentry{Model Compression|hyperpage}{68} \indexentry{Model Compression|hyperpage}{62}
\indexentry{学习难度|hyperpage}{68} \indexentry{学习难度|hyperpage}{62}
\indexentry{Learning Difficulty|hyperpage}{68} \indexentry{Learning Difficulty|hyperpage}{62}
\indexentry{教师模型|hyperpage}{69} \indexentry{教师模型|hyperpage}{63}
\indexentry{Teacher Model|hyperpage}{69} \indexentry{Teacher Model|hyperpage}{63}
\indexentry{学生模型|hyperpage}{69} \indexentry{学生模型|hyperpage}{63}
\indexentry{Student Model|hyperpage}{69} \indexentry{Student Model|hyperpage}{63}
\indexentry{基于单词的知识精炼|hyperpage}{69} \indexentry{基于单词的知识精炼|hyperpage}{63}
\indexentry{Word-level Knowledge Distillation|hyperpage}{69} \indexentry{Word-level Knowledge Distillation|hyperpage}{63}
\indexentry{基于序列的知识精炼|hyperpage}{69} \indexentry{基于序列的知识精炼|hyperpage}{63}
\indexentry{Sequence-level Knowledge Distillation|hyperpage}{69} \indexentry{Sequence-level Knowledge Distillation|hyperpage}{63}
\indexentry{中间层输出|hyperpage}{70} \indexentry{中间层输出|hyperpage}{64}
\indexentry{Hint-based Knowledge Transfer|hyperpage}{70} \indexentry{Hint-based Knowledge Transfer|hyperpage}{64}
\indexentry{注意力分布|hyperpage}{70} \indexentry{注意力分布|hyperpage}{64}
\indexentry{Attention To Attention Transfer|hyperpage}{70} \indexentry{Attention To Attention Transfer|hyperpage}{64}
\indexentry{循环一致性|hyperpage}{73} \indexentry{循环一致性|hyperpage}{67}
\indexentry{Circle Consistency|hyperpage}{73} \indexentry{Circle Consistency|hyperpage}{67}
\indexentry{翻译中回译|hyperpage}{74} \indexentry{翻译中回译|hyperpage}{68}
\indexentry{On-the-fly Back-translation|hyperpage}{74} \indexentry{On-the-fly Back-translation|hyperpage}{68}
\indexentry{网络结构搜索技术|hyperpage}{77} \indexentry{网络结构搜索技术|hyperpage}{71}
\indexentry{Neural Architecture Search;NAS|hyperpage}{77} \indexentry{Neural Architecture Search;NAS|hyperpage}{71}
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论