Commit b3263c4b by xiaotong

minor updates

parent 1655ce5d
......@@ -1231,16 +1231,16 @@ x_{l+1}=x_l+\mathcal{F}(\textrm{LN}(x_l);\theta_l)
\parinterval 尽管使用Pre-Norm结构可以很容易地训练深层Transformer模型,但从信息传递的角度看,Transformer模型中第$n$层的输入仅仅依赖于前一层的输出。虽然残差连接可以将信息跨层传递,但是对于很深的网络,整个模型的输入和输出之间仍需要很多次残差连接才能进行有效的传递。为了使上层的网络可以更加方便地访问下层网络的信息,一种方法是直接引入更多跨层的连接。最简单的一种方法是直接将所有层的输出都连接到最上层,达到聚合多层信息的目的\cite{DBLP:conf/emnlp/BapnaCFCW18}\cite{wang-etal-2018-multi-layer}。另一种更加有效的方式是使用{\small\bfnew{动态线性层聚合方法}}\index{动态线性层聚合方法}(Dynamic Linear Combination of Layers,DLCL)\index{Dynamic Linear Combination of Layers,DLCL}。在每一层的输入中不仅考虑前一层的输出,而是将前面所有层的中间结果(包括词嵌入)进行线性聚合,理论上等价于常微分方程中的高阶求解方法\cite{WangLearning}。以Pre-Norm结构为例,具体做法如下:
\begin{itemize}
\vspace{0.5em}
\item 对于每一层的输出$z_l$(即$z_l=x_{l+1}$,对其进行层正则化,得到每一层的信息的表示
\item 对于每一层的输出$x_{l+1}$,对其进行层正则化,得到每一层的信息的表示
\begin{eqnarray}
L_{l}=\textrm{LN}(z_l)
z_{l}=\textrm{LN}(x_{l+1})
\label{eq:7.5-5}
\end{eqnarray}
注意,$z_0$表示词嵌入层的输出,$z_l(l>0)$表示Transformer网络中的各个子层。
\vspace{0.5em}
\item 定义一个维度为$(L_{num}+1)\times(L_{num}+1)$的权值矩阵$\mathbf{W}$,矩阵中每一行表示之前各子层对当前子层计算的贡献度,其中$L_{num}$的大小是编码端(或解码端)的层数。令$\mathbf{W}_{l,i}$代表权值矩阵$\mathbf{W}$$l$行第$i$列的权重,则层聚合的输出为$L_i$的线性加权和:
\item 定义一个维度为$(N+1)\times(N+1)$的权值矩阵$\mathbf{W}$,矩阵中每一行表示之前各子层对当前子层计算的贡献度,其中$N$的大小是编码端(或解码端)的层数。令$\mathbf{W}_{l,i}$代表权值矩阵$\mathbf{W}$$l$行第$i$列的权重,则层聚合的输出为$z_i$的线性加权和:
\begin{eqnarray}
g_l=\sum_{i=0}^{l}L_i\times \mathbf{W}_{l,i}
g_l=\sum_{i=0}^{l}z_i\times \mathbf{W}_{l,i}
\label{eq:7.5-6}
\end{eqnarray}
$g_l$会作为输入的一部分送入第$l+1$个子层。其网络的结构图\ref{fig:7.5-2}所示
......@@ -1256,7 +1256,7 @@ $g_l$会作为输入的一部分送入第$l+1$个子层。其网络的结构图\
\end{figure}
%-------------------------------------------
\parinterval 可以看到,权值矩阵$\mathbf{W}$是一个下三角矩阵。开始时,对矩阵参数的每行进行平均初始化,即初始化矩阵$\mathbf{W}_0$的每一行各个位置的值为$1/N,N \in (1,2,3 \cdots L_{num}+1)$。 伴随着神经网络的训练,网络通过反向传播算法来不断更新$\mathbf{W}$中每一行不同位置权重的大小。
\parinterval 可以看到,权值矩阵$\mathbf{W}$是一个下三角矩阵。开始时,对矩阵参数的每行进行平均初始化,即初始化矩阵$\mathbf{W}_0$的每一行各个位置的值为$1/M,M \in (1,2,3 \cdots N+1)$。 伴随着神经网络的训练,网络通过反向传播算法来不断更新$\mathbf{W}$中每一行不同位置权重的大小。
\parinterval 动态线性层聚合的一个好处是,系统可以自动学习不同子层对当前子层的贡献度。在实验中也发现,离当前子层更近的部分贡献度(权重)会更大,这也是符合直觉的。
......
\indexentry{未登录词|hyperpage}{17}
\indexentry{Out of Vocabulary Word,OOV Word|hyperpage}{17}
\indexentry{子词切分|hyperpage}{17}
\indexentry{Sub-word Segmentation|hyperpage}{17}
\indexentry{标准化|hyperpage}{17}
\indexentry{Normalization|hyperpage}{17}
\indexentry{数据清洗|hyperpage}{17}
\indexentry{Dada Cleaning|hyperpage}{17}
\indexentry{数据选择|hyperpage}{19}
\indexentry{Data Selection|hyperpage}{19}
\indexentry{数据过滤|hyperpage}{19}
\indexentry{Data Filtering|hyperpage}{19}
\indexentry{开放词表|hyperpage}{22}
\indexentry{Open-Vocabulary|hyperpage}{22}
\indexentry{子词|hyperpage}{23}
\indexentry{Sub-word|hyperpage}{23}
\indexentry{字节对编码|hyperpage}{23}
\indexentry{双字节编码|hyperpage}{23}
\indexentry{Byte Pair Encoding,BPE|hyperpage}{23}
\indexentry{正则化|hyperpage}{26}
\indexentry{Regularization|hyperpage}{26}
\indexentry{过拟合问题|hyperpage}{26}
\indexentry{Overfitting Problem|hyperpage}{26}
\indexentry{反问题|hyperpage}{26}
\indexentry{Inverse Problem|hyperpage}{26}
\indexentry{适定的|hyperpage}{26}
\indexentry{Well-posed|hyperpage}{26}
\indexentry{不适定问题|hyperpage}{26}
\indexentry{Ill-posed Problem|hyperpage}{26}
\indexentry{降噪|hyperpage}{27}
\indexentry{Denoising|hyperpage}{27}
\indexentry{泛化|hyperpage}{27}
\indexentry{Generalization|hyperpage}{27}
\indexentry{标签平滑|hyperpage}{29}
\indexentry{Label Smoothing|hyperpage}{29}
\indexentry{相互适应|hyperpage}{30}
\indexentry{Co-Adaptation|hyperpage}{30}
\indexentry{集成学习|hyperpage}{31}
\indexentry{Ensemble Learning|hyperpage}{31}
\indexentry{容量|hyperpage}{32}
\indexentry{Capacity|hyperpage}{32}
\indexentry{宽残差网络|hyperpage}{33}
\indexentry{Wide Residual Network|hyperpage}{33}
\indexentry{探测任务|hyperpage}{34}
\indexentry{Probing Task|hyperpage}{34}
\indexentry{表面信息|hyperpage}{34}
\indexentry{Surface Information|hyperpage}{34}
\indexentry{语法信息|hyperpage}{34}
\indexentry{Syntactic Information|hyperpage}{34}
\indexentry{语义信息|hyperpage}{34}
\indexentry{Semantic Information|hyperpage}{34}
\indexentry{词嵌入|hyperpage}{35}
\indexentry{Embedding|hyperpage}{35}
\indexentry{数据并行|hyperpage}{35}
\indexentry{Data Parallelism|hyperpage}{35}
\indexentry{模型并行|hyperpage}{35}
\indexentry{Model Parallelism|hyperpage}{35}
\indexentry{小批量训练|hyperpage}{35}
\indexentry{Mini-batch Training|hyperpage}{35}
\indexentry{课程学习|hyperpage}{37}
\indexentry{Curriculum Learning|hyperpage}{37}
\indexentry{推断|hyperpage}{38}
\indexentry{Inference|hyperpage}{38}
\indexentry{解码|hyperpage}{38}
\indexentry{Decoding|hyperpage}{38}
\indexentry{搜索错误|hyperpage}{38}
\indexentry{Search Error|hyperpage}{38}
\indexentry{模型错误|hyperpage}{38}
\indexentry{Modeling Error|hyperpage}{38}
\indexentry{重排序|hyperpage}{40}
\indexentry{Re-ranking|hyperpage}{40}
\indexentry{双向推断|hyperpage}{40}
\indexentry{Bidirectional Inference|hyperpage}{40}
\indexentry{批量推断|hyperpage}{44}
\indexentry{Batch Inference|hyperpage}{44}
\indexentry{批量处理|hyperpage}{44}
\indexentry{Batching|hyperpage}{44}
\indexentry{二值网络|hyperpage}{45}
\indexentry{Binarized Neural Networks|hyperpage}{45}
\indexentry{自回归翻译|hyperpage}{46}
\indexentry{Autoregressive Translation|hyperpage}{46}
\indexentry{非自回归翻译|hyperpage}{46}
\indexentry{Regressive Translation|hyperpage}{46}
\indexentry{繁衍率|hyperpage}{46}
\indexentry{Fertility|hyperpage}{46}
\indexentry{偏置|hyperpage}{47}
\indexentry{Bias|hyperpage}{47}
\indexentry{退化|hyperpage}{48}
\indexentry{Degenerate|hyperpage}{48}
\indexentry{过翻译|hyperpage}{49}
\indexentry{Over Translation|hyperpage}{49}
\indexentry{欠翻译|hyperpage}{49}
\indexentry{Under Translation|hyperpage}{49}
\indexentry{充分性|hyperpage}{50}
\indexentry{Adequacy|hyperpage}{50}
\indexentry{系统融合|hyperpage}{50}
\indexentry{System Combination|hyperpage}{50}
\indexentry{假设选择|hyperpage}{51}
\indexentry{Hypothesis Selection|hyperpage}{51}
\indexentry{多样性|hyperpage}{51}
\indexentry{Diversity|hyperpage}{51}
\indexentry{重排序|hyperpage}{52}
\indexentry{Re-ranking|hyperpage}{52}
\indexentry{混淆网络|hyperpage}{53}
\indexentry{Confusion Network|hyperpage}{53}
\indexentry{动态线性层聚合方法|hyperpage}{57}
\indexentry{Dynamic Linear Combination of Layers,DLCL|hyperpage}{57}
\indexentry{相互适应|hyperpage}{61}
\indexentry{Co-adaptation|hyperpage}{61}
\indexentry{数据增强|hyperpage}{63}
\indexentry{Data Augmentation|hyperpage}{63}
\indexentry{回译|hyperpage}{63}
\indexentry{Back Translation|hyperpage}{63}
\indexentry{迭代式回译|hyperpage}{64}
\indexentry{Iterative Back Translation|hyperpage}{64}
\indexentry{前向翻译|hyperpage}{64}
\indexentry{Forward Translation|hyperpage}{64}
\indexentry{预训练|hyperpage}{65}
\indexentry{Pre-training|hyperpage}{65}
\indexentry{微调|hyperpage}{65}
\indexentry{Fine-tuning|hyperpage}{65}
\indexentry{多任务学习|hyperpage}{67}
\indexentry{Multitask Learning|hyperpage}{67}
\indexentry{模型压缩|hyperpage}{68}
\indexentry{Model Compression|hyperpage}{68}
\indexentry{学习难度|hyperpage}{68}
\indexentry{Learning Difficulty|hyperpage}{68}
\indexentry{教师模型|hyperpage}{69}
\indexentry{Teacher Model|hyperpage}{69}
\indexentry{学生模型|hyperpage}{69}
\indexentry{Student Model|hyperpage}{69}
\indexentry{基于单词的知识精炼|hyperpage}{69}
\indexentry{Word-level Knowledge Distillation|hyperpage}{69}
\indexentry{基于序列的知识精炼|hyperpage}{69}
\indexentry{Sequence-level Knowledge Distillation|hyperpage}{69}
\indexentry{中间层输出|hyperpage}{70}
\indexentry{Hint-based Knowledge Transfer|hyperpage}{70}
\indexentry{注意力分布|hyperpage}{70}
\indexentry{Attention To Attention Transfer|hyperpage}{70}
\indexentry{循环一致性|hyperpage}{73}
\indexentry{Circle Consistency|hyperpage}{73}
\indexentry{翻译中回译|hyperpage}{74}
\indexentry{On-the-fly Back-translation|hyperpage}{74}
\indexentry{网络结构搜索技术|hyperpage}{77}
\indexentry{Neural Architecture Search;NAS|hyperpage}{77}
\indexentry{未登录词|hyperpage}{11}
\indexentry{Out of Vocabulary Word,OOV Word|hyperpage}{11}
\indexentry{子词切分|hyperpage}{11}
\indexentry{Sub-word Segmentation|hyperpage}{11}
\indexentry{标准化|hyperpage}{11}
\indexentry{Normalization|hyperpage}{11}
\indexentry{数据清洗|hyperpage}{11}
\indexentry{Dada Cleaning|hyperpage}{11}
\indexentry{数据选择|hyperpage}{13}
\indexentry{Data Selection|hyperpage}{13}
\indexentry{数据过滤|hyperpage}{13}
\indexentry{Data Filtering|hyperpage}{13}
\indexentry{开放词表|hyperpage}{16}
\indexentry{Open-Vocabulary|hyperpage}{16}
\indexentry{子词|hyperpage}{17}
\indexentry{Sub-word|hyperpage}{17}
\indexentry{字节对编码|hyperpage}{17}
\indexentry{双字节编码|hyperpage}{17}
\indexentry{Byte Pair Encoding,BPE|hyperpage}{17}
\indexentry{正则化|hyperpage}{20}
\indexentry{Regularization|hyperpage}{20}
\indexentry{过拟合问题|hyperpage}{20}
\indexentry{Overfitting Problem|hyperpage}{20}
\indexentry{反问题|hyperpage}{20}
\indexentry{Inverse Problem|hyperpage}{20}
\indexentry{适定的|hyperpage}{20}
\indexentry{Well-posed|hyperpage}{20}
\indexentry{不适定问题|hyperpage}{20}
\indexentry{Ill-posed Problem|hyperpage}{20}
\indexentry{降噪|hyperpage}{21}
\indexentry{Denoising|hyperpage}{21}
\indexentry{泛化|hyperpage}{21}
\indexentry{Generalization|hyperpage}{21}
\indexentry{标签平滑|hyperpage}{23}
\indexentry{Label Smoothing|hyperpage}{23}
\indexentry{相互适应|hyperpage}{24}
\indexentry{Co-Adaptation|hyperpage}{24}
\indexentry{集成学习|hyperpage}{25}
\indexentry{Ensemble Learning|hyperpage}{25}
\indexentry{容量|hyperpage}{26}
\indexentry{Capacity|hyperpage}{26}
\indexentry{宽残差网络|hyperpage}{27}
\indexentry{Wide Residual Network|hyperpage}{27}
\indexentry{探测任务|hyperpage}{28}
\indexentry{Probing Task|hyperpage}{28}
\indexentry{表面信息|hyperpage}{28}
\indexentry{Surface Information|hyperpage}{28}
\indexentry{语法信息|hyperpage}{28}
\indexentry{Syntactic Information|hyperpage}{28}
\indexentry{语义信息|hyperpage}{28}
\indexentry{Semantic Information|hyperpage}{28}
\indexentry{词嵌入|hyperpage}{29}
\indexentry{Embedding|hyperpage}{29}
\indexentry{数据并行|hyperpage}{29}
\indexentry{Data Parallelism|hyperpage}{29}
\indexentry{模型并行|hyperpage}{29}
\indexentry{Model Parallelism|hyperpage}{29}
\indexentry{小批量训练|hyperpage}{29}
\indexentry{Mini-batch Training|hyperpage}{29}
\indexentry{课程学习|hyperpage}{31}
\indexentry{Curriculum Learning|hyperpage}{31}
\indexentry{推断|hyperpage}{32}
\indexentry{Inference|hyperpage}{32}
\indexentry{解码|hyperpage}{32}
\indexentry{Decoding|hyperpage}{32}
\indexentry{搜索错误|hyperpage}{32}
\indexentry{Search Error|hyperpage}{32}
\indexentry{模型错误|hyperpage}{32}
\indexentry{Modeling Error|hyperpage}{32}
\indexentry{重排序|hyperpage}{34}
\indexentry{Re-ranking|hyperpage}{34}
\indexentry{双向推断|hyperpage}{34}
\indexentry{Bidirectional Inference|hyperpage}{34}
\indexentry{批量推断|hyperpage}{38}
\indexentry{Batch Inference|hyperpage}{38}
\indexentry{批量处理|hyperpage}{38}
\indexentry{Batching|hyperpage}{38}
\indexentry{二值网络|hyperpage}{39}
\indexentry{Binarized Neural Networks|hyperpage}{39}
\indexentry{自回归翻译|hyperpage}{40}
\indexentry{Autoregressive Translation|hyperpage}{40}
\indexentry{非自回归翻译|hyperpage}{40}
\indexentry{Regressive Translation|hyperpage}{40}
\indexentry{繁衍率|hyperpage}{40}
\indexentry{Fertility|hyperpage}{40}
\indexentry{偏置|hyperpage}{41}
\indexentry{Bias|hyperpage}{41}
\indexentry{退化|hyperpage}{42}
\indexentry{Degenerate|hyperpage}{42}
\indexentry{过翻译|hyperpage}{43}
\indexentry{Over Translation|hyperpage}{43}
\indexentry{欠翻译|hyperpage}{43}
\indexentry{Under Translation|hyperpage}{43}
\indexentry{充分性|hyperpage}{44}
\indexentry{Adequacy|hyperpage}{44}
\indexentry{系统融合|hyperpage}{44}
\indexentry{System Combination|hyperpage}{44}
\indexentry{假设选择|hyperpage}{45}
\indexentry{Hypothesis Selection|hyperpage}{45}
\indexentry{多样性|hyperpage}{45}
\indexentry{Diversity|hyperpage}{45}
\indexentry{重排序|hyperpage}{46}
\indexentry{Re-ranking|hyperpage}{46}
\indexentry{混淆网络|hyperpage}{47}
\indexentry{Confusion Network|hyperpage}{47}
\indexentry{动态线性层聚合方法|hyperpage}{51}
\indexentry{Dynamic Linear Combination of Layers,DLCL|hyperpage}{51}
\indexentry{相互适应|hyperpage}{55}
\indexentry{Co-adaptation|hyperpage}{55}
\indexentry{数据增强|hyperpage}{57}
\indexentry{Data Augmentation|hyperpage}{57}
\indexentry{回译|hyperpage}{57}
\indexentry{Back Translation|hyperpage}{57}
\indexentry{迭代式回译|hyperpage}{58}
\indexentry{Iterative Back Translation|hyperpage}{58}
\indexentry{前向翻译|hyperpage}{58}
\indexentry{Forward Translation|hyperpage}{58}
\indexentry{预训练|hyperpage}{59}
\indexentry{Pre-training|hyperpage}{59}
\indexentry{微调|hyperpage}{59}
\indexentry{Fine-tuning|hyperpage}{59}
\indexentry{多任务学习|hyperpage}{61}
\indexentry{Multitask Learning|hyperpage}{61}
\indexentry{模型压缩|hyperpage}{62}
\indexentry{Model Compression|hyperpage}{62}
\indexentry{学习难度|hyperpage}{62}
\indexentry{Learning Difficulty|hyperpage}{62}
\indexentry{教师模型|hyperpage}{63}
\indexentry{Teacher Model|hyperpage}{63}
\indexentry{学生模型|hyperpage}{63}
\indexentry{Student Model|hyperpage}{63}
\indexentry{基于单词的知识精炼|hyperpage}{63}
\indexentry{Word-level Knowledge Distillation|hyperpage}{63}
\indexentry{基于序列的知识精炼|hyperpage}{63}
\indexentry{Sequence-level Knowledge Distillation|hyperpage}{63}
\indexentry{中间层输出|hyperpage}{64}
\indexentry{Hint-based Knowledge Transfer|hyperpage}{64}
\indexentry{注意力分布|hyperpage}{64}
\indexentry{Attention To Attention Transfer|hyperpage}{64}
\indexentry{循环一致性|hyperpage}{67}
\indexentry{Circle Consistency|hyperpage}{67}
\indexentry{翻译中回译|hyperpage}{68}
\indexentry{On-the-fly Back-translation|hyperpage}{68}
\indexentry{网络结构搜索技术|hyperpage}{71}
\indexentry{Neural Architecture Search;NAS|hyperpage}{71}
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论