Commit c8fbf6ff by xiaotong

updates

parent 44b8e83a
......@@ -31,7 +31,7 @@
\node [anchor=south] (label) at ([yshift=0.3em]sw13.north) {\footnotesize{在跨度[{\blue 0},{\blue 13}]上匹配``NP 对 NP VP''}};
\node [anchor=north west,minimum size=1.2em,fill=red!20] (np) at ([yshift=-1.0em,xshift=0.3em]sw41.south west) {};
\node [anchor=west] (nplabel) at (np.east) {NP(第二个)};
\node [anchor=west] (nplabel) at (np.east) {NP(第二个)};
\node [anchor=west,minimum size=1.2em,fill=blue!20] (vp) at ([xshift=1.0em]nplabel.east) {};
\node [anchor=west] (vplabel) at (vp.east) {VP};
......
......@@ -16,7 +16,7 @@
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\chapter{神经机器翻译实战 \ \dash \ 参加一次比赛}
\parinterval 作为机器翻译的前沿方向,神经机器翻译方法是近些年来最受关注的热点。凭借其高品质的译文,在各种机器翻译比赛和产品中随处可见神经机器翻译的身影。第六章已经系统的介绍了神经机器翻译的基础模型,包括:基于循环神经网络的翻译模型、基于Transformer的翻译模型、注意力机制等等。但是,简单使用这些模型和方法显然无法取得最好的结果。实际上,先进的系统往往依赖多种技术的综合运用,是一项庞大的系统工程。
\parinterval 作为机器翻译的前沿方向,神经机器翻译方法是近些年来最受关注的研究热点之一。凭借其高品质的译文,在各种机器翻译比赛和产品中随处可见神经机器翻译的身影。第六章已经系统的介绍了神经机器翻译的基础模型,包括:基于循环神经网络的翻译模型、基于Transformer的翻译模型、注意力机制等等。但是,简单使用这些模型和方法显然无法取得最好的结果。实际上,先进的系统往往依赖多种技术的综合运用,是一项庞大的系统工程。
\parinterval 本章将沿着神经机器翻译框架继续探讨:如何研发性能更为突出的机器翻译系统。这里将介绍若干常用的提升神经机器翻译系统品质和速度的方法。同时,也会讨论一些开放性的前沿课题,旨在使机器翻译的效果达到更加先进的水平。本章的绝大部分内容都经过笔者所在团队的实验,具有实践方面的参考价值。正如本章的副标题一样,我们希望这里所讨论的内容可以帮助读者了解如何开发出一套足以参加高水平机器翻译比赛的系统,为相关研究建立更加科学、合理的基线,同时为机器翻译的应用提供一些具体可落地的思路。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
......
\indexentry{源语言|hyperpage}{15}
\indexentry{Source Language|hyperpage}{15}
\indexentry{目标语言|hyperpage}{15}
\indexentry{Target Language|hyperpage}{15}
\indexentry{机器翻译|hyperpage}{16}
\indexentry{Machine Translation|hyperpage}{16}
\indexentry{数据驱动|hyperpage}{21}
\indexentry{Data-Driven|hyperpage}{21}
\indexentry{编码器-解码器|hyperpage}{28}
\indexentry{encoder-decoder|hyperpage}{28}
\indexentry{质量评价|hyperpage}{30}
\indexentry{Quality Evaluation|hyperpage}{30}
\indexentry{无参考答案的评价|hyperpage}{30}
\indexentry{Quality Estimation|hyperpage}{30}
\indexentry{$n$元语法单元|hyperpage}{31}
\indexentry{$n$-gram准确率|hyperpage}{32}
\indexentry{$n$-gram Precision|hyperpage}{32}
\indexentry{短句惩罚因子|hyperpage}{32}
\indexentry{Brevity Penalty|hyperpage}{32}
\indexentry{分词|hyperpage}{48}
\indexentry{Segmentation|hyperpage}{48}
\indexentry{句法分析|hyperpage}{49}
\indexentry{Parsing|hyperpage}{49}
\indexentry{预处理|hyperpage}{49}
\indexentry{Pre-processing|hyperpage}{49}
\indexentry{后处理|hyperpage}{49}
\indexentry{Post-processing|hyperpage}{49}
\indexentry{事件|hyperpage}{49}
\indexentry{Event|hyperpage}{49}
\indexentry{随机事件|hyperpage}{50}
\indexentry{随机变量|hyperpage}{50}
\indexentry{Random Variable|hyperpage}{50}
\indexentry{概率|hyperpage}{50}
\indexentry{Probability|hyperpage}{50}
\indexentry{估计|hyperpage}{50}
\indexentry{估计值|hyperpage}{50}
\indexentry{Estimate|hyperpage}{50}
\indexentry{概率分布函数|hyperpage}{51}
\indexentry{概率密度函数|hyperpage}{51}
\indexentry{联合概率|hyperpage}{51}
\indexentry{Joint Probability|hyperpage}{51}
\indexentry{条件概率|hyperpage}{51}
\indexentry{Conditional Probability|hyperpage}{51}
\indexentry{边缘概率|hyperpage}{52}
\indexentry{marginal probability|hyperpage}{52}
\indexentry{全概率公式|hyperpage}{53}
\indexentry{Law of Total Probability|hyperpage}{53}
\indexentry{贝叶斯法则|hyperpage}{54}
\indexentry{Bayes' rule|hyperpage}{54}
\indexentry{熵|hyperpage}{55}
\indexentry{Entropy|hyperpage}{55}
\indexentry{自信息|hyperpage}{55}
\indexentry{Self-information|hyperpage}{55}
\indexentry{相对熵|hyperpage}{56}
\indexentry{Relative Entropy|hyperpage}{56}
\indexentry{交叉熵|hyperpage}{56}
\indexentry{Cross-entropy|hyperpage}{56}
\indexentry{分词|hyperpage}{57}
\indexentry{Segmentation|hyperpage}{57}
\indexentry{单词|hyperpage}{57}
\indexentry{Word|hyperpage}{57}
\indexentry{词|hyperpage}{57}
\indexentry{词法分析|hyperpage}{57}
\indexentry{Lexical Analysis|hyperpage}{57}
\indexentry{标注数据|hyperpage}{59}
\indexentry{Annotated Data|hyperpage}{59}
\indexentry{训练|hyperpage}{60}
\indexentry{Training|hyperpage}{60}
\indexentry{推断|hyperpage}{60}
\indexentry{Inference|hyperpage}{60}
\indexentry{参数估计|hyperpage}{61}
\indexentry{Parameter Estimation|hyperpage}{61}
\indexentry{偏置|hyperpage}{61}
\indexentry{Bias|hyperpage}{61}
\indexentry{语言模型|hyperpage}{65}
\indexentry{Language Model|hyperpage}{65}
\indexentry{语言建模|hyperpage}{65}
\indexentry{Language Modeling|hyperpage}{65}
\indexentry{极大似然估计|hyperpage}{66}
\indexentry{人工神经网络方法|hyperpage}{66}
\indexentry{未登录词|hyperpage}{67}
\indexentry{Out-of-Vocabulary Word,OOV Word|hyperpage}{67}
\indexentry{加法平滑|hyperpage}{68}
\indexentry{Additive Smoothing|hyperpage}{68}
\indexentry{古德-图灵估计法|hyperpage}{69}
\indexentry{Good-Turing Estimate|hyperpage}{69}
\indexentry{句法|hyperpage}{72}
\indexentry{Syntax|hyperpage}{72}
\indexentry{短语结构分析|hyperpage}{72}
\indexentry{Phrase Structure Parsing|hyperpage}{72}
\indexentry{依存分析|hyperpage}{72}
\indexentry{Dependency Parsing|hyperpage}{72}
\indexentry{成分分析|hyperpage}{73}
\indexentry{完全分析|hyperpage}{73}
\indexentry{Full Parsing|hyperpage}{73}
\indexentry{终结符|hyperpage}{73}
\indexentry{Terminal|hyperpage}{73}
\indexentry{预终结符|hyperpage}{73}
\indexentry{Pre-terminal|hyperpage}{73}
\indexentry{非终结符|hyperpage}{73}
\indexentry{Non-terminal|hyperpage}{73}
\indexentry{上下文无关文法|hyperpage}{74}
\indexentry{Context-Free Grammar|hyperpage}{74}
\indexentry{产生式规则|hyperpage}{75}
\indexentry{Production Rule|hyperpage}{75}
\indexentry{推导|hyperpage}{76}
\indexentry{Derivation|hyperpage}{76}
\indexentry{句子|hyperpage}{76}
\indexentry{Sentence|hyperpage}{76}
\indexentry{语言|hyperpage}{76}
\indexentry{Language|hyperpage}{76}
\indexentry{歧义|hyperpage}{76}
\indexentry{Ambiguity|hyperpage}{76}
\indexentry{消歧|hyperpage}{77}
\indexentry{Disambiguation|hyperpage}{77}
\indexentry{最左优先推导|hyperpage}{77}
\indexentry{Left-most Derivation|hyperpage}{77}
\indexentry{概率上下文无关文法|hyperpage}{78}
\indexentry{Probabilistic Context-Free Grammar|hyperpage}{78}
\indexentry{树库|hyperpage}{79}
\indexentry{Treebank|hyperpage}{79}
\indexentry{生成模型|hyperpage}{80}
\indexentry{Generative Model|hyperpage}{80}
\indexentry{判别模型|hyperpage}{80}
\indexentry{Discriminative Model|hyperpage}{80}
\indexentry{流畅度|hyperpage}{86}
\indexentry{Fluency|hyperpage}{86}
\indexentry{准确性|hyperpage}{86}
\indexentry{Accuracy|hyperpage}{86}
\indexentry{充分性|hyperpage}{86}
\indexentry{Adequacy|hyperpage}{86}
\indexentry{翻译候选|hyperpage}{87}
\indexentry{Translation Candidate|hyperpage}{87}
\indexentry{训练|hyperpage}{89}
\indexentry{Training|hyperpage}{89}
\indexentry{解码|hyperpage}{89}
\indexentry{Decoding|hyperpage}{89}
\indexentry{推断|hyperpage}{89}
\indexentry{Inference|hyperpage}{89}
\indexentry{词对齐|hyperpage}{94}
\indexentry{Word Alignment|hyperpage}{94}
\indexentry{词对齐连接|hyperpage}{94}
\indexentry{解码|hyperpage}{97}
\indexentry{Decoding|hyperpage}{97}
\indexentry{噪声信道模型|hyperpage}{100}
\indexentry{Noise Channel Model|hyperpage}{100}
\indexentry{词对齐|hyperpage}{103}
\indexentry{Word Alignment|hyperpage}{103}
\indexentry{非对称的词对齐|hyperpage}{103}
\indexentry{Asymmetric Word Alignment|hyperpage}{103}
\indexentry{空对齐|hyperpage}{103}
\indexentry{拉格朗日乘数法|hyperpage}{111}
\indexentry{The Lagrange Multiplier Method|hyperpage}{111}
\indexentry{期望最大化|hyperpage}{113}
\indexentry{Expectation Maximization|hyperpage}{113}
\indexentry{期望频次|hyperpage}{114}
\indexentry{Expected Count|hyperpage}{114}
\indexentry{产出率|hyperpage}{117}
\indexentry{繁衍率|hyperpage}{117}
\indexentry{Fertility|hyperpage}{117}
\indexentry{扭曲度|hyperpage}{120}
\indexentry{Distortion|hyperpage}{120}
\indexentry{概念单元|hyperpage}{122}
\indexentry{概念|hyperpage}{122}
\indexentry{Concept|hyperpage}{122}
\indexentry{缺陷|hyperpage}{123}
\indexentry{Deficiency|hyperpage}{123}
\indexentry{凸函数|hyperpage}{127}
\indexentry{Convex function|hyperpage}{127}
\indexentry{对称化|hyperpage}{128}
\indexentry{Symmetrization|hyperpage}{128}
\indexentry{系统偏置|hyperpage}{129}
\indexentry{System Bias|hyperpage}{129}
\indexentry{组合性翻译|hyperpage}{134}
\indexentry{Compositional Translation|hyperpage}{134}
\indexentry{短语|hyperpage}{134}
\indexentry{短语切分|hyperpage}{139}
\indexentry{Phrasal Segmentation|hyperpage}{139}
\indexentry{短语对|hyperpage}{139}
\indexentry{推导|hyperpage}{139}
\indexentry{Derivation|hyperpage}{139}
\indexentry{生成式模型|hyperpage}{142}
\indexentry{Generative Model|hyperpage}{142}
\indexentry{判别式模型|hyperpage}{142}
\indexentry{Discriminative Model|hyperpage}{142}
\indexentry{对数线性模型|hyperpage}{143}
\indexentry{Log-linear Model|hyperpage}{143}
\indexentry{短语抽取|hyperpage}{144}
\indexentry{Phrase Extraction|hyperpage}{144}
\indexentry{词汇化翻译概率|hyperpage}{147}
\indexentry{Lexical Translation Probability|hyperpage}{147}
\indexentry{短语表|hyperpage}{147}
\indexentry{Phrase Table|hyperpage}{147}
\indexentry{调序|hyperpage}{148}
\indexentry{Reordering|hyperpage}{148}
\indexentry{模型训练|hyperpage}{152}
\indexentry{Model Training|hyperpage}{152}
\indexentry{权重调优|hyperpage}{152}
\indexentry{Weight Tuning|hyperpage}{152}
\indexentry{最小错误率训练|hyperpage}{152}
\indexentry{Minimum Error Rate Training|hyperpage}{152}
\indexentry{调优集合|hyperpage}{152}
\indexentry{Tuning Set|hyperpage}{152}
\indexentry{线搜索|hyperpage}{153}
\indexentry{Line Search|hyperpage}{153}
\indexentry{格搜索|hyperpage}{154}
\indexentry{Grid Search|hyperpage}{154}
\indexentry{覆盖度模型|hyperpage}{156}
\indexentry{Coverage Model|hyperpage}{156}
\indexentry{翻译候选|hyperpage}{156}
\indexentry{Translation Candidate|hyperpage}{156}
\indexentry{翻译假设|hyperpage}{156}
\indexentry{Translation Hypothesis|hyperpage}{156}
\indexentry{剪枝|hyperpage}{157}
\indexentry{Pruning|hyperpage}{157}
\indexentry{束剪枝|hyperpage}{157}
\indexentry{Beam Pruning|hyperpage}{157}
\indexentry{直方图剪枝|hyperpage}{157}
\indexentry{Histogram Pruning|hyperpage}{157}
\indexentry{阈值剪枝|hyperpage}{157}
\indexentry{Threshold Pruning|hyperpage}{158}
\indexentry{假设重组|hyperpage}{158}
\indexentry{Hypothesis Recombination|hyperpage}{158}
\indexentry{基于层次短语的模型|hyperpage}{162}
\indexentry{Hierarchical Phrase-based Model|hyperpage}{162}
\indexentry{同步上下文无关文法|hyperpage}{163}
\indexentry{Synchronous Context-free Grammar|hyperpage}{163}
\indexentry{基于层次短语的文法|hyperpage}{164}
\indexentry{Hierarchical Phrase-based Grammar|hyperpage}{164}
\indexentry{推导|hyperpage}{164}
\indexentry{Derivation|hyperpage}{164}
\indexentry{胶水规则|hyperpage}{165}
\indexentry{Glue Rule|hyperpage}{165}
\indexentry{乔姆斯基范式|hyperpage}{169}
\indexentry{Chomsky Normal Form|hyperpage}{169}
\indexentry{跨度|hyperpage}{169}
\indexentry{Span|hyperpage}{169}
\indexentry{自下而上的分析|hyperpage}{169}
\indexentry{Top-down Parsing|hyperpage}{169}
\indexentry{束剪枝|hyperpage}{172}
\indexentry{Beam Pruning|hyperpage}{172}
\indexentry{立方剪枝|hyperpage}{174}
\indexentry{Cube Pruning|hyperpage}{174}
\indexentry{序列化|hyperpage}{177}
\indexentry{线性化|hyperpage}{177}
\indexentry{Linearization|hyperpage}{177}
\indexentry{树到串翻译规则|hyperpage}{179}
\indexentry{Tree-to-String Translation Rule|hyperpage}{179}
\indexentry{树到树翻译规则|hyperpage}{179}
\indexentry{Tree-to-Tree Translation Rule|hyperpage}{179}
\indexentry{树片段|hyperpage}{180}
\indexentry{Tree Fragment|hyperpage}{180}
\indexentry{同步树替换文法规则|hyperpage}{181}
\indexentry{Synchronous Tree Substitution Grammar Rule|hyperpage}{181}
\indexentry{边缘集合|hyperpage}{187}
\indexentry{Frontier Set|hyperpage}{187}
\indexentry{最小规则|hyperpage}{188}
\indexentry{Minimal Rules|hyperpage}{188}
\indexentry{二叉化|hyperpage}{191}
\indexentry{Binarization|hyperpage}{191}
\indexentry{基于短语的特征|hyperpage}{196}
\indexentry{基于句法的特征|hyperpage}{196}
\indexentry{有向超图|hyperpage}{197}
\indexentry{Directed Hyper-graph|hyperpage}{197}
\indexentry{超边|hyperpage}{197}
\indexentry{Hyper-edge|hyperpage}{197}
\indexentry{半环分析|hyperpage}{198}
\indexentry{Semi-ring Parsing|hyperpage}{198}
\indexentry{组合|hyperpage}{199}
\indexentry{Composition|hyperpage}{199}
\indexentry{基于串的解码|hyperpage}{199}
\indexentry{String-based Decoding|hyperpage}{199}
\indexentry{基于树的解码|hyperpage}{199}
\indexentry{Tree-based Decoding|hyperpage}{199}
\indexentry{Lexicalized Norm Form|hyperpage}{202}
\indexentry{人工神经网络|hyperpage}{209}
\indexentry{Artificial Neural Networks|hyperpage}{209}
\indexentry{神经网络|hyperpage}{209}
\indexentry{Neural Networks|hyperpage}{209}
\indexentry{深度学习|hyperpage}{210}
\indexentry{Deep Learning|hyperpage}{210}
\indexentry{连接主义|hyperpage}{211}
\indexentry{Connectionism|hyperpage}{211}
\indexentry{分布式表示|hyperpage}{211}
\indexentry{Distributed representation|hyperpage}{211}
\indexentry{符号主义|hyperpage}{211}
\indexentry{Symbolicism|hyperpage}{211}
\indexentry{端到端学习|hyperpage}{213}
\indexentry{End-to-End Learning|hyperpage}{213}
\indexentry{表示学习|hyperpage}{213}
\indexentry{Representation Learning|hyperpage}{213}
\indexentry{分布式表示|hyperpage}{214}
\indexentry{Distributed Representation|hyperpage}{214}
\indexentry{标量|hyperpage}{215}
\indexentry{Scalar|hyperpage}{215}
\indexentry{向量|hyperpage}{215}
\indexentry{Vector|hyperpage}{215}
\indexentry{矩阵|hyperpage}{215}
\indexentry{Matrix|hyperpage}{215}
\indexentry{转置|hyperpage}{216}
\indexentry{Transpose|hyperpage}{216}
\indexentry{按元素加法|hyperpage}{216}
\indexentry{Element-wise Addition|hyperpage}{216}
\indexentry{数乘|hyperpage}{217}
\indexentry{Scalar Multiplication|hyperpage}{217}
\indexentry{按元素乘积|hyperpage}{218}
\indexentry{Element-wise Product|hyperpage}{218}
\indexentry{线性映射|hyperpage}{218}
\indexentry{Linear Mapping|hyperpage}{218}
\indexentry{线性变换|hyperpage}{218}
\indexentry{Linear Transformation|hyperpage}{218}
\indexentry{范数|hyperpage}{219}
\indexentry{Norm|hyperpage}{219}
\indexentry{欧几里得范数|hyperpage}{220}
\indexentry{Euclidean Norm|hyperpage}{220}
\indexentry{Frobenius 范数|hyperpage}{220}
\indexentry{Frobenius Norm|hyperpage}{220}
\indexentry{权重|hyperpage}{221}
\indexentry{weight|hyperpage}{221}
\indexentry{张量|hyperpage}{232}
\indexentry{Tensor|hyperpage}{232}
\indexentry{阶|hyperpage}{232}
\indexentry{Rank|hyperpage}{232}
\indexentry{广播机制|hyperpage}{235}
\indexentry{向量化|hyperpage}{235}
\indexentry{Vectorization|hyperpage}{235}
\indexentry{前向传播|hyperpage}{238}
\indexentry{计算图|hyperpage}{241}
\indexentry{Computation Graph|hyperpage}{241}
\indexentry{模型参数|hyperpage}{242}
\indexentry{Model Parameters|hyperpage}{242}
\indexentry{训练|hyperpage}{242}
\indexentry{Training|hyperpage}{242}
\indexentry{有标注数据|hyperpage}{242}
\indexentry{Annotated Data/Labeled Data|hyperpage}{242}
\indexentry{有指导的训练|hyperpage}{242}
\indexentry{有监督的训练|hyperpage}{242}
\indexentry{Supervised Training|hyperpage}{242}
\indexentry{训练数据集合|hyperpage}{243}
\indexentry{Training Data Set|hyperpage}{243}
\indexentry{损失函数|hyperpage}{243}
\indexentry{Loss Function|hyperpage}{243}
\indexentry{目标函数|hyperpage}{243}
\indexentry{Objective Function|hyperpage}{243}
\indexentry{代价函数|hyperpage}{244}
\indexentry{Cost Function|hyperpage}{244}
\indexentry{梯度下降方法|hyperpage}{244}
\indexentry{Gradient Descent Method|hyperpage}{244}
\indexentry{参数更新的规则|hyperpage}{245}
\indexentry{Update Rule|hyperpage}{245}
\indexentry{学习率|hyperpage}{245}
\indexentry{Learning Rate|hyperpage}{245}
\indexentry{基于梯度的方法|hyperpage}{245}
\indexentry{Gradient-based Method|hyperpage}{245}
\indexentry{批量梯度下降|hyperpage}{245}
\indexentry{Batch Gradient Descent|hyperpage}{245}
\indexentry{随机梯度下降|hyperpage}{245}
\indexentry{Stochastic Gradient Descent|hyperpage}{245}
\indexentry{小批量梯度下降|hyperpage}{246}
\indexentry{Mini-Batch Gradient Descent|hyperpage}{246}
\indexentry{数值微分|hyperpage}{246}
\indexentry{Numerical Differentiation|hyperpage}{246}
\indexentry{截断误差|hyperpage}{247}
\indexentry{Truncation Error|hyperpage}{247}
\indexentry{舍入误差|hyperpage}{247}
\indexentry{Round-off Error|hyperpage}{247}
\indexentry{符号微分|hyperpage}{247}
\indexentry{Symbolic Differentiation|hyperpage}{247}
\indexentry{表达式膨胀|hyperpage}{247}
\indexentry{Expression Swell|hyperpage}{247}
\indexentry{自动微分|hyperpage}{247}
\indexentry{Automatic Differentiation|hyperpage}{247}
\indexentry{反向模式|hyperpage}{248}
\indexentry{Backward Mode|hyperpage}{248}
\indexentry{学习率|hyperpage}{249}
\indexentry{Learning Rate|hyperpage}{249}
\indexentry{Momentum|hyperpage}{249}
\indexentry{AdaGrad|hyperpage}{250}
\indexentry{衰减|hyperpage}{250}
\indexentry{Decay|hyperpage}{250}
\indexentry{RMSprop|hyperpage}{251}
\indexentry{Adam|hyperpage}{251}
\indexentry{数据并行|hyperpage}{252}
\indexentry{同步更新|hyperpage}{252}
\indexentry{Synchronous Update|hyperpage}{252}
\indexentry{异步更新|hyperpage}{252}
\indexentry{Asynchronous Update|hyperpage}{252}
\indexentry{参数服务器|hyperpage}{252}
\indexentry{Parameter Server|hyperpage}{252}
\indexentry{梯度消失|hyperpage}{254}
\indexentry{Gradient Vanishing|hyperpage}{254}
\indexentry{梯度爆炸|hyperpage}{254}
\indexentry{Gradient Explosion|hyperpage}{254}
\indexentry{梯度裁剪|hyperpage}{255}
\indexentry{Gradient Clipping|hyperpage}{255}
\indexentry{批量归一化|hyperpage}{256}
\indexentry{Batch Normalization|hyperpage}{256}
\indexentry{层归一化|hyperpage}{256}
\indexentry{Layer Normalization|hyperpage}{256}
\indexentry{残差网络|hyperpage}{256}
\indexentry{Residual Networks|hyperpage}{256}
\indexentry{跳接|hyperpage}{256}
\indexentry{Shortcut Connection|hyperpage}{256}
\indexentry{过拟合|hyperpage}{257}
\indexentry{Overfitting|hyperpage}{257}
\indexentry{正则化|hyperpage}{257}
\indexentry{Regularization|hyperpage}{257}
\indexentry{反向传播|hyperpage}{258}
\indexentry{back propagation|hyperpage}{258}
\indexentry{神经语言模型|hyperpage}{264}
\indexentry{Neural Language Model|hyperpage}{264}
\indexentry{前馈神经网络语言模型|hyperpage}{265}
\indexentry{Feed-forward Neural Network Language Model|hyperpage}{265}
\indexentry{循环神经网络|hyperpage}{267}
\indexentry{Recurrent Neural Network|hyperpage}{267}
\indexentry{循环神经网络语言模型|hyperpage}{267}
\indexentry{RNNLM|hyperpage}{267}
\indexentry{循环单元|hyperpage}{267}
\indexentry{RNN Cell|hyperpage}{267}
\indexentry{自注意力机制|hyperpage}{268}
\indexentry{Self-Attention Mechanism|hyperpage}{268}
\indexentry{注意力权重|hyperpage}{269}
\indexentry{Attention Weight|hyperpage}{269}
\indexentry{困惑度|hyperpage}{269}
\indexentry{Perplexity|hyperpage}{269}
\indexentry{One-hot编码|hyperpage}{270}
\indexentry{独热编码|hyperpage}{270}
\indexentry{分布式表示|hyperpage}{270}
\indexentry{Distributed Representation|hyperpage}{270}
\indexentry{词嵌入|hyperpage}{270}
\indexentry{Word Embedding|hyperpage}{270}
\indexentry{句子表示模型|hyperpage}{273}
\indexentry{句子的表示|hyperpage}{273}
\indexentry{表示学习|hyperpage}{273}
\indexentry{Representation Learning|hyperpage}{273}
\indexentry{可解释机器学习|hyperpage}{277}
\indexentry{Explainable Machine Learning|hyperpage}{277}
\indexentry{神经机器翻译|hyperpage}{279}
\indexentry{Neural Machine Translation|hyperpage}{279}
\indexentry{分布式表示|hyperpage}{281}
\indexentry{Distributed Representation|hyperpage}{281}
\indexentry{特征工程|hyperpage}{287}
\indexentry{Feature Engineering|hyperpage}{287}
\indexentry{编码器-解码器模型|hyperpage}{288}
\indexentry{Encoder-Decoder Paradigm|hyperpage}{288}
\indexentry{编码器-解码器框架|hyperpage}{288}
\indexentry{循环神经网络|hyperpage}{293}
\indexentry{Recurrent Neural Network, RNN|hyperpage}{293}
\indexentry{词嵌入|hyperpage}{295}
\indexentry{Word Embedding|hyperpage}{295}
\indexentry{表示学习|hyperpage}{295}
\indexentry{Representation Learning|hyperpage}{295}
\indexentry{生成|hyperpage}{295}
\indexentry{Generation|hyperpage}{295}
\indexentry{长短时记忆|hyperpage}{300}
\indexentry{Long Short-Term Memory|hyperpage}{300}
\indexentry{遗忘|hyperpage}{300}
\indexentry{记忆更新|hyperpage}{301}
\indexentry{输出|hyperpage}{301}
\indexentry{门循环单元|hyperpage}{301}
\indexentry{Gated Recurrent Unit,GRU|hyperpage}{301}
\indexentry{注意力权重|hyperpage}{307}
\indexentry{Attention Weight|hyperpage}{307}
\indexentry{一阶矩估计|hyperpage}{313}
\indexentry{First Moment Estimation|hyperpage}{313}
\indexentry{二阶矩估计|hyperpage}{313}
\indexentry{Second Moment Estimation|hyperpage}{313}
\indexentry{学习率|hyperpage}{314}
\indexentry{Learning Rate|hyperpage}{314}
\indexentry{逐渐预热|hyperpage}{315}
\indexentry{Gradual Warmup|hyperpage}{315}
\indexentry{分段常数衰减|hyperpage}{315}
\indexentry{Piecewise Constant Decay|hyperpage}{315}
\indexentry{数据并行|hyperpage}{316}
\indexentry{模型并行|hyperpage}{316}
\indexentry{全搜索|hyperpage}{318}
\indexentry{Full Search|hyperpage}{318}
\indexentry{贪婪搜索|hyperpage}{318}
\indexentry{Greedy Search|hyperpage}{318}
\indexentry{束搜索|hyperpage}{318}
\indexentry{Beam Search|hyperpage}{318}
\indexentry{自回归模型|hyperpage}{318}
\indexentry{Autoregressive Model|hyperpage}{318}
\indexentry{非自回归模型|hyperpage}{318}
\indexentry{Non-autoregressive Model|hyperpage}{318}
\indexentry{自注意力机制|hyperpage}{324}
\indexentry{Self-Attention|hyperpage}{324}
\indexentry{特征提取|hyperpage}{325}
\indexentry{自注意力子层|hyperpage}{326}
\indexentry{Self-attention Sub-layer|hyperpage}{326}
\indexentry{前馈神经网络子层|hyperpage}{326}
\indexentry{Feed-forward Sub-layer|hyperpage}{326}
\indexentry{残差连接|hyperpage}{326}
\indexentry{Residual Connection|hyperpage}{326}
\indexentry{层正则化|hyperpage}{326}
\indexentry{Layer Normalization|hyperpage}{326}
\indexentry{编码-解码注意力子层|hyperpage}{327}
\indexentry{Encoder-decoder Attention Sub-layer|hyperpage}{327}
\indexentry{词嵌入|hyperpage}{327}
\indexentry{Word Embedding|hyperpage}{327}
\indexentry{位置编码|hyperpage}{327}
\indexentry{Position Embedding|hyperpage}{327}
\indexentry{点乘注意力|hyperpage}{330}
\indexentry{Scaled Dot-Product Attention|hyperpage}{330}
\indexentry{多头注意力|hyperpage}{333}
\indexentry{Multi-head Attention|hyperpage}{333}
\indexentry{残差连接|hyperpage}{334}
\indexentry{短连接|hyperpage}{334}
\indexentry{Short-cut Connection|hyperpage}{334}
\indexentry{后正则化|hyperpage}{335}
\indexentry{Post-norm|hyperpage}{335}
\indexentry{前正则化|hyperpage}{335}
\indexentry{Pre-norm|hyperpage}{335}
\indexentry{交叉熵损失|hyperpage}{336}
\indexentry{Cross Entropy Loss|hyperpage}{336}
\indexentry{预热|hyperpage}{337}
\indexentry{Warmup|hyperpage}{337}
\indexentry{小批量训练|hyperpage}{337}
\indexentry{Mini-batch Training|hyperpage}{337}
\indexentry{Dropout|hyperpage}{337}
\indexentry{过拟合|hyperpage}{338}
\indexentry{Over fitting|hyperpage}{338}
\indexentry{标签平滑|hyperpage}{338}
\indexentry{Label Smoothing|hyperpage}{338}
\indexentry{序列到序列的转换/生成问题|hyperpage}{339}
\indexentry{Sequence-to-Sequence Problem|hyperpage}{339}
\indexentry{未登录词|hyperpage}{349}
\indexentry{Out of Vocabulary Word,OOV Word|hyperpage}{349}
\indexentry{子词切分|hyperpage}{349}
\indexentry{Sub-word Segmentation|hyperpage}{349}
\indexentry{标准化|hyperpage}{349}
\indexentry{Normalization|hyperpage}{349}
\indexentry{数据清洗|hyperpage}{349}
\indexentry{Dada Cleaning|hyperpage}{349}
\indexentry{数据选择|hyperpage}{352}
\indexentry{Data Selection|hyperpage}{352}
\indexentry{数据过滤|hyperpage}{352}
\indexentry{Data Filtering|hyperpage}{352}
\indexentry{开放词表|hyperpage}{354}
\indexentry{Open-Vocabulary|hyperpage}{354}
\indexentry{子词|hyperpage}{355}
\indexentry{Sub-word|hyperpage}{355}
\indexentry{字节对编码|hyperpage}{356}
\indexentry{双字节编码|hyperpage}{356}
\indexentry{Byte Pair Encoding,BPE|hyperpage}{356}
\indexentry{正则化|hyperpage}{359}
\indexentry{Regularization|hyperpage}{359}
\indexentry{过拟合问题|hyperpage}{359}
\indexentry{Overfitting Problem|hyperpage}{359}
\indexentry{反问题|hyperpage}{359}
\indexentry{Inverse Problem|hyperpage}{359}
\indexentry{适定的|hyperpage}{359}
\indexentry{Well-posed|hyperpage}{359}
\indexentry{不适定问题|hyperpage}{359}
\indexentry{Ill-posed Problem|hyperpage}{359}
\indexentry{降噪|hyperpage}{359}
\indexentry{Denoising|hyperpage}{359}
\indexentry{泛化|hyperpage}{360}
\indexentry{Generalization|hyperpage}{360}
\indexentry{相互适应|hyperpage}{362}
\indexentry{Co-Adaptation|hyperpage}{362}
\indexentry{集成学习|hyperpage}{363}
\indexentry{Ensemble Learning|hyperpage}{363}
\indexentry{容量|hyperpage}{364}
\indexentry{Capacity|hyperpage}{364}
\indexentry{探测任务|hyperpage}{366}
\indexentry{Probing Task|hyperpage}{366}
\indexentry{浅层网络表示|hyperpage}{366}
\indexentry{表面信息|hyperpage}{366}
\indexentry{Surface Information|hyperpage}{366}
\indexentry{中间层的表示|hyperpage}{366}
\indexentry{语法信息|hyperpage}{366}
\indexentry{Syntactic Information|hyperpage}{366}
\indexentry{顶层网络的表示|hyperpage}{366}
\indexentry{语义信息|hyperpage}{366}
\indexentry{Semantic Information|hyperpage}{366}
\indexentry{词嵌入|hyperpage}{367}
\indexentry{Embedding|hyperpage}{367}
\indexentry{数据并行|hyperpage}{367}
\indexentry{Data Parallelism|hyperpage}{367}
\indexentry{模型并行|hyperpage}{367}
\indexentry{Model Parallelism|hyperpage}{367}
\indexentry{课程学习|hyperpage}{370}
\indexentry{Curriculum Learning|hyperpage}{370}
\indexentry{推断|hyperpage}{370}
\indexentry{Inference|hyperpage}{370}
\indexentry{解码|hyperpage}{370}
\indexentry{Decoding|hyperpage}{370}
\indexentry{搜索错误|hyperpage}{370}
\indexentry{Search Error|hyperpage}{370}
\indexentry{模型错误|hyperpage}{370}
\indexentry{Modeling Error|hyperpage}{370}
\indexentry{批量推断|hyperpage}{376}
\indexentry{Batch Inference|hyperpage}{376}
\indexentry{批量处理|hyperpage}{376}
\indexentry{Batching|hyperpage}{376}
\indexentry{非自回归翻译|hyperpage}{378}
\indexentry{Regressive Translation|hyperpage}{378}
\indexentry{繁衍率|hyperpage}{378}
\indexentry{Fertility|hyperpage}{378}
\indexentry{偏置|hyperpage}{380}
\indexentry{Bias|hyperpage}{380}
\indexentry{退化|hyperpage}{380}
\indexentry{Degenerate|hyperpage}{380}
\indexentry{过翻译|hyperpage}{381}
\indexentry{Over Translation|hyperpage}{381}
\indexentry{欠翻译|hyperpage}{381}
\indexentry{Under Translation|hyperpage}{381}
\indexentry{充分性|hyperpage}{382}
\indexentry{Adequacy|hyperpage}{382}
\indexentry{系统融合|hyperpage}{382}
\indexentry{System Combination|hyperpage}{382}
\indexentry{假设选择|hyperpage}{383}
\indexentry{Hypothesis Selection|hyperpage}{383}
\indexentry{多样性|hyperpage}{383}
\indexentry{Diversity|hyperpage}{383}
\indexentry{重排序|hyperpage}{383}
\indexentry{Re-ranking|hyperpage}{383}
\indexentry{动态线性层聚合方法|hyperpage}{389}
\indexentry{Dynamic Linear Combination of Layers,DLCL|hyperpage}{389}
\indexentry{相互适应|hyperpage}{393}
\indexentry{Co-adaptation|hyperpage}{393}
\indexentry{数据增强|hyperpage}{395}
\indexentry{Data Augmentation|hyperpage}{395}
\indexentry{回译|hyperpage}{395}
\indexentry{Back Translation|hyperpage}{395}
\indexentry{迭代式回译|hyperpage}{396}
\indexentry{Iterative Back Translation|hyperpage}{396}
\indexentry{前向翻译|hyperpage}{396}
\indexentry{Forward Translation|hyperpage}{396}
\indexentry{预训练|hyperpage}{397}
\indexentry{Pre-training|hyperpage}{397}
\indexentry{微调|hyperpage}{397}
\indexentry{Fine-tuning|hyperpage}{397}
\indexentry{多任务学习|hyperpage}{399}
\indexentry{Multitask Learning|hyperpage}{399}
\indexentry{模型压缩|hyperpage}{400}
\indexentry{Model Compression|hyperpage}{400}
\indexentry{学习难度|hyperpage}{400}
\indexentry{Learning Difficulty|hyperpage}{400}
\indexentry{教师模型|hyperpage}{401}
\indexentry{Teacher Model|hyperpage}{401}
\indexentry{学生模型|hyperpage}{401}
\indexentry{Student Model|hyperpage}{401}
\indexentry{基于单词的知识精炼|hyperpage}{401}
\indexentry{Word-level Knowledge Distillation|hyperpage}{401}
\indexentry{基于序列的知识精炼|hyperpage}{401}
\indexentry{Sequence-level Knowledge Distillation|hyperpage}{401}
\indexentry{中间层输出|hyperpage}{402}
\indexentry{Hint-based Knowledge Transfer|hyperpage}{402}
\indexentry{注意力分布|hyperpage}{402}
\indexentry{Attention To Attention Transfer|hyperpage}{403}
\indexentry{循环一致性|hyperpage}{405}
\indexentry{Circle Consistency|hyperpage}{405}
\indexentry{翻译中回译|hyperpage}{406}
\indexentry{On-the-fly Back-translation|hyperpage}{406}
\indexentry{网络结构搜索技术|hyperpage}{409}
\indexentry{Neural Architecture Search;NAS|hyperpage}{409}
\indexentry{未登录词|hyperpage}{11}
\indexentry{Out of Vocabulary Word,OOV Word|hyperpage}{11}
\indexentry{子词切分|hyperpage}{11}
\indexentry{Sub-word Segmentation|hyperpage}{11}
\indexentry{标准化|hyperpage}{11}
\indexentry{Normalization|hyperpage}{11}
\indexentry{数据清洗|hyperpage}{11}
\indexentry{Dada Cleaning|hyperpage}{11}
\indexentry{数据选择|hyperpage}{14}
\indexentry{Data Selection|hyperpage}{14}
\indexentry{数据过滤|hyperpage}{14}
\indexentry{Data Filtering|hyperpage}{14}
\indexentry{开放词表|hyperpage}{16}
\indexentry{Open-Vocabulary|hyperpage}{16}
\indexentry{子词|hyperpage}{17}
\indexentry{Sub-word|hyperpage}{17}
\indexentry{字节对编码|hyperpage}{18}
\indexentry{双字节编码|hyperpage}{18}
\indexentry{Byte Pair Encoding,BPE|hyperpage}{18}
\indexentry{正则化|hyperpage}{21}
\indexentry{Regularization|hyperpage}{21}
\indexentry{过拟合问题|hyperpage}{21}
\indexentry{Overfitting Problem|hyperpage}{21}
\indexentry{反问题|hyperpage}{21}
\indexentry{Inverse Problem|hyperpage}{21}
\indexentry{适定的|hyperpage}{21}
\indexentry{Well-posed|hyperpage}{21}
\indexentry{不适定问题|hyperpage}{21}
\indexentry{Ill-posed Problem|hyperpage}{21}
\indexentry{降噪|hyperpage}{21}
\indexentry{Denoising|hyperpage}{21}
\indexentry{泛化|hyperpage}{22}
\indexentry{Generalization|hyperpage}{22}
\indexentry{相互适应|hyperpage}{24}
\indexentry{Co-Adaptation|hyperpage}{24}
\indexentry{集成学习|hyperpage}{25}
\indexentry{Ensemble Learning|hyperpage}{25}
\indexentry{容量|hyperpage}{26}
\indexentry{Capacity|hyperpage}{26}
\indexentry{探测任务|hyperpage}{28}
\indexentry{Probing Task|hyperpage}{28}
\indexentry{浅层网络表示|hyperpage}{28}
\indexentry{表面信息|hyperpage}{28}
\indexentry{Surface Information|hyperpage}{28}
\indexentry{中间层的表示|hyperpage}{28}
\indexentry{语法信息|hyperpage}{28}
\indexentry{Syntactic Information|hyperpage}{28}
\indexentry{顶层网络的表示|hyperpage}{28}
\indexentry{语义信息|hyperpage}{28}
\indexentry{Semantic Information|hyperpage}{28}
\indexentry{词嵌入|hyperpage}{29}
\indexentry{Embedding|hyperpage}{29}
\indexentry{数据并行|hyperpage}{29}
\indexentry{Data Parallelism|hyperpage}{29}
\indexentry{模型并行|hyperpage}{29}
\indexentry{Model Parallelism|hyperpage}{29}
\indexentry{课程学习|hyperpage}{32}
\indexentry{Curriculum Learning|hyperpage}{32}
\indexentry{推断|hyperpage}{32}
\indexentry{Inference|hyperpage}{32}
\indexentry{解码|hyperpage}{32}
\indexentry{Decoding|hyperpage}{32}
\indexentry{搜索错误|hyperpage}{32}
\indexentry{Search Error|hyperpage}{32}
\indexentry{模型错误|hyperpage}{32}
\indexentry{Modeling Error|hyperpage}{32}
\indexentry{批量推断|hyperpage}{38}
\indexentry{Batch Inference|hyperpage}{38}
\indexentry{批量处理|hyperpage}{38}
\indexentry{Batching|hyperpage}{38}
\indexentry{非自回归翻译|hyperpage}{40}
\indexentry{Regressive Translation|hyperpage}{40}
\indexentry{繁衍率|hyperpage}{40}
\indexentry{Fertility|hyperpage}{40}
\indexentry{偏置|hyperpage}{42}
\indexentry{Bias|hyperpage}{42}
\indexentry{退化|hyperpage}{42}
\indexentry{Degenerate|hyperpage}{42}
\indexentry{过翻译|hyperpage}{43}
\indexentry{Over Translation|hyperpage}{43}
\indexentry{欠翻译|hyperpage}{43}
\indexentry{Under Translation|hyperpage}{43}
\indexentry{充分性|hyperpage}{44}
\indexentry{Adequacy|hyperpage}{44}
\indexentry{系统融合|hyperpage}{44}
\indexentry{System Combination|hyperpage}{44}
\indexentry{假设选择|hyperpage}{45}
\indexentry{Hypothesis Selection|hyperpage}{45}
\indexentry{多样性|hyperpage}{45}
\indexentry{Diversity|hyperpage}{45}
\indexentry{重排序|hyperpage}{45}
\indexentry{Re-ranking|hyperpage}{45}
\indexentry{动态线性层聚合方法|hyperpage}{51}
\indexentry{Dynamic Linear Combination of Layers,DLCL|hyperpage}{51}
\indexentry{相互适应|hyperpage}{55}
\indexentry{Co-adaptation|hyperpage}{55}
\indexentry{数据增强|hyperpage}{57}
\indexentry{Data Augmentation|hyperpage}{57}
\indexentry{回译|hyperpage}{57}
\indexentry{Back Translation|hyperpage}{57}
\indexentry{迭代式回译|hyperpage}{58}
\indexentry{Iterative Back Translation|hyperpage}{58}
\indexentry{前向翻译|hyperpage}{58}
\indexentry{Forward Translation|hyperpage}{58}
\indexentry{预训练|hyperpage}{59}
\indexentry{Pre-training|hyperpage}{59}
\indexentry{微调|hyperpage}{59}
\indexentry{Fine-tuning|hyperpage}{59}
\indexentry{多任务学习|hyperpage}{61}
\indexentry{Multitask Learning|hyperpage}{61}
\indexentry{模型压缩|hyperpage}{62}
\indexentry{Model Compression|hyperpage}{62}
\indexentry{学习难度|hyperpage}{62}
\indexentry{Learning Difficulty|hyperpage}{62}
\indexentry{教师模型|hyperpage}{63}
\indexentry{Teacher Model|hyperpage}{63}
\indexentry{学生模型|hyperpage}{63}
\indexentry{Student Model|hyperpage}{63}
\indexentry{基于单词的知识精炼|hyperpage}{63}
\indexentry{Word-level Knowledge Distillation|hyperpage}{63}
\indexentry{基于序列的知识精炼|hyperpage}{63}
\indexentry{Sequence-level Knowledge Distillation|hyperpage}{63}
\indexentry{中间层输出|hyperpage}{64}
\indexentry{Hint-based Knowledge Transfer|hyperpage}{64}
\indexentry{注意力分布|hyperpage}{64}
\indexentry{Attention To Attention Transfer|hyperpage}{65}
\indexentry{循环一致性|hyperpage}{67}
\indexentry{Circle Consistency|hyperpage}{67}
\indexentry{翻译中回译|hyperpage}{68}
\indexentry{On-the-fly Back-translation|hyperpage}{68}
\indexentry{网络结构搜索技术|hyperpage}{71}
\indexentry{Neural Architecture Search;NAS|hyperpage}{71}
......@@ -255,11 +255,11 @@
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{剪枝}{157}{section*.150}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{解码中的栈结构}{158}{section*.152}
\contentsline {subsubsection}{解码中的栈结构}{159}{section*.152}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {4.3}基于层次短语的模型}{159}{section.4.3}
\contentsline {section}{\numberline {4.3}基于层次短语的模型}{160}{section.4.3}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.3.1}同步上下文无关文法}{162}{subsection.4.3.1}
\contentsline {subsection}{\numberline {4.3.1}同步上下文无关文法}{163}{subsection.4.3.1}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{文法定义}{163}{section*.157}
\defcounter {refsection}{0}\relax
......@@ -271,9 +271,9 @@
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.3.2}层次短语规则抽取}{166}{subsection.4.3.2}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.3.3}翻译模型及特征}{167}{subsection.4.3.3}
\contentsline {subsection}{\numberline {4.3.3}翻译模型及特征}{168}{subsection.4.3.3}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.3.4}CYK解码}{168}{subsection.4.3.4}
\contentsline {subsection}{\numberline {4.3.4}CYK解码}{169}{subsection.4.3.4}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.3.5}立方剪枝}{172}{subsection.4.3.5}
\defcounter {refsection}{0}\relax
......
......@@ -110,14 +110,14 @@
% CHAPTERS
%----------------------------------------------------------------------------------------
\include{Chapter1/chapter1}
\include{Chapter2/chapter2}
\include{Chapter3/chapter3}
\include{Chapter4/chapter4}
\include{Chapter5/chapter5}
\include{Chapter6/chapter6}
%\include{Chapter1/chapter1}
%\include{Chapter2/chapter2}
%\include{Chapter3/chapter3}
%\include{Chapter4/chapter4}
%\include{Chapter5/chapter5}
%\include{Chapter6/chapter6}
\include{Chapter7/chapter7}
\include{ChapterAppend/chapterappend}
%\include{ChapterAppend/chapterappend}
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论