Commit 18b714cf by xiaotong

new update

parent 6d1b84b9
......@@ -120,52 +120,36 @@
\subsection{词嵌入}
%%%------------------------------------------------------------------------------------------------------------
%%% 更强大的表示模型 - ELMO
\begin{frame}{更强的表示模型 - ELMO}
%%% Transformer architecture
\begin{frame}{语言模型的评价指标}
\begin{itemize}
\item \textbf{ELMO}(Embedding from Language Models)可以说是掀起了基于语言模型的预训练的热潮
\begin{itemize}
\item 仍然使用RNN结构,不过循环单元换成了LSTM
\item 同时考虑自左向右和自右向左的建模方式,同时表示一个词左端和右端的上下文
\item 融合所有层的输出,送给下游应用,提供了更丰富的信息
\end{itemize}
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 更强大的表示模型 - GTP
\begin{frame}{更强的表示模型 - GPT}
\item 困惑度(ppl)
\begin{itemize}
\item \textbf{GPT}(Generative Pre-Training)也是一种基于语言模型的表示模型
\begin{itemize}
\item 架构换成了Transformer,特征抽取能力更强
\item 基于Pre-training + Fine-tuning的框架,预训练作为下游系统部件的参数初始值,因此可以更好的适应目标任务
\end{itemize}
\item 语言模型预测一个语言样本的能力
\item 困惑度越低,建模的效果越好
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 更强大的表示模型 - BERT
\begin{frame}{更强的表示模型 - BERT}
\begin{itemize}
\item \textbf{BERT}( Bidirectional Encoder Representations from Transformers)是最近非常火爆的表示模型
\begin{itemize}
\item 仍然基于Transformer但是考虑了左右两端的上下文(可以对比GPT)
\item 使用了Mask方法来增加训练得到模型的健壮性,这个方法几乎成为了预训练表示模型的新范式
\end{itemize}
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 更强大的表示模型 - BERT
\begin{frame}{更强的表示模型 - BERT}
\begin{itemize}
\item \textbf{BERT}( Bidirectional Encoder Representations from Transformers)是最近非常火爆的表示模型
\begin{itemize}
\item 仍然基于Transformer但是考虑了左右两端的上下文(可以对比GPT)
\item 使用了Mask方法来增加训练得到模型的健壮性,这个方法几乎成为了预训练表示模型的新范式
\end{itemize}
\end{itemize}
\begin{center}
\begin{tikzpicture}
\begin{scope}
\node [anchor=west] (eq) at (0,0) {$perplexity(s)=p(w_1,w_2,w_3,...,w_m)^{-1/m}$};
\end{scope}
\end{tikzpicture}
\end{center}
\vspace{0.5em}
\begin{tabular}{l | l | l | r}
模型 & 作者 & 年份 & PPL \\ \hline
Feed-forward Neural LM & Bengio et al. & 2003 & 162.2 \\
Recurrent NN-based LM & Mikolov et al. & 2010 & 124.7 \\
Recurrent NN-LDA & Mikolov et al. & 2012 & 92.0 \\
LSTM & Zaremba et al. & 2014 & 78.4 \\
RHN & Zilly et al. & 2016 & 65.4 \\
AWD-LSTM & Merity et al. & 2018 & 58.8 \\
GPT-2 (Transformer) & Radford et al. & 2019 & \alert{35.7}
\end{tabular}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论