Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
130da04f
Commit
130da04f
authored
3 years ago
by
单韦乔
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
kd文字修改
parent
f5d2ac54
显示空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
1 行增加
和
1 行删除
+1
-1
Chapter13/chapter13.tex
+1
-1
没有找到文件。
Chapter13/chapter13.tex
查看文件 @
130da04f
...
...
@@ -706,7 +706,7 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\seq{y}} | \seq{x})
\label
{
eq:13-24
}
\end{eqnarray}
这样的损失函数最直接的好处是,知识蒸馏的流程会非常简单。因为只需要利用教师模型将训练数据(源语言)翻译一遍,之后把它的输出
替换为训练数据的目标语言部分
。之后,利用新得到的双语数据训练学生模型即可。图
\ref
{
fig:13-12
}
对比了词级和序列级知识蒸馏方法。
这样的损失函数最直接的好处是,知识蒸馏的流程会非常简单。因为只需要利用教师模型将训练数据(源语言)翻译一遍,之后把它的输出
作为训练数据的目标语言部分构造出新的双语数据
。之后,利用新得到的双语数据训练学生模型即可。图
\ref
{
fig:13-12
}
对比了词级和序列级知识蒸馏方法。
\vspace
{
0.5em
}
\end{itemize}
...
...
This diff is collapsed.
Click to expand it.
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论