Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
9b486346
Commit
9b486346
authored
May 12, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'caorunzhe' 到 'master'
Caorunzhe 查看合并请求
!155
parents
a57274f1
4ab8d44d
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
1 行增加
和
1 行删除
+1
-1
Book/Chapter6/Chapter6.tex
+1
-1
没有找到文件。
Book/Chapter6/Chapter6.tex
查看文件 @
9b486346
...
...
@@ -1115,7 +1115,7 @@ L(\mathbf{Y},\widehat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\
\begin{itemize}
\vspace
{
0.5em
}
\item
{
\small\bfnew
{
数据并行
}}
\index
{
数据并行
}
。如果一台设备能完整放下一个神经机器翻译模型,那么数据并行可以把一个大批次均匀切分成
$
n
$
个小批次,然后分发到
$
n
$
个设备上并行计算,最后把结果汇总,相当于把运算时间变为原来的
${
1
}
/
{
n
}$
,数据并行的过程如图
\ref
{
fig:6-30
}
所示。不过,需要注意的是,多设备并行需要对数据在不同设备间传输,特别是多个GPU的情况,设备间传输的带宽十分有限,设备间传输数据往往会造成额外的时间消耗
\cite
{
Zhang2017F
ast
}
。通常,数据并行的训练速度无法随着设备数量增加呈线性增长。不过这个问题也有很多优秀的解决方案,比如采用多个设备的异步训练,但是这些内容已经超出本章的内容,因此这里不做过多讨论。
\item
{
\small\bfnew
{
数据并行
}}
\index
{
数据并行
}
。如果一台设备能完整放下一个神经机器翻译模型,那么数据并行可以把一个大批次均匀切分成
$
n
$
个小批次,然后分发到
$
n
$
个设备上并行计算,最后把结果汇总,相当于把运算时间变为原来的
${
1
}
/
{
n
}$
,数据并行的过程如图
\ref
{
fig:6-30
}
所示。不过,需要注意的是,多设备并行需要对数据在不同设备间传输,特别是多个GPU的情况,设备间传输的带宽十分有限,设备间传输数据往往会造成额外的时间消耗
\cite
{
xiao2017f
ast
}
。通常,数据并行的训练速度无法随着设备数量增加呈线性增长。不过这个问题也有很多优秀的解决方案,比如采用多个设备的异步训练,但是这些内容已经超出本章的内容,因此这里不做过多讨论。
%----------------------------------------------
\begin{figure}
[htp]
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论