合并分支 'master' 到 'caorunzhe'

Master 查看合并请求 !671

合并分支 'master' 到 'caorunzhe'
Master 查看合并请求 !671
becc8fa0 · 曹润柘 · 11d60c4c · a723f193 · becc8fa0
Commit becc8fa0 authored Dec 22, 2020 by 曹润柘
--- a/Chapter15/chapter15.tex
+++ b/Chapter15/chapter15.tex
@@ -1082,14 +1082,14 @@ lr &=& d_{model}^{-0.5}\cdot step\_num^{-0.5}
 \begin{figure}[htp]
 \centering
 \input{./Chapter15/Figures/figure-evolution-and-change-of-ml-methods}
-\caption{机器学习方法的演化与变迁}
+\caption{机器学习范式对比}
 \label{fig:15-28}
 \end{figure}
 %-------------------------------------------
-\parinterval 于是，就诞生了网络结构搜索这个研究方向。早在上世纪八十年代，研究人员就开始使用进化算法对神经网络结构进行设计\upcite{DBLP:conf/icga/MillerTH89}，之后也有很多研究人员对基于进化算法的结构搜索进行了探索\upcite{mandischer1993representation,koza1991genetic,DBLP:conf/ijcnn/Dodd90,DBLP:conf/nips/HarpSG89,DBLP:journals/compsys/Kitano90,DBLP:conf/icec/SantosD94}。近些年，随着深度学习技术的发展，神经网络结构搜索这个方向也重新走进更多人的视线中，受到了来自计算机视觉、自然语言处理多个领域的关注与应用。
+\parinterval 于是，就诞生了网络结构搜索这个研究方向。早在上世纪八十年代，研究人员就开始使用进化算法对神经网络结构进行设计\upcite{DBLP:conf/icga/MillerTH89}，之后也有很多研究人员对基于进化算法的结构搜索进行了探索\upcite{mandischer1993representation,koza1991genetic,DBLP:conf/ijcnn/Dodd90,DBLP:conf/nips/HarpSG89,DBLP:journals/compsys/Kitano90,DBLP:conf/icec/SantosD94}（{\color{red} 这个地方可以少放几个参考文献}）。近些年，随着深度学习技术的发展，神经网络结构搜索这个方向也重新走进更多人的视线中，受到了来自计算机视觉、自然语言处理多个领域的关注与应用。
-\parinterval 目前网络结构搜索技术尚且处于相对初级的阶段，不过在近些年该方向已经在很多任务中受到关注。例如，在WMT19国际机器翻译比赛中，有参赛单位使用了基于梯度的结构搜索方法改进翻译模型\upcite{DBLP:conf/nips/LuoTQCL18}。此外，在语言建模等任务中也大量应用了结构搜索技术，并取得了很好的结果\upcite{DBLP:conf/icml/PhamGZLD18,DBLP:conf/iclr/LiuSY19,DBLP:conf/acl/LiHZXJXZLL20,DBLP:conf/emnlp/JiangHXZZ19}。下面将对结构搜索的基本方法和其在机器翻译中的应用进行介绍。
+\parinterval 目前网络结构搜索技术在很多任务中受到关注。例如，在WMT19国际机器翻译比赛中，有参赛单位使用了基于梯度的结构搜索方法改进翻译模型\upcite{DBLP:conf/nips/LuoTQCL18}。此外，在语言建模等任务中也大量应用了结构搜索技术，并取得了很好的结果\upcite{DBLP:conf/icml/PhamGZLD18,DBLP:conf/iclr/LiuSY19,DBLP:conf/acl/LiHZXJXZLL20,DBLP:conf/emnlp/JiangHXZZ19}。下面将对结构搜索的基本方法和其在机器翻译中的应用进行介绍。
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -1097,13 +1097,15 @@ lr &=& d_{model}^{-0.5}\cdot step\_num^{-0.5}
 \subsection{结构搜索的基本方法}
-\parinterval 对于网络结构搜索而言，其目标在于通过数据驱动的方式自动地找到最合适的模型结构。以机器翻译这类有监督任务为例，对于给定的具有$K$个训练样本的训练集合$\{(\mathbi{x}_{1},\mathbi{y}_{1}),\ldots,(\mathbi{x}_{n},\mathbi{y}_{n})\}$（其中$\mathbi{x}_{i}$表示的是第$i$个样本的输入数据，$\mathbi{y}_{i}$表示该样本的目标标签值），网络结构搜索过程可以被建模为，根据数据找到最佳模型结构$\hat{a}$的过程，如下所示：
+\parinterval 对于网络结构搜索而言，其目标在于通过数据驱动的方式自动地找到最合适的模型结构。以有监督学习为例，给定训练集合$\{(\mathbi{x}_{1},\mathbi{y}_{1}),\ldots,(\mathbi{x}_{n},\mathbi{y}_{n})\}$（其中$\mathbi{x}_{i}$表示的是第$i$个样本的输入，$\mathbi{y}_{i}$表示该样本的答案，并假设$\mathbi{x}_{i}$和$\mathbi{y}_{i}$均为向量表示），网络结构搜索过程可以被建模为，根据数据找到最佳模型结构$\hat{a}$的过程，如下所示：
 \begin{eqnarray}
 \hat{a} &=& \arg\max_{a}\sum_{i=1}^{n}{\funp{P}(\mathbi{y}_{i}|\mathbi{x}_{i};a)}
 \label{eq:15-54}
 \end{eqnarray}
-\noindent 公式中$\funp{P}(\mathbi{y}_{i}|\mathbi{x}_{i};a)$为模型$a$观察到数据$\mathbi{x}_{i}$后预测为标签$\mathbi{y}_{i}$的概率，而模型结构$a$本身可以看作是输入$\mathbi{x}$到输出$\mathbi{y}$的映射函数。因此可以简单的把模型$a$看作根据$\mathbi{x}$预测$\mathbi{y}$的一个函数，记为：
+\noindent 其中，$\funp{P}(\mathbi{y}_{i}|\mathbi{x}_{i};a)$为模型$a$观察到数据$\mathbi{x}_{i}$后预测$\mathbi{y}_{i}$的概率，而模型结构$a$本身可以看作是输入$\mathbi{x}$到输出$\mathbi{y}$ 的映射函数。因此可以简单第把模型$a$看作根据$\mathbi{x}$预测$\mathbi{y}$的一个函数，记为：
 \begin{eqnarray}
 a(\mathbi{x}) &=& \funp{P}(\cdot|\mathbi{x})
 \label{eq:15-55}
@@ -1115,7 +1117,7 @@ a(\mathbi{x}) &=& \funp{P}(\cdot|\mathbi{x})
 \vspace{0.5em}
 \item 设计搜索空间：理论上,网络结构搜索的搜索空间应由所有的潜在模型结构构成（图\ref{fig:15-29}）。在这种情况下，如果不对候选模型结构进行限制的话，搜索空间会十分庞大。因此，在实际的结构搜索过程中，往往会针对特定任务设计一个搜索空间，这个搜索空间是全体结构空间的一个子集，之后的搜索过程将在这个子空间中进行。如图\ref{fig:15-29}中的搜索空间所示，该空间由循环神经网络构成，其中候选的模型包括人工设计的LSTM、GRU等模型结构，也包括其他潜在的循环神经网络结构。
 \vspace{0.5em}
-\item 选择搜索策略：在设计好搜索空间之后，结构搜索的过程将选择一种合适的策略，对搜索空间进行探索。不同于模型参数的学习，模型结构本身不存在直接可计算的关联，所以很难通过传统的最优化算法对其进行学习。因此，搜索策略往往选择采用遗传算法或强化学习等方法，这些方法间接地对模型结构进行设计或优化\upcite{DBLP:conf/icml/SoLL19,DBLP:conf/aaai/RealAHL19,DBLP:conf/icml/RealMSSSTLK17,DBLP:conf/iclr/ElskenMH19,DBLP:conf/iclr/ZophL17,DBLP:conf/cvpr/ZophVSL18,DBLP:conf/icml/PhamGZLD18,DBLP:conf/iclr/BakerGNR17,DBLP:conf/cvpr/TanCPVSHL19,DBLP:conf/iclr/LiuSVFK18}。 不过近些年来也有研究人员开始尝试将模型结构建模为超网络中的参数，这样即可使用基于梯度的方式直接对最优结构进行搜索\upcite{DBLP:conf/nips/LuoTQCL18,DBLP:conf/iclr/LiuSY19,DBLP:conf/iclr/CaiZH19,DBLP:conf/cvpr/LiuCSAHY019,DBLP:conf/cvpr/WuDZWSWTVJK19,DBLP:conf/iclr/XieZLL19,DBLP:conf/uai/LiT19,DBLP:conf/cvpr/DongY19,DBLP:conf/iclr/XuX0CQ0X20,DBLP:conf/iclr/ZelaESMBH20,DBLP:conf/iclr/MeiLLJYYY20}。
+\item 选择搜索策略：在设计好搜索空间之后，结构搜索的过程将选择一种合适的策略，对搜索空间进行探索。不同于模型参数的学习，模型结构本身不存在直接可计算的关联，所以很难通过传统的最优化算法对其进行学习。因此，搜索策略往往选择采用遗传算法或强化学习等方法，这些方法间接地对模型结构进行设计或优化\upcite{DBLP:conf/icml/SoLL19,DBLP:conf/aaai/RealAHL19,DBLP:conf/icml/RealMSSSTLK17,DBLP:conf/iclr/ElskenMH19,DBLP:conf/iclr/ZophL17,DBLP:conf/cvpr/ZophVSL18,DBLP:conf/icml/PhamGZLD18,DBLP:conf/iclr/BakerGNR17,DBLP:conf/cvpr/TanCPVSHL19,DBLP:conf/iclr/LiuSVFK18} （{\color{red} 参考文献太多了！}）。 不过近些年来也有研究人员开始尝试将模型结构建模为超网络中的参数，这样即可使用基于梯度的方式直接对最优结构进行搜索\upcite{DBLP:conf/nips/LuoTQCL18,DBLP:conf/iclr/LiuSY19,DBLP:conf/iclr/CaiZH19,DBLP:conf/cvpr/LiuCSAHY019,DBLP:conf/cvpr/WuDZWSWTVJK19,DBLP:conf/iclr/XieZLL19,DBLP:conf/uai/LiT19,DBLP:conf/cvpr/DongY19,DBLP:conf/iclr/XuX0CQ0X20,DBLP:conf/iclr/ZelaESMBH20,DBLP:conf/iclr/MeiLLJYYY20} （{\color{red} 参考文献太多了！}）。
 \vspace{0.5em}
 \item 进行性能评估：在搜索到模型结构之后需要对其性能进行验证，确定当前时刻模型结构的性能优劣。但是对于结构搜索任务来说，由于搜索过程中会产生大量的中间模型结构，如果直接对所有可能的结构进行评价，其时间代价是难以接受的。因此在结构搜索任务中也有很多研究人员尝试如何快速获取模型性能（绝对性能或相对性能）\upcite{DBLP:conf/nips/LuoTQCL18,DBLP:journals/jmlr/LiJDRT17,DBLP:conf/eccv/LiuZNSHLFYHM18}。
 \vspace{0.5em}
@@ -1168,7 +1170,7 @@ a(\mathbi{x}) &=& \funp{P}(\cdot|\mathbi{x})
 \label{eq:15-56}
 \end{eqnarray}
-\parinterval 其中函数$\pi(\cdot)$即为结构表示中的内部结构，而循环单元之间的组织方式（即整体框架）则决定了循环单元的输入信息，也就是上式中的循环单元表示$\hat{\mathbi{h}}_{t-1}$和输入表示$\hat{\mathbi{x}}_{t}$。理论上二者均能获得对应时刻之前所有的表示信息，因此可表示为：
+\noindent 其中，函数$\pi(\cdot)$表达的是结构表示中的内部结构。而循环单元之间的组织方式（即整体框架）决定了循环单元的输入信息，也就是上式中的循环单元表示$\hat{\mathbi{h}}_{t-1}$和输入表示$\hat{\mathbi{x}}_{t}$。理论上二者均能获得对应时刻之前所有的表示信息，因此可表示为：
 \begin{eqnarray}
 \hat{\mathbi{h}}_{t-1} &=& f(\mathbi{h}_{[0,t-1]};\mathbi{x}_{[1,t-1]}) \\
 \hat{\mathbi{x}_t} &=& g(\mathbi{x}_{[1,t]};\mathbi{h}_{[0,t-1]})
@@ -1181,9 +1183,9 @@ a(\mathbi{x}) &=& \funp{P}(\cdot|\mathbi{x})
 \begin{itemize}
 \vspace{0.5em}
-\item 整体框架：如图\ref{fig:15-30}所示，在不同任务下，不同结构往往会有不同的建模能力，类似的结构在结构空间中相对集中。因此在搜索空间的设计中，根据不同的任务特点，整体框架会选择在该任务上已经得到验证的经验性结构，这能够更快速地定位到更有潜力的搜索空间。比如，对于图像任务来说，一般会将卷积神经网络设计为候选搜索空间\upcite{DBLP:conf/iclr/ElskenMH19,DBLP:conf/icml/PhamGZLD18,DBLP:conf/iclr/LiuSY19,DBLP:conf/eccv/LiuZNSHLFYHM18,DBLP:conf/icml/CaiYZHY18}，而对于包括机器翻译在内的自然语言处理任务而言，则会更倾向于使用循环神经网络或基于自注意力机制的Transformer模型附近的结构空间作为搜索空间\upcite{DBLP:conf/icml/SoLL19,DBLP:conf/iclr/ZophL17,DBLP:conf/icml/PhamGZLD18,DBLP:conf/iclr/LiuSY19,DBLP:journals/taslp/FanTXQLL20,DBLP:conf/ijcai/ChenLQWLDDHLZ20,DBLP:conf/acl/WangWLCZGH20}。 此外，也可以拓展搜索空间以覆盖更多网络结构\upcite{DBLP:conf/acl/LiHZXJXZLL20}。
+\item 整体框架：如图\ref{fig:15-30}所示，在不同任务下，不同结构往往会有不同的建模能力，类似的结构在结构空间中相对集中。因此在搜索空间的设计中，根据不同的任务特点，整体框架会选择在该任务上已经得到验证的经验性结构，这能够更快速地定位到更有潜力的搜索空间。比如，对于图像任务来说，一般会将卷积神经网络设计为候选搜索空间\upcite{DBLP:conf/iclr/ElskenMH19,DBLP:conf/icml/PhamGZLD18,DBLP:conf/iclr/LiuSY19,DBLP:conf/eccv/LiuZNSHLFYHM18,DBLP:conf/icml/CaiYZHY18}，而对于包括机器翻译在内的自然语言处理任务而言，则会更倾向于使用循环神经网络或基于自注意力机制的Transformer模型附近的结构空间作为搜索空间\upcite{DBLP:conf/icml/SoLL19,DBLP:conf/iclr/ZophL17,DBLP:conf/icml/PhamGZLD18,DBLP:conf/iclr/LiuSY19,DBLP:journals/taslp/FanTXQLL20,DBLP:conf/ijcai/ChenLQWLDDHLZ20,DBLP:conf/acl/WangWLCZGH20}。 此外，也可以拓展搜索空间以覆盖更多结构\upcite{DBLP:conf/acl/LiHZXJXZLL20}。
 \vspace{0.5em}
-\item 	内部结构：由于算力限制，网络结构搜索任务通常使用经验性的架构作为模型的整体框架，之后对内部结构堆叠进而得到完整的模型结构。对于内部结构的设计需要考虑到搜索过程中的最小搜索单元，以及搜索单元之间的连接方式。最小搜索单元指的是在结构搜索过程中可被选择的最小独立计算单元（或被称为搜索算子、操作），在不同搜索空间的设计中，最小搜索单元的颗粒度各有不同，较小的搜索粒度主要包括如矩阵乘法、张量缩放等基本数学运算\upcite{DBLP:journals/corr/abs-2003-03384}，中等粒度的搜索单元包括常见的激活函数，如ReLU、Tanh等\upcite{DBLP:conf/iclr/LiuSY19,DBLP:conf/acl/LiHZXJXZLL20,Chollet2017XceptionDL}，较大颗粒度的搜索单元为局部结构，如注意力机制、层标准化等人工设计的经验性结构\upcite{DBLP:conf/icml/SoLL19,DBLP:conf/nips/LuoTQCL18,DBLP:journals/taslp/FanTXQLL20}。不过，对于搜索颗粒度的问题，目前还缺乏有效的方法针对不同任务进行自动优化。
+\item 	内部结构：由于算力限制，网络结构搜索任务通常使用经验性的架构作为模型的整体框架，之后对内部结构堆叠进而得到完整的模型结构。对于内部结构的设计需要考虑到搜索过程中的最小搜索单元，以及搜索单元之间的连接方式。最小搜索单元指的是在结构搜索过程中可被选择的最小独立计算单元（或被称为搜索算子），在不同搜索空间的设计中，最小搜索单元的颗粒度各有不同，较小的搜索粒度主要包括如矩阵乘法、张量缩放等基本数学运算\upcite{DBLP:journals/corr/abs-2003-03384}，更大粒度的搜索单元包括常见的激活函数，如ReLU、Tanh等\upcite{DBLP:conf/iclr/LiuSY19,DBLP:conf/acl/LiHZXJXZLL20,Chollet2017XceptionDL}，甚至搜索单元可以是一些模型的局部结构，如注意力模型、层标准化模型等\upcite{DBLP:conf/icml/SoLL19,DBLP:conf/nips/LuoTQCL18,DBLP:journals/taslp/FanTXQLL20}。不过，对于搜索颗粒度的问题，目前还缺乏有效的方法针对不同任务进行自动优化。
 \vspace{0.5em}
 \end{itemize}
@@ -1199,19 +1201,10 @@ a(\mathbi{x}) &=& \funp{P}(\cdot|\mathbi{x})
 \begin{itemize}
 \vspace{0.5em}
-\item 进化算法：进化算法最初被用来对神经网络模型结构以及权重参数进行优化\upcite{DBLP:conf/icga/MillerTH89,DBLP:journals/tnn/AngelineSP94,stanley2002evolving,DBLP:journals/alife/StanleyDG09}。虽然随着最优化算法的发展，近年来，对于网络参数的学习更多地采用梯度下降法的方式，但是进化算法仍被用于对模型结构进行优化\upcite{DBLP:conf/aaai/RealAHL19,DBLP:conf/icml/RealMSSSTLK17,DBLP:conf/iclr/ElskenMH19,DBLP:conf/ijcai/SuganumaSN18,Real2019AgingEF,DBLP:conf/iclr/LiuSVFK18,DBLP:conf/iccv/XieY17}。 从结构优化的角度来说，一般是将模型结构看做遗传算法中种群的个体，使用轮盘赌或锦标赛等抽取方式，对种群中的结构进行取样作为亲本，之后通过亲本模型的突变产生新的模型结构，最终对这些新的模型结构进行适应度评估\ref{subsubsec-15.4.2.3}。根据模型结构在校验集上的性能确定是否将其加入种群，整个过程如图\ref{fig:15-32}所示。进化算法中结构的突变主要指的是对模型中局部结构的改变，如增加跨层连接、替换局部操作等。
+\item 进化算法：进化算法最初被用来对神经网络模型结构以及权重参数进行优化\upcite{DBLP:conf/icga/MillerTH89,DBLP:journals/tnn/AngelineSP94,stanley2002evolving,DBLP:journals/alife/StanleyDG09}。虽然随着最优化算法的发展，近年来，对于网络参数的学习更多地采用梯度下降法的方式，但是进化算法仍被用于对模型结构进行优化\upcite{DBLP:conf/aaai/RealAHL19,DBLP:conf/icml/RealMSSSTLK17,DBLP:conf/iclr/ElskenMH19,DBLP:conf/ijcai/SuganumaSN18,Real2019AgingEF,DBLP:conf/iclr/LiuSVFK18,DBLP:conf/iccv/XieY17}。 从结构优化的角度来说，一般是将模型结构看做遗传算法中种群的个体，使用轮盘赌或锦标赛等抽取方式，对种群中的结构进行取样作为亲本，之后通过亲本模型的突变产生新的模型结构，最终对这些新的模型结构进行适应度评估。根据模型结构在校验集上的性能确定是否将其加入种群。
-%----------------------------------------------
-\begin{figure}[htp]
-\centering
-\input{./Chapter15/Figures/figure-structure-search-based-on-evolutionary-algorithm}
-\caption{基于进化算法的结构搜索}
-\label{fig:15-32}
-\end{figure}
-%-------------------------------------------
 \vspace{0.5em}
-\item 	强化学习：近些年随着强化学习在各领域中的广泛应用，研究人员逐渐将该方法引入到神经网络的结构学习中。例如，将网络结构的设计看做是一种序列生成任务，使用字符序列对网络结构进行表述，通过使用强化学习训练的循环神经网络对该序列（目标任务网络结构）进行预测，从而为目标任务生成高效的网络结构\upcite{DBLP:conf/iclr/ZophL17}。基于强化学习的结构搜索方法过程如图\ref{fig:15-33}所示，其中智能体可以看做是一个用于生成模型结构的生成模型，该模型将产生智能体认为的最适用于当前任务的模型结构，强化学习中的动作在这里指的是由智能体产生一个模型结构，而环境对应着当前任务。当环境获得模型结构后，环境将输出当前任务下该模型的输出以及对输出结果的评价，二者分别对应强化学习中的状态和奖励，接下来这两个信息将反馈给智能体，让结构生成器更好地了解该状态下生成的模型结果，进而对结构生成的模式进行调整，然后生成更优的模型结构。对于基于强化学习的结构搜索策略来说，不同研究工作的差异主要集中在如何表示生成网络这个过程，以及如何对结构生成器进行优化\upcite{DBLP:conf/iclr/ZophL17,DBLP:conf/cvpr/ZophVSL18,DBLP:conf/iclr/BakerGNR17,DBLP:conf/cvpr/ZhongYWSL18}。{\red{（下图转录时，主体改成智能体）}}
+\item 	强化学习：例如，将网络结构的设计看做是一种序列生成任务，使用字符序列对网络结构进行表述，通过使用强化学习训练的循环神经网络对该序列（目标任务网络结构）进行预测，从而为目标任务生成高效的网络结构\upcite{DBLP:conf/iclr/ZophL17}。基于强化学习的结构搜索方法过程如图\ref{fig:15-33}所示，其中智能体可以看做是一个用于生成模型结构的生成模型，该模型将产生智能体认为的最适用于当前任务的模型结构，强化学习中的动作在这里指的是由智能体产生一个模型结构，而环境对应着当前任务。当环境获得模型结构后，环境将输出当前任务下该模型的输出以及对输出结果的评价，二者分别对应强化学习中的状态和奖励，接下来这两个信息将反馈给智能体，让结构生成器更好地了解该状态下生成的模型结果，进而对结构生成的模式进行调整，然后生成更优的模型结构。对于基于强化学习的结构搜索策略来说，不同研究工作的差异主要集中在如何表示生成网络这个过程，以及如何对结构生成器进行优化\upcite{DBLP:conf/iclr/ZophL17,DBLP:conf/cvpr/ZophVSL18,DBLP:conf/iclr/BakerGNR17,DBLP:conf/cvpr/ZhongYWSL18}。{\red{（下图转录时，主体改成智能体）}}
 %----------------------------------------------
 \begin{figure}[htp]
@@ -1253,7 +1246,7 @@ a(\mathbi{x}) &=& \funp{P}(\cdot|\mathbi{x})
 \vspace{0.5em}
 \item 现有参数的继承及复用：另一类方法希望从训练过程的角度出发，在现有的模型参数基础上，继续优化中间过程产生的模型结构，快速达到收敛状态后进行性能评估\upcite{DBLP:conf/icml/RealMSSSTLK17,DBLP:conf/iclr/ElskenMH19,DBLP:conf/icml/CaiYZHY18,DBLP:conf/aaai/CaiCZYW18,DBLP:conf/iclr/ElskenMH18}。这种方式无需从头训练中间结构，通过“热启动”的方式对模型参数进行优化，大幅减少性能评估过程的时间消耗。此外对于前文提到的基于梯度的结构搜索方法，由于将众多候选模型结构建模在同一个超网络中，因此在完成超网络的参数优化时，其子模型的模型参数也得到了优化，通过这种共享参数的方式也能够快速对网络结构的性能进行评估\upcite{DBLP:conf/icml/PhamGZLD18,DBLP:conf/iclr/XieZLL19,DBLP:conf/iclr/LiuSY19,DBLP:conf/iclr/CaiZH19,DBLP:conf/nips/SaxenaV16,DBLP:conf/icml/BenderKZVL18}。
 \vspace{0.5em}
-\item 模型性能的预测：从加速性能评估过程的角度来看，模型性能预测也是一个具有潜力的方法。这种方式使用少量训练过程中的性能变化曲线来预估模型是否具有潜力，从而快速终止低性能模型的训练过程，节约更多训练时间\upcite{DBLP:conf/ijcai/DomhanSH15,DBLP:conf/iclr/KleinFSH17,DBLP:conf/iclr/BakerGRN18}。除了根据性能变化曲线预测模型性能之外，也有研究人员根据局部结构的性能预测整体结构性能，这种方式也能更快速地了解结构搜索过程中中间结构的表示能力\upcite{DBLP:conf/eccv/LiuZNSHLFYHM18}。
+\item 模型性能的预测：从加速性能评估过程的角度来看，模型性能预测也是一个具有潜力的方法。这种方式使用训练过程中的性能变化曲线来预估模型是否具有潜力，从而快速终止低性能模型的训练过程，节约更多训练时间\upcite{DBLP:conf/ijcai/DomhanSH15,DBLP:conf/iclr/KleinFSH17,DBLP:conf/iclr/BakerGRN18}。除了根据性能变化曲线预测模型性能之外，也有研究人员根据局部结构的性能预测整体结构性能，这种方式也能更快速地了解结构搜索过程中中间结构的表示能力\upcite{DBLP:conf/eccv/LiuZNSHLFYHM18}。
 \vspace{0.5em}
 \end{itemize}
@@ -1263,7 +1256,7 @@ a(\mathbi{x}) &=& \funp{P}(\cdot|\mathbi{x})
 \subsection{机器翻译任务下的结构搜索}
-\parinterval 目前来说，网络结构搜索方法在包括图像、自然语言处理等领域中方兴未艾。对于自然语言处理的任务来说，网络结构搜索方法更多是在语言建模、命名实体识别等简单任务上进行的尝试\upcite{DBLP:conf/acl/LiHZXJXZLL20,DBLP:conf/emnlp/JiangHXZZ19}。其中，大多数工作是在基于循环神经网络的模型结构上进行探索，相较目前在机器翻译领域中广泛使用的Transformer模型结构来说，它们在性能上并没有体现出绝对优势。此外，由于机器翻译任务的复杂性，针对基于Transformer的机器翻译模型的结构搜索方法会更少一些。不过仍有部分工作在机器翻译任务上取得了很好的表现。例如，在WMT19机器翻译比赛中，神经网络结构优化方法在多个任务上取得了很好的成绩\upcite{DBLP:conf/nips/LuoTQCL18,DBLP:conf/wmt/XiaTTGHCFGLLWWZ19}。对于结构搜索在机器翻译领域的应用目前主要包括两个方面，分别是对模型性能的改进以及模型效率的优化：
+\parinterval 对于自然语言处理的任务来说，网络结构搜索方法更多是在语言建模、命名实体识别等简单任务上进行的尝试\upcite{DBLP:conf/acl/LiHZXJXZLL20,DBLP:conf/emnlp/JiangHXZZ19}。其中，大多数工作是在基于循环神经网络的模型结构上进行探索，相较目前在机器翻译领域中广泛使用的Transformer模型结构来说，它们在性能上并没有体现出绝对优势。此外，由于机器翻译任务的复杂性，针对基于Transformer的机器翻译模型的结构搜索方法会更少一些。不过仍有部分工作在机器翻译任务上取得了很好的表现。例如，在WMT19机器翻译比赛中，神经网络结构优化方法在多个任务上取得了很好的成绩\upcite{DBLP:conf/nips/LuoTQCL18,DBLP:conf/wmt/XiaTTGHCFGLLWWZ19}。对于结构搜索在机器翻译领域的应用目前主要包括两个方面，分别是对模型性能的改进以及模型效率的优化：
 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -1286,21 +1279,13 @@ a(\mathbi{x}) &=& \funp{P}(\cdot|\mathbi{x})
 \end{figure}
 %-------------------------------------------
-\noindent 此外，还有方法将为深层神经网络找到更合适的激活函数作为搜索的目标\upcite{DBLP:conf/iclr/RamachandranZL18}，通过基于强化学习的搜索策略对激活函数空间进行探索，找到了若干新的激活函数，之后通过对这些激活函数在包括图像分类、机器翻译等任务上进行实验，确定了Swish激活函数在深层神经网络上的有效性，函数公式如下式所示，函数曲线如图\ref{fig:15-36}所示。
+\noindent 此外，还有方法将为深层神经网络找到更合适的激活函数作为搜索的目标\upcite{DBLP:conf/iclr/RamachandranZL18}，通过基于强化学习的搜索策略对激活函数空间进行探索，找到了若干新的激活函数，之后通过对这些激活函数在包括图像分类、机器翻译等任务上进行实验。例如，Swish激活函数就是一种被找到的新的激活函数，如下：
 \begin{eqnarray}
 f(x) &=& x \cdot \delta(\beta x) \\
 \delta(z) &=& {(1 + \exp{(-z)})}^{-1}
 \label{eq:15-60}
 \end{eqnarray}
-%----------------------------------------------
-\begin{figure}[htp]
-\centering
-\input{./Chapter15/Figures/figure-swish-function-image}
-\caption{Swish函数图像}
-\label{fig:15-36}
-\end{figure}
-%-------------------------------------------
 \noindent 相比传统人工设计的激活函数ReLU而言，Swish函数在多个机器翻译的测试集上具有更优的性能表现，同时使用该函数不要求对原本的模型结构进行更多修改，非常容易实现。
@@ -1331,23 +1316,14 @@ f(x) &=& x \cdot \delta(\beta x) \\
 \begin{itemize}
 \vspace{0.5em}
-\item 面向特定设备的模型结构优化：随着终端设备算力日益增强，在小设备上直接进行机器翻译的需求也日益增大。虽然简单地削减Transformer模型的超参数能够让翻译模型在低算力设备上运行，不过研究人员仍希望得到更适用于当前设备的翻译模型。因此一些研究人员开始尝试使用结构搜索方法改良Transformer模型，一些研究人员尝试在结构优化的过程中将设备的算力作为一个约束，为不同硬件设备（如CPU、GPU等设备）发现更加有效的结构\upcite{DBLP:conf/acl/WangWLCZGH20}。例如可以将搜索空间中各种基于Transformer结构的变体建模在同一个超网络中，通过权重共享的方式进行训练。使用设备算力约束子模型，并通过进化算法对子模型进行搜索，搜索到适用于目标设备的模型结构，整个过程如图\ref{fig:15-38}所示。该方法搜索到的模型能够在保证模型性能不变前提下获得较大的效率提升。
+\item 面向特定设备的模型结构优化：随着终端设备算力日益增强，在小设备上直接进行机器翻译的需求也日益增大。虽然简单地削减Transformer模型的超参数能够让翻译模型在低算力设备上运行，不过研究人员仍希望得到更适用于当前设备的翻译模型。因此一些研究人员开始尝试使用结构搜索方法改良Transformer模型，例如，可以在结构优化的过程中将设备的算力作为一个约束，为不同硬件设备（如CPU、GPU 等设备）发现更加有效的结构\upcite{DBLP:conf/acl/WangWLCZGH20}。具体来说，可以将搜索空间中各种基于Transformer结构的变体建模在同一个超网络中，通过权重共享的方式进行训练。使用设备算力约束子模型，并通过进化算法对子模型进行搜索，搜索到适用于目标设备的模型结构。该方法搜索到的模型能够在保证模型性能不变前提下获得较大的效率提升。
-%----------------------------------------------
-\begin{figure}[htp]
-\centering
-\input{./Chapter15/Figures/figure-model-structure-optimization-framework-for-specific-equipment}
-\caption{面向特定设备的模型结构优化框架}
-\label{fig:15-38}
-\end{figure}
-%-------------------------------------------
 \vspace{0.5em}
-\item 模型压缩：此外，在不考虑设备算力的情况下，也有一些研究人员通过结构搜索方法对基于Transformer的预训练模型进行压缩。例如，将Transformer模型拆分为若干小组件，然后通过基于采样的结构搜索方法对压缩后的模型结构进行搜索，尝试找到最优且高效的推断模型\upcite{DBLP:journals/corr/abs-2008-06808}。类似的，也有研究者在基于BERT的预训练模型上通过结构搜索方法进行模型压缩，通过基于梯度的结构搜索方法，针对不同的下游任务将BERT模型压缩为小模型\upcite{DBLP:conf/ijcai/ChenLQWLDDHLZ20}。
+\item 模型压缩：此外，在不考虑设备算力的情况下，也可以通过结构搜索方法对基于Transformer的预训练模型进行压缩。例如，将Transformer模型拆分为若干小组件，然后通过基于采样的结构搜索方法对压缩后的模型结构进行搜索，尝试找到最优且高效的推断模型\upcite{DBLP:journals/corr/abs-2008-06808}。类似的，也可以在基于BERT的预训练模型上通过结构搜索方法进行模型压缩，通过基于梯度的结构搜索方法，针对不同的下游任务将BERT模型压缩为小模型\upcite{DBLP:conf/ijcai/ChenLQWLDDHLZ20}。
 \vspace{0.5em}
 \end{itemize}
-\parinterval 虽然由于算力等条件的限制，导致目前很多网络结构搜索方法并没有直接在机器翻译任务中进行实验，但是这些方法并没有被限制在特定任务上。例如，可微分结构搜索方法被成功的用于学习更好的循环单元结构，这类方法完全可以应用在机器翻译任务上，不过大部分工作并没有在这个任务上进行尝试。此外，受到自然语言处理领域预训练模型的启发，一些研究人员也表示网络结构预搜索可能是一个极具潜力的方向，也有研究人员尝试在大规模语言模型上进行结构搜索\upcite{DBLP:conf/acl/LiHZXJXZLL20}，然后将搜索到的模型结构应用于更多的自然语言处理任务中，这种方式有效提升了模型结构的可复用性。同时，相较于在特定任务下受限的数据集合中所得到的信息，从大规模单语数据中能获取到更加充分的信息，因此能够更好地指导模型结构的设计。此外，对于机器翻译任务而言，结构的预搜索同样是一个值得关注的研究方向。
+\parinterval 虽然由于算力等条件的限制，导致目前很多网络结构搜索方法并没有直接在机器翻译任务中进行实验，但是这些方法并没有被限制在特定任务上。例如，可微分结构搜索方法被成功的用于学习更好的循环单元结构，这类方法完全可以应用在机器翻译任务上，不过大部分工作并没有在这个任务上进行尝试。此外，受到自然语言处理领域预训练模型的启发，一些研究人员也表示网络结构预搜索可能是一个极具潜力的方向，并尝试在大规模语言模型上进行结构搜索\upcite{DBLP:conf/acl/LiHZXJXZLL20}，然后将搜索到的模型结构应用于更多的自然语言处理任务中，这种方式有效提升了模型结构的可复用性。同时，相较于在特定任务下受限的数据集合中所得到的信息，从大规模单语数据中能获取到更加充分的信息，因此能够更好地指导模型结构的设计。此外，对于机器翻译任务而言，结构的预搜索同样是一个值得关注的研究方向。
 %----------------------------------------------------------------------------------------
 %    NEW SECTION