\parinterval 在神经网络的有监督学习中,训练模型的数据是由输入和正确答案所组成的样本构成的。假设有多个输入样本$\{{\mathbi{x}}_1,{\mathbi{x}}_2,\dots,{\mathbi{x}}_n\}$,每一个${\mathbi{x}}_i $都对应一个正确答案$\widetilde{\mathbi{y}}_i $,$\{{\mathbi{x}}_i,\widetilde{\mathbi{y}}_i\}$就构成一个优化神经网络的{\small\sffamily\bfseries{训练数据集合}}\index{训练数据集合}(Training Data Set)\index{Training Data Set}。对于一个神经网络模型${\mathbi{y}}=f({\mathbi{x}})$,每个${\mathbi{x}}_i $也会有一个输出${\mathbi{y}}_i $。如果可以度量正确答案$\widetilde{\mathbi{y}}_i $和神经网络输出${\mathbi{y}}_i$之间的偏差,进而通过调整网络参数减小这种偏差,就可以得到更好的模型。
\parinterval 在神经网络的有监督学习中,训练模型的数据是由输入和正确答案所组成的样本构成的。假设有多个输入样本$\{{\mathbi{x}}^{[1]}\dots,{\mathbi{x}}^{[n]}\}$,每一个${\mathbi{x}}^{[i]}$都对应一个正确答案${\mathbi{y}}^{[i]}$,$\{{\mathbi{x}}^{[i]},{\mathbi{y}}^{[i]}\}$就构成一个优化神经网络的{\small\sffamily\bfseries{训练数据集合}}\index{训练数据集合}(Training Data Set)\index{Training Data Set}。对于一个神经网络模型${\mathbi{y}}=f({\mathbi{x}})$,每个${\mathbi{x}}^{[i]}$也会有一个输出${\hat{\mathbi{y}}}^{[i]}$。如果可以度量正确答案${\mathbi{y}}^{[i]}$和神经网络输出${\hat{\mathbi{y}}}^{[i]}$之间的偏差,进而通过调整网络参数减小这种偏差,就可以得到更好的模型。
\parinterval 这里用$ Loss(\widetilde{\mathbi{y}}_i,{\mathbi{y}}_i)$表示网络输出${\mathbi{y}}_i $相对于答案$\widetilde{\mathbi{y}}_i$的损失,简记为$ L $。表\ref{tab:9-3}是几种常见损失函数的定义。需要注意的是,没有一种损失函数可以适用于所有的问题。损失函数的选择取决于许多因素,包括:数据中是否有离群点、模型结构的选择、是否易于找到函数的导数以及预测结果的置信度等。对于相同的神经网络,不同的损失函数会对训练得到的模型产生不同的影响。对于新的问题,如果无法找到已有的、适合于该问题的损失函数,研究人员也可以自定义损失函数。因此设计新的损失函数也是神经网络中有趣的研究方向。
\parinterval 这里用$ Loss({\mathbi{y}}^{[i]},{\hat{\mathbi{y}}}^{[i]})$表示网络输出${\hat{\mathbi{y}}}^{[i]}$相对于答案${\mathbi{y}}^{[i]}$的损失,简记为$ L $。表\ref{tab:9-3}是几种常见损失函数的定义。需要注意的是,没有一种损失函数可以适用于所有的问题。损失函数的选择取决于许多因素,包括:数据中是否有离群点、模型结构的选择、是否易于找到函数的导数以及预测结果的置信度等。对于相同的神经网络,不同的损失函数会对训练得到的模型产生不同的影响。对于新的问题,如果无法找到已有的、适合于该问题的损失函数,研究人员也可以自定义损失函数。因此设计新的损失函数也是神经网络中有趣的研究方向。
\parinterval 对于第$ i $个样本$({\mathbi{x}}_i,\widetilde{\mathbi{y}}_i)$,把损失函数$ L(\widetilde{\mathbi{y}}_i,{\mathbi{y}}_i)$看作是参数$\bm\theta$的函数\footnote{为了简化描述,可以用$
\parinterval 对于第$ i $个样本$({\mathbi{x}}^{[i]},{\mathbi{y}}^{[i]})$,把损失函数$ L({\mathbi{y}}^{[i]},{\hat{\mathbi{y}}}^{[i]})$看作是参数$\bm\theta$的函数\footnote{为了简化描述,可以用$