\parinterval 对于第$ i $个样本$({\mathbi{x}}_i,\widetilde{\mathbi{y}}_i)$,把损失函数$ L(\widetilde{\mathbi{y}}_i,{\mathbi{y}}_i)$看作是参数$\bm\theta$的函数\footnote{为了简化描述,可以用$
\parinterval 对于第$ i $个样本$({\mathbi{x}}_i,\widetilde{\mathbi{y}}_i)$,把损失函数$ L(\widetilde{\mathbi{y}}_i,{\mathbi{y}}_i)$看作是参数$\bm\theta$的函数\footnote{为了简化描述,可以用$