深度分类器训练动力学的新见解

发布时间:2023-03-09 18:39:39 栏目:生活

    导读 麻省理工学院和布朗大学的研究人员的一项新研究描述了深度分类器训练过程中出现的几种属性,深度分类器是一种通常用于图像分类、语音识别和

    麻省理工学院和布朗大学的研究人员的一项新研究描述了深度分类器训练过程中出现的几种属性,深度分类器是一种通常用于图像分类、语音识别和自然语言处理等分类任务的人工神经网络。

    今天发表在《研究》杂志上的论文“用平方损失训练的深度分类器的动力学:归一化、低秩、神经崩溃和泛化边界”是首次从理论上探索训练具有平方损失的深度分类器的动力学,以及秩最小化、神经崩溃以及神经元激活与层权重之间的二元性等属性如何交织在一起。

    在这项研究中,作者专注于两种类型的深度分类器:全连接的深度网络和卷积神经网络(CNN)。

    之前的一项研究已经检查了在训练的最后阶段在大型神经网络中发展的结构特性。该研究专注于网络的最后一层,发现经过训练以适应训练数据集的深度网络最终将达到一种称为“神经崩溃”的状态。当神经崩溃发生时,网络将特定类的多个示例(例如猫的图像)映射到该类的单个模板。理想情况下,每个类的模板应尽可能彼此相距,以便网络能够准确地对新示例进行分类。

    麻省理工学院大脑、思想和机器中心的一个小组研究了网络实现神经崩溃的条件。具有随机梯度下降 (SGD)、权重衰减正则化 (WD) 和权重归一化 (WN) 三个要素的深度网络如果经过训练以拟合其训练数据,将显示神经崩溃。麻省理工学院的研究小组采用了一种理论方法——与早期研究的经验方法相比——证明神经崩溃是由于使用SGD、WD和WN的平方损失最小化而产生的。

    合著者和麻省理工学院麦戈文研究所博士后Akshay Rangamani说:“我们的分析表明,神经崩溃源于高度表达的深度神经网络的平方损失最小化。它还强调了权重衰减正则化和随机梯度下降在推动神经崩溃解决方案中发挥的关键作用。

    权重衰减是一种正则化技术,它通过降低权重的大小来防止网络过度拟合训练数据。权重归一化缩放网络的权重矩阵,以便它们具有相似的比例。低秩是指矩阵的一个属性,其中它具有少量的非零奇异值。泛化边界为网络准确预测在训练期间未见过的新示例的能力提供了保证。

    作者发现,预测低秩偏差的相同理论观察结果也预测了权重矩阵和网络输出中存在固有的SGD噪声。这种噪声不是由SGD算法的随机性产生的,而是由秩最小化和数据拟合之间的有趣的动态权衡产生的,它提供了一个固有的噪声源,类似于混沌状态下动态系统中发生的情况。这种类似随机的搜索可能有利于泛化,因为它可以防止过度拟合。

    “有趣的是,这一结果验证了经典的泛化理论,表明传统边界是有意义的。它还为稀疏网络(如CNN)的许多任务相对于密集网络的卓越性能提供了理论解释,“合著者和麻省理工学院麦戈文研究所博士后Tomer Galanti评论道。事实上,作者证明了具有局部内核的CNN的新基于范数的泛化边界,即在其权重矩阵中具有稀疏连接的网络。

    在这种情况下,泛化可能比密集连接的网络好几个数量级。这一结果验证了经典的泛化理论,表明它的边界是有意义的,并且与最近一些对过去泛化方法表示怀疑的论文背道而驰。它还为稀疏网络(如CNN)相对于密集网络的优越性能提供了理论解释。到目前为止,CNN而不是密集网络代表了深度网络的成功故事这一事实几乎完全被机器学习理论所忽略。相反,这里提出的理论表明,这是为什么深度网络如此有效的一个重要见解。

    “这项研究提供了首批涵盖深度网络中优化,泛化和近似的理论分析之一,并为训练过程中出现的属性提供了新的见解,”共同作者Tomaso Poggio说,他是麻省理工学院脑与认知科学系的Eugene McDermott教授,也是大脑,思想和机器中心的联合主任。“我们的研究结果有可能促进我们对深度学习为什么如此有效的理解。

免责声明:本文由用户上传,如有侵权请联系删除!