近年来,多视图自监督学习(MVSSL)已成为人工智能领域研究的热点。
这种方法首先创建无监督数据的多个转换或视图,然后以类似监督的方式使用这些视图来学习有用的表示。
实现MVSSL的具体方法包括对比学习、聚类、蒸馏/动量和冗余减少等。
在这众多的方法中,最大流形容量表示法(MMCR)表现出媲美甚至超越其他领先MVSSL方法的效果。
近日,来自斯坦福、MIT、纽约大学和Meta-FAIR等机构的研究人员正在通过新的研究重新定义MMCR的可能性。
MMCR是最大流形容量表示法的简称,作为一种自监督学习方法,它不依赖对比、聚类、蒸馏或冗余减少等常规手段。
其核心思想是推动编码器学习输入的表示,使其尽可能充分地利用表示空间。
信息最大化维度对比方法为该观点提供了理论支撑,它鼓励嵌入空间在有限的维度上展现出丰富的细节和尽可能多的信息。
为了更好地理解MMCR,研究人员利用高维概率工具证明了其有效性,并证明了MMCR可以将几何视角与信息论视角联系起来。
MMCR的理论基础源于神经科学中的有效编码假说和人工神经网络的相关理论。
该方法将这一假说从神经科学扩展到了人工神经网络领域,其统计力学表征数据流形的线性可分性。
研究人员将MMCR的几何基础与信息论原理联系起来,探索了MMCR的更深层次机制。
在此基础上,他们将MMCR的应用扩展到了多模态数据,如图像文本对。
MMCR源自有关线性二元分类器性能的经典结果,通过统计力学计算揭示了其理论基础。
为了验证MMCR的有效性,研究人员进行了多项实验。
在多模态数据上,如图像文本对,MMCR表现出优异的性能。
在STL-10数据集上的实验结果显示,MMCR预训练损失具有双下降样行为,验证了理论预测的正确性。
研究人员还发现了计算上的scaling law,可以将预训练损失预测为梯度步长、批量大小、嵌入维度和视图数量的函数。
这些实验结果证明了MMCR在实际应用中的有效性。
考虑OpenAI的对比语言图像预训练模型CLIP的设置,两个不同的网络在图像文本标题对上进行预训练。
从MMCR角度来看,来自不同数据域的X和Y可以视为同一底层对象的两个视图。
因此,最优变换嵌入应映射到同一空间。
研究人员利用对MMCR的改进理解来训练这些最优网络,实验结果表明多模态MMCR在小批量下表现优于CLIP。
这为MMCR在多模态数据领域的应用提供了有力的支持。
本文介绍了最大流形容量表示法(MMCR)的基本概念、理论基础、实践应用和实验结果。
作为一种自监督学习方法,MMCR通过推动编码器学习充分利用表示空间来优化数据表示。
研究人员通过新的研究正在重新定义MMCR的可能性,并将其应用于多模态数据领域。
未来的研究将进一步探索MMCR的更深层次机制,以期在人工智能领域取得更多突破。
本文地址: https://www.gosl.cn/shbkwz/b1d0e22633bb34e0d9d2.html
上一篇:一万物智能演化理论揭示宇宙终极之谜的新视...