随着LLM(大型语言模型)的广泛应用和持续迭代更新,图灵奖得主Yann LeCun对LLM提出了一系列独特的观点。
在他看来,当前的LLM存在诸多局限性,无法理解世界,特别是在逻辑理解、物理世界认知、持续性记忆、推理和规划等方面。
相反,他更看重所谓的“世界模型”(World Model)。
近日,LeCun团队在世界模型方面取得了重要研究成果。
他们发现,基于预训练的视觉特征训练的世界模型可以实现零样本规划。
这意味着该模型无需依赖专家演示、奖励建模或预先学习的逆向模型。
这一突破性的研究为机器理解和适应现实世界提供了新的可能性。
为了构建这个世界模型,LeCun团队提出了一种名为DINO-WM的新方法。
该方法基于离线的轨迹数据集构建与任务无关的世界模型。
DINO-WM基于世界的紧凑嵌入建模世界的动态,而不是使用原始的观察本身。
对于嵌入,他们使用的是来自DINOv2模型的预训练图块特征,能提供良好的空间和以目标为中心的表征先验。
在获得这些视觉嵌入后,DINO-WM使用ViT架构来预测未来嵌入。
完成模型训练后,在解决任务时,规划会被构建成视觉目标的达成,即给定当前观察达成未来的预期目标。
由于DINO-WM的预测质量很高,因此可以简单地使用模型预测控制和推理时间优化来达成期望的目标,而无需在测试期间使用任何额外信息。
为了验证DINO-WM的有效性,该团队进行了大量实验。
实验遵循基于视觉的控制任务框架,即将环境建模为部分可观察的马尔可夫决策过程(POMDP)。
他们从预先收集的离线数据集中学习与任务无关的世界模型,然后在测试时间使用这些世界模型来执行视觉推理。
实验结果表明,DINO-WM在多种环境中表现出强大的性能,特别是在需要丰富接触信息和物体动态的任务中。
该团队还将DINO-WM与其他世界模型进行了比较。
实验表明,DINO-WM在某些环境中表现得比其他模型更好。
特别是在泛化到新环境配置方面,DINO-WM显示出强大的泛化能力。
与生成式视频模型的比较也显示出DINO-WM的独特优势。
生成式视频模型虽然能生成逼真的图像,但在物理合理性方面存在困难。
而DINO-WM则能更好地理解和模拟现实世界中的物理动态。
LeCun团队表示:“DINO-WM朝着填补任务无关型世界建模以及推理和控制之间的空白迈出了一步,为现实世界应用中的通用世界模型提供了光明的前景。
”随着研究的深入进行,世界模型可能成为未来人工智能系统的重要组成部分,使机器更好地适应和理解现实世界。
这不仅有助于解决当前LLM存在的局限性问题,也为未来的人工智能技术开辟了新的发展方向。
Yann LeCun及其团队通过DINO-WM世界模型的研究,为我们提供了一种全新的视角来理解现实世界。
这一突破性的研究为我们提供了强有力的证据,表明世界模型可能成为未来人工智能发展的关键。
随着技术的不断进步,我们有望看到更加智能、更加适应现实世界的机器的出现。
本文地址: https://www.gosl.cn/hlzxwz/a45a35beefb1f3207887.html
上一篇:AI技术革新引领者,开创智能时代新纪元...