揭秘上下文记忆技术在LLM领域的独特应用

文章编号：22686 更新时间：2024-11-15 分类：最新资讯 阅读次数：次

机器之心原创机器之心编辑部导语：在近期的一场技术革新中，国产视频模型Vidu成功吸引了众多关注的目光。

这一次，它不仅仅是一个视频生成工具，更是一次人工智能技术的飞跃。

本文将为您深入解析Vidu 1.5版本的多项创新特性及其背后的技术架构，以及其在通往通用人工智能（AGI）道路上的潜在影响。

一、Vidu 1.5：视频模型的全新突破Vidu作为由清华系大模型公司生数科技自主研发的视频模型，自7月正式上线以来持续进化。

最新推出的Vidu 1.5版本在功能层面取得了重大突破，特别是实现了“多主体一致性”的突破，能将多张参考图中的多个主体自然地融合到一个视频中。

这一创新大大提高了视频模型的可玩性，并且实现了以下三大惊喜：1. 控制多主体：Vidu 1.5能够同时控制多个主体，在生成视频中实现多个角色或物体的自然交互。

2. 拥有记忆能力：Vidu 1.5能够对“上下文特征”进行关联，使得视频生成过程中能够参考并利用之前的信息。

3. 告别LoRA：与之前需要特定场景微调不同，Vidu 1.5采用了通用架构，支持泛化任务，无需额外的微调即可适应多种场景。

二、背后的技术架构：通用模型的魅力Vidu 1.5能够实现如此强大的功能，背后离不开其独特的技术架构。

与语言模型LLM的设计哲学相似，Vidu也采用了统一问题形式、统一架构、压缩即智能的设计思路。

通过用一个通用化的模型来处理所有任务，避免复杂多样的专用任务模块。

这样的设计思路使得Vidu能够适应多种场景，并实现多输入之间的关联理解。

三、智能涌现：视觉模型的崭新篇章Vidu 1.5的推出让我们看到了智能涌现的可能性。

通过不断扩展上下文，实现更多更复杂任务的直接生成，这与chatgpt的智能涌现时刻有着异曲同工之妙。

视觉模型的智能涌现意味着该领域的发展已经取得了重要进展，并且为通往通用人工智能（AGI）打下了坚实的基础。

四、视觉数据与Scaling Law：为AGI提供新动力与文本数据相比，视觉数据的获取更为容易，丰富的视觉数据为Scaling Law提供了源源不断的“燃料”。

Vidu 1.5的推出证明了视觉模型在架构上的突破，这使得Scaling Law在视觉模型中焕发新的活力。

这一突破也许能打消一部分人对于AGI发展受阻的疑虑，为通往AGI的道路提供新的动力。

五、多模态大模型的未来发展面向AGI的终局，多模态大模型的发展至关重要。

虽然目前存在诸多挑战和差异，但随着技术的不断进步，多模态大模型领域将取得更多的突破和创新。

Vidu 1.5的诞生只是开始，未来将有更多的技术创新和应用场景涌现。

六、结语总体来说，Vidu 1.5版本的推出标志着视频模型领域的重大进步。

它不仅在功能层面取得了突破，更在技术架构和智能涌现方面展现了巨大的潜力。

这一技术的发展将为通往通用人工智能（AGI）的道路提供新的动力和方向。

目前，Vidu 1.5版本已正式上线，感兴趣的同学可以前往www.vidu.studio进行体验。

机器之心编辑部期待这一技术能够继续进步，为我们带来更多惊喜和可能性。

标签：模态、视觉模型、上下文记忆、

上一篇：一鸿蒙智行四界展现新科技魅力...
下一篇：多个中国团队在EMNLP24上表现出色，斩获最佳...