机器之心原创机器之心编辑部导语:在近期的一场技术革新中,国产视频模型Vidu成功吸引了众多关注的目光。
这一次,它不仅仅是一个视频生成工具,更是一次人工智能技术的飞跃。
本文将为您深入解析Vidu 1.5版本的多项创新特性及其背后的技术架构,以及其在通往通用人工智能(AGI)道路上的潜在影响。
一、Vidu 1.5:视频模型的全新突破Vidu作为由清华系大模型公司生数科技自主研发的视频模型,自7月正式上线以来持续进化。
最新推出的Vidu 1.5版本在功能层面取得了重大突破,特别是实现了“多主体一致性”的突破,能将多张参考图中的多个主体自然地融合到一个视频中。
这一创新大大提高了视频模型的可玩性,并且实现了以下三大惊喜:1. 控制多主体:Vidu 1.5能够同时控制多个主体,在生成视频中实现多个角色或物体的自然交互。
2. 拥有记忆能力:Vidu 1.5能够对“上下文特征”进行关联,使得视频生成过程中能够参考并利用之前的信息。
3. 告别LoRA:与之前需要特定场景微调不同,Vidu 1.5采用了通用架构,支持泛化任务,无需额外的微调即可适应多种场景。
二、背后的技术架构:通用模型的魅力Vidu 1.5能够实现如此强大的功能,背后离不开其独特的技术架构。
与语言模型LLM的设计哲学相似,Vidu也采用了统一问题形式、统一架构、压缩即智能的设计思路。
通过用一个通用化的模型来处理所有任务,避免复杂多样的专用任务模块。
这样的设计思路使得Vidu能够适应多种场景,并实现多输入之间的关联理解。
三、智能涌现:视觉模型的崭新篇章Vidu 1.5的推出让我们看到了智能涌现的可能性。
通过不断扩展上下文,实现更多更复杂任务的直接生成,这与chatgpt的智能涌现时刻有着异曲同工之妙。
视觉模型的智能涌现意味着该领域的发展已经取得了重要进展,并且为通往通用人工智能(AGI)打下了坚实的基础。
四、视觉数据与Scaling Law:为AGI提供新动力与文本数据相比,视觉数据的获取更为容易,丰富的视觉数据为Scaling Law提供了源源不断的“燃料”。
Vidu 1.5的推出证明了视觉模型在架构上的突破,这使得Scaling Law在视觉模型中焕发新的活力。
这一突破也许能打消一部分人对于AGI发展受阻的疑虑,为通往AGI的道路提供新的动力。
五、多模态大模型的未来发展面向AGI的终局,多模态大模型的发展至关重要。
虽然目前存在诸多挑战和差异,但随着技术的不断进步,多模态大模型领域将取得更多的突破和创新。
Vidu 1.5的诞生只是开始,未来将有更多的技术创新和应用场景涌现。
六、结语总体来说,Vidu 1.5版本的推出标志着视频模型领域的重大进步。
它不仅在功能层面取得了突破,更在技术架构和智能涌现方面展现了巨大的潜力。
这一技术的发展将为通往通用人工智能(AGI)的道路提供新的动力和方向。
目前,Vidu 1.5版本已正式上线,感兴趣的同学可以前往www.vidu.studio进行体验。
机器之心编辑部期待这一技术能够继续进步,为我们带来更多惊喜和可能性。
标签: 模态、 视觉模型、 上下文记忆、本文地址: https://www.gosl.cn/zxzxwz/d952946d4acc219413cb.html
上一篇:一鸿蒙智行四界展现新科技魅力...