在科技与创新的浪潮中,视频模型领域又迎来了一场翻天覆地的变革。
这一次,来自中国的视频模型Vidu在全球舞台上大放异彩,凭借其出色的多主体一致性功能,引发了业界的广泛关注与热议。
Vidu作为视频模型领域的佼佼者,全球最早对标Sora发布的视频模型。
其最新推出的杀手级功能——多主体一致性,让人们对视频模型的认识再次被刷新。
这个功能支持上传1~3张参照图,实现对多主体的控制。
通过这个功能,Vidu能够提取主体、服装、场景等元素,将三者无缝融合,输出一段高质量的视频内容。
多主体一致性是Vidu此次新功能的亮点所在。
这个功能允许用户上传多个主体图片,实现多主体的一致性控制。
无论是人物、物体还是场景,只要通过简单的操作,就可以生成一段连续的视频故事。
海外用户对此功能赞不绝口,称其为“改变了游戏规则”。
一致性控制是视频模型领域的老大难问题。
在生成结果时,模型往往难以确保主体的外观、特征、风格保持一致。
这也是此前Runway、LumaAI等全球高手难以攻克的难题。
而Vidu的成功,无疑为解决这一问题提供了新的思路。
Vidu在解决一致性控制问题上布局已久。
早在7月底全球上线时,Vidu就推出了角色一致性功能,解决人脸一致性问题。
而在短短的两个月内,Vidu再次升级,不仅实现了主体一致性功能,还允许用户上传任意主体的图片,从人脸拓展到主体一致。
如今,Vidu已经实现对单主体的多角度一致,也能实现多主体交互控制、主体与场景融合控制。
1. 单主体的一致性视频生成:通过上传特定主体的不同角度或不同景别的图片,实现对单主体的100%精准控制。无论是复杂主体的精准控制,还是人物面部特征和动态表情的自然一致,Vidu都能轻松实现。
2. 多主体生成:通过上传多个主体的图片,实现多主体的一致性控制。用户可以将不同主体进行组合,创建出丰富的视频内容。
3. 人物、道具、场景的融合:用户可以上传主体、客体和环境的图片,创建定制角色身穿特定服装、在定制空间内自由动作的场景。
六、技术架构的创新与优势
生数科技研发团队对Vidu的技术架构进行了升级,采用了统一化架构方案。这一方案类似于LLM的设计哲学,通过压缩获取智能,实现了单个网络统一建模变长的输入和输出。这种技术架构使得Vidu具备了强大的泛化能力,无需专门的数据采集、数据标注、微调训练环节。Vidu还具备了上下文记忆能力,能够更好地处理复杂的指令和问题。这种能力使得Vidu在生成视频的过程中能够对上下文信息进行记忆管理,生成更加连贯且有逻辑的视频内容。这种上下文学习能力与大型语言模型的上下文学习能力具有很高的相似性通过上下文学习能够快速适应新任务的需求这一特性大大提高了生成视频的质量和精度并减少了出错率使用户的使用体验得到了极大提升这一点更加验证了AGI版图里的一块重要拼图正在加速进化中的事实也预示着未来视频模型领域将会迎来更加广阔的发展空间和创新机遇值得一提的是这次升级不仅是对产品功能的简单迭代更是对视频模型训练范式的一次深度变革标志着视频模型从预训练+微调的路径向通用化的统一架构的转变任务的泛化能力以及上下文的记忆理解能力正在逐步被纳入衡量一个视频模型先进与否的重要指标这一变革对于整个视频模型领域来说具有里程碑式的意义它将推动视频模型技术的不断进步并催生更多创新的应用场景和商业模式综上所述Vidu的成功不仅在于其强大的功能还在于其在技术架构上的创新这使得它在视频模型领域独树一帜引领着行业的发展方向同时我们也期待着未来更多的科技创新能够像Vidu一样为人类的生活带来更多的便利和惊喜
本文地址: https://www.gosl.cn/zxzxwz/14ab6641e1be255f388d.html
上一篇:Token化革新引领时代风潮...