效果追上Sora 字节跳动一口气发布两款视频生成模型

文章编号：1781 更新时间：2024-09-26 分类：技术教程 阅读次数：次

资讯内容

字节跳动推出豆包视频生成大模型：行业前沿的技术革新与商业应用展望

近日，字节跳动在人工智能领域再次展现其技术实力，一口气发布了豆包视频生成大模型——PixelDance和Seaweed两款大模型。
此次发布会场面热烈，人头攒动，体现出业界对这一前沿技术进展的高度关注。
面对企业市场的新一轮挑战，字节跳动试图通过这两款视频生成大模型引领AI创作的新纪元。

一、豆包视频生成大模型的先进表现

从发布会现场展示的视频生成效果来看，豆包视频生成大模型在语义理解能力、多个主体运动的复杂交互画面以及多镜头切换的内容一致性等方面，均表现出色。
例如，一个视频中，特写一个女性的面部，她有些生气并戴上了墨镜，此时一个男性从画面右侧走进来抱住了她。
视频画面不仅精准地呈现了这一复杂指令，还能够按照时序完成连续的动作，两个主体之间也顺畅交互，人物表情更是准确传达了指令所描述的情绪。
这一表现获得了现场观众和业界专家的高度评价。
一位多模态大模型科学家表示，如果演示效果真实，那么豆包视频生成大模型的技术水平已经达到相当高的标准，甚至肯定达到了Sora的水平。

二、视频生成模型的商业化探索与应用场景

字节跳动的火山引擎总裁谭待在发布会上透露，豆包系列大模型的发布逻辑是推出成熟、质量可靠的产品，而非按照固定的时间计划发布。
他强调，大模型的商业应用方向包括电商营销、动画教育、城市文旅、微剧本等企业场景，同时也为专业创作者和艺术家提供创作辅助。
这一方向与快手推出的可灵模型颇为相似，但字节跳动更为务实。
尽管可灵在视频生成模型领域取得了一些成果，但豆包视频生成模型在某些方面如人物动作的处理上已经有了明显的提升。
火山引擎已在多个场景（如剪映、即梦AI等）持续打磨和迭代豆包视频模型，使其深度优化的Transformer结构大幅提升了泛化能力。
基于DiT架构的豆包视频生成模型，更是在视频的大动态与运镜中实现了自由切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。

三、行业反响与未来展望

尽管外界对视频生成模型的能力持乐观态度，但人物动作仍是当下视频生成模型共同面临的挑战。
对此，谭待表示，镜头切换时能够同时保持主体、风格、氛围的一致性是豆包视频生成模型的技术创新所在。
行业观察人士认为，在当前节点上，字节跳动一口气发布两款视频生成模型具有重大意义。
从商业应用的角度来看，它们更侧重于电商营销等对视频内容质量要求相对较低的场景。
尽管目前这些模型在影视制作等领域的应用仍处于探索阶段，但其潜在价值已经引起了行业的高度关注。

四、定价与成本考量

谭待表示，视频模型和语言模型的应用场景不同，定价逻辑也不同。
考虑到新、老体验和迁移成本等因素，大模型的价格已不再是阻碍创新的门槛。
火山引擎披露的数据显示，豆包语言模型的日均tokens使用量增长迅猛，显示出市场对大模型的需求持续增长。
在谭待看来，大模型的应用成本已经得到很好的解决，行业应更加关注模型的性能提升和更大的并发流量支持。

字节跳动的豆包视频生成大模型在技术上取得了显著的进步，商业应用前景也十分广阔。
尽管目前它们还面临一些挑战和局限，但随着技术的不断进步和市场的逐步成熟，这些模型有望在更多领域得到应用和发展。
行业观察人士普遍认为，未来的竞争将更多地集中在模型的性能提升和更大的并发流量支持上。
我们期待这一领域的更多创新和突破。