随着「2024火山引擎AI创新巡展」在深圳的开展,字节跳动正式进军AI视频生成领域,发布了多个面向不同细分领域的多模态大模型,其中包括豆包视频生成模型、豆包音乐及同声传译模型等。
这些模型共同构建起了火山引擎的「豆包全模态大模型家族」。
本文将对这些新发布的模型以及已有的模型升级进行详细报道。
在火山引擎的这次展会上,豆包全模态大模型家族迎来了两名新成员:PixelDance(像素跳动)和Seaweed(海草)。
其中,PixelDance已经凭借高动态视频生成能力在AI社区刷了一波存在感。
现在的豆包视频生成模型已经完成了迭代升级,能力大幅提升。
实测下来,PixelDance和Seaweed这两个豆包视频生成模型的效果确实超乎了我们的想象。
在此之前,大多数视频生成模型的结果都像是PPT,场景变化不大,而变化较大的场景又常会出现不一致问题。
豆包视频生成模型不仅能生成连贯一致的视频,还支持多种不同的风格以及各种常见设备的高宽比,适用于各种平台和场景。
在技术上,豆包视频生成模型基于DiT(扩散Transformer)架构,拥有全新的扩散模型训练方法,攻克了多镜头切换的一致性难题。
具体实例中,豆包视频生成模型支持更复杂的提示词和多动作多主体交互,能将复杂场景栩栩如生地呈现出来,不再局限于单一动作或简单指令。
该模型在镜头切换时能有效保持镜头一致性,可在10秒内讲述一个跌宕起伏的微电影。
强大动态与酷炫运镜方面,生成的视频可同时存在主体的大动态与镜头的炫酷切换,支持变焦、环绕、平摇、缩放、目标跟随等超多镜头语言。
至于多样化的风格支持和支持多种宽高比,则能让创意不受设备限制,在任何平台上都能绽放光彩。
除了视频生成,字节跳动也强势进军音频生成领域,发布了豆包音乐模型和同声传译模型。
火山引擎近日发布的豆包音乐模型和同声传译模型在各自的难点上都取得了质的突破。
其中,豆包音乐模型不仅能根据文字生成音乐,还能使用图片作为灵感来源,为用户创作符合场景的音乐。
该模型还精通10多种音乐风格和情感色彩,让用户可以随心所欲地探索各种音乐风格。
而豆包同声传译模型则注重准确度和实时性,采用端到端的方式实现同声传译,避免了分阶段处理的错误传递和积累问题,降低了延迟。
该模型还具备音色克隆能力,可生成与说话人音色一致的外语声音。
除了新发布的视觉和音频模态模型外,火山引擎还对已有的通用语言模型、文生图模型、语音模型进行了一波大升级。
其中,豆包通用语言模型的综合能力提升了25%,在各个维度上都达到了国内领先水平;文生图模型的推理效率和性能获得了显著提升,并优化了物理感知能力和想象力;语音合成模型则通过混音来组合形成不同的音色,打破了音色数量的限制。
火山引擎还开发了全新的上下文缓存技术,可以降低多轮对话的延迟和改善用户体验,同时降低企业使用大模型的成本。
在这场令人目眩神迷的AI盛宴中,火山引擎展示了其在视频、音频、文本等不同模态上的卓越能力。
其全模态大模型战略正在逐步展现其全力以赴AI的决心。
从文本到图像,从视频到音频,再到跨模态的融合应用,火山引擎正在构建一个全方位、多维度的AI生态系统。
这个生态系统不仅能为开发者和企业用户提供丰富的工具和接口,更为未来的智能应用描绘了一幅令人期待的前景。
同时其效率的提升和成本降低的措施也使得大模型服务真正能够被用户接受并使用。
火山引擎正在让AI变得更加普及和实用。
本文地址: https://www.gosl.cn/jsjcwz/c100b35033d8c9a0ec45.html
上一篇:深度探讨医疗领域语言技术的最新进展...