谷歌Fluid重塑认知,AI文生图领域的革新发现

文章编号:16394 更新时间:2024-10-23 分类:技术教程 阅读次数:

资讯内容

标题:谷歌DeepMind联手麻省理工学院推出创新型Fluid模型,开创文生图技术新纪元

IT之家10月23日消息,科技媒体TheDeCoder在昨日(10月22日)的一篇博文中,揭示了谷歌DeepMind团队与麻省理工学院(MIT)合作推出的全新Fluid模型。
该模型在规模达到105亿参数时,取得了文生图领域的最佳效果,特别是在自回归模型领域具有显著的突破。
此次创新性的技术成果引起了行业内外的广泛关注。

一、文生图技术背景及行业现状

文生图技术,即通过将文本描述转化为对应的图像,是近年来人工智能领域的一个研究热点。
在实现这一技术的过程中,主要存在两种模型:自回归模型(Autoregressive Models)和扩散模型(Diffusion Models)。

自回归模型是一种逐步生成图像的方式,它按照固定的顺序逐步生成图像的每个像素或区域。
这种模型在生成过程中具有较强的可控性,但往往难以捕捉图像的全局信息,且在生成复杂图像时性能有限。

扩散模型则通过逐步“扩散”的方式,从初始的随机噪声图像开始,逐步生成最终的图像。
这种模型在生成图像的质量上具有较高的表现,但在生成过程中的可控性和稳定性方面存在挑战。

二、谷歌DeepMind与MIT的Fluid模型创新

针对以上问题,谷歌DeepMind团队和MIT通过深入研究,推出了全新的Fluid模型。
该模型在设计和实现过程中,采用了两个关键的设计因素:使用连续tokens(非离散tokens)和采用随机生成顺序(非固定顺序)。

1. 连续tokens的应用

传统的自回归模型中,通常使用离散tokens为每个图像区域分配一个来自有限词汇的代码,这会导致信息丢失。 谷歌Fluid重塑认知,AI文生图领域的革新发现
而Fluid模型采用连续tokens,能够更精确地存储图像信息,减少信息丢失。
这使得模型能够更好地重建图像,提高生成图像的质量。

2. 随机生成顺序的采用

大多数自回归模型以固定顺序生成图像,这限制了模型在理解整体图像结构时的表现。
而Fluid模型采用随机生成顺序,让模型能够在每一步预测任意位置的多个像素。
这种创新的设计使得Fluid模型在理解图像的全局信息时表现更为出色。

三、Fluid模型的效果及对比

Fluid模型的推出,引起了文生图领域的震动。
当规模扩大到105亿参数时,Fluid模型在重要基准测试中超越了其他模型,如StableDiffusion3扩散模型和谷歌此前的Parti自回归模型。

与现有的Parti模型相比,Fluid显示出显著的改进。
拥有200亿参数的Parti在MS-COCO上达到了7.23的FID分数。
而仅有3.69亿参数的小型Fluid模型却达到了相同的分数。
这一成果证明了Fluid模型在文生图技术领域的优越性。

四、总结

谷歌DeepMind团队与麻省理工学院的合作推出的Fluid模型,为文生图技术开启了新的纪元。
通过采用连续tokens和随机生成顺序两个关键设计因素,Fluid模型显著提高了自回归模型的性能和可扩展性
在未来的研究中,我们期待看到Fluid模型在更多领域的应用,以及更多创新性的技术成果的出现。

标签: 谷歌AI

本文地址: https://www.gosl.cn/jsjcwz/5187831125c0f38cf48e.html

上一篇:长城汽车巴基斯坦KD工厂,迈入两周年喜庆时刻...
下一篇:揭示工厂建设进展与双班制度的实践...

发表评论