谷歌Fluid重塑认知，AI文生图领域的革新发现

文章编号：16394 更新时间：2024-10-23 分类：技术教程 阅读次数：次

资讯内容

标题：谷歌DeepMind联手麻省理工学院推出创新型Fluid模型，开创文生图技术新纪元

IT之家10月23日消息，科技媒体TheDeCoder在昨日（10月22日）的一篇博文中，揭示了谷歌DeepMind团队与麻省理工学院（MIT）合作推出的全新Fluid模型。
该模型在规模达到105亿参数时，取得了文生图领域的最佳效果，特别是在自回归模型领域具有显著的突破。
此次创新性的技术成果引起了行业内外的广泛关注。

一、文生图技术背景及行业现状

文生图技术，即通过将文本描述转化为对应的图像，是近年来人工智能领域的一个研究热点。
在实现这一技术的过程中，主要存在两种模型：自回归模型（Autoregressive Models）和扩散模型（Diffusion Models）。

自回归模型是一种逐步生成图像的方式，它按照固定的顺序逐步生成图像的每个像素或区域。
这种模型在生成过程中具有较强的可控性，但往往难以捕捉图像的全局信息，且在生成复杂图像时性能有限。

扩散模型则通过逐步“扩散”的方式，从初始的随机噪声图像开始，逐步生成最终的图像。
这种模型在生成图像的质量上具有较高的表现，但在生成过程中的可控性和稳定性方面存在挑战。

二、谷歌DeepMind与MIT的Fluid模型创新

针对以上问题，谷歌DeepMind团队和MIT通过深入研究，推出了全新的Fluid模型。
该模型在设计和实现过程中，采用了两个关键的设计因素：使用连续tokens（非离散tokens）和采用随机生成顺序（非固定顺序）。

1. 连续tokens的应用

在传统的自回归模型中，通常使用离散tokens为每个图像区域分配一个来自有限词汇的代码，这会导致信息丢失。谷歌Fluid重塑认知，AI文生图领域的革新发现
而Fluid模型采用连续tokens，能够更精确地存储图像信息，减少信息丢失。
这使得模型能够更好地重建图像，提高生成图像的质量。

2. 随机生成顺序的采用

大多数自回归模型以固定顺序生成图像，这限制了模型在理解整体图像结构时的表现。
而Fluid模型采用随机生成顺序，让模型能够在每一步预测任意位置的多个像素。
这种创新的设计使得Fluid模型在理解图像的全局信息时表现更为出色。

三、Fluid模型的效果及对比

Fluid模型的推出，引起了文生图领域的震动。
当规模扩大到105亿参数时，Fluid模型在重要基准测试中超越了其他模型，如StableDiffusion3扩散模型和谷歌此前的Parti自回归模型。

与现有的Parti模型相比，Fluid显示出显著的改进。
拥有200亿参数的Parti在MS-COCO上达到了7.23的FID分数。
而仅有3.69亿参数的小型Fluid模型却达到了相同的分数。
这一成果证明了Fluid模型在文生图技术领域的优越性。

四、总结

谷歌DeepMind团队与麻省理工学院的合作推出的Fluid模型，为文生图技术开启了新的纪元。
通过采用连续tokens和随机生成顺序两个关键设计因素，Fluid模型显著提高了自回归模型的性能和可扩展性。
在未来的研究中，我们期待看到Fluid模型在更多领域的应用，以及更多创新性的技术成果的出现。

标签：谷歌、 AI、

本文地址： https://www.gosl.cn/jsjcwz/5187831125c0f38cf48e.html

上一篇：长城汽车巴基斯坦KD工厂，迈入两周年喜庆时刻...
下一篇：揭示工厂建设进展与双班制度的实践...