IT之家10月23日消息,科技媒体TheDeCoder在昨日(10月22日)的一篇博文中,揭示了谷歌DeepMind团队与麻省理工学院(MIT)合作推出的全新Fluid模型。
该模型在规模达到105亿参数时,取得了文生图领域的最佳效果,特别是在自回归模型领域具有显著的突破。
此次创新性的技术成果引起了行业内外的广泛关注。
文生图技术,即通过将文本描述转化为对应的图像,是近年来人工智能领域的一个研究热点。
在实现这一技术的过程中,主要存在两种模型:自回归模型(Autoregressive Models)和扩散模型(Diffusion Models)。
自回归模型是一种逐步生成图像的方式,它按照固定的顺序逐步生成图像的每个像素或区域。
这种模型在生成过程中具有较强的可控性,但往往难以捕捉图像的全局信息,且在生成复杂图像时性能有限。
扩散模型则通过逐步“扩散”的方式,从初始的随机噪声图像开始,逐步生成最终的图像。
这种模型在生成图像的质量上具有较高的表现,但在生成过程中的可控性和稳定性方面存在挑战。
针对以上问题,谷歌DeepMind团队和MIT通过深入研究,推出了全新的Fluid模型。
该模型在设计和实现过程中,采用了两个关键的设计因素:使用连续tokens(非离散tokens)和采用随机生成顺序(非固定顺序)。
在传统的自回归模型中,通常使用离散tokens为每个图像区域分配一个来自有限词汇的代码,这会导致信息丢失。
而Fluid模型采用连续tokens,能够更精确地存储图像信息,减少信息丢失。
这使得模型能够更好地重建图像,提高生成图像的质量。
大多数自回归模型以固定顺序生成图像,这限制了模型在理解整体图像结构时的表现。
而Fluid模型采用随机生成顺序,让模型能够在每一步预测任意位置的多个像素。
这种创新的设计使得Fluid模型在理解图像的全局信息时表现更为出色。
Fluid模型的推出,引起了文生图领域的震动。
当规模扩大到105亿参数时,Fluid模型在重要基准测试中超越了其他模型,如StableDiffusion3扩散模型和谷歌此前的Parti自回归模型。
与现有的Parti模型相比,Fluid显示出显著的改进。
拥有200亿参数的Parti在MS-COCO上达到了7.23的FID分数。
而仅有3.69亿参数的小型Fluid模型却达到了相同的分数。
这一成果证明了Fluid模型在文生图技术领域的优越性。
谷歌DeepMind团队与麻省理工学院的合作推出的Fluid模型,为文生图技术开启了新的纪元。
通过采用连续tokens和随机生成顺序两个关键设计因素,Fluid模型显著提高了自回归模型的性能和可扩展性。
在未来的研究中,我们期待看到Fluid模型在更多领域的应用,以及更多创新性的技术成果的出现。
本文地址: https://www.gosl.cn/jsjcwz/5187831125c0f38cf48e.html
上一篇:长城汽车巴基斯坦KD工厂,迈入两周年喜庆时刻...