MIT与英伟达深度联手,HART工具开启图像生成技术崭新篇章
近日,外媒报道了一则令人瞩目的科技成果:美国麻省理工学院与英伟达公司(NVIDIA)的研究人员成功研发出一种创新方法,巧妙融合了两种常见图像生成方式的优势,打造出一款名为 HART(混合自回归转换器的缩写)的混合图像生成工具。
HART:图像生成新利器
HART 运用自回归模型,能够迅速勾勒出图像的整体轮廓,随后借助小型扩散模型对图像细节进行精细优化。它生成的图像质量,与当前顶尖扩散模型所生成的不相上下,甚至更胜一筹,而生成速度却提升了九倍之多。更为突出的是,HART 在图像生成过程中,消耗的计算资源比典型扩散模型要少,这使得它可以在普通商用笔记本电脑或智能手机上本地运行。用户只需在 HART 界面输入自然语言提示,就能轻松获得生成的图像。其应用前景十分广阔,比如助力研究人员训练机器人执行复杂现实任务,帮助设计师为视频游戏构建更具吸引力的场景。
创新融合,突破传统局限
像 Stable Diffusion 和 DALL - E 这类流行的扩散模型,虽能生成细节丰富的图像,但生成过程较为繁琐。它们通过迭代,对每个像素预测随机噪声并减去,这一 “去噪” 过程可能需重复 30 步甚至更多,导致整体速度缓慢且计算成本高昂,不过多次修正机会保证了图像的高质量。自回归模型在文本预测中广泛应用,它通过依次预测图像块来生成图像,顺序预测过程比扩散模型快很多,但其采用自动编码器压缩原始图像像素为离散标记,在重建图像时,因压缩导致的信息丢失可能引发错误,且无法回溯修正。
HART 创新性地采用混合方法,先用自回归模型预测压缩的离散图像标记,再用小型扩散模型预测残差标记,以此弥补信息损失。由于扩散模型只需处理自回归模型完成后的剩余细节,仅需八步就能完成任务,而标准扩散模型通常需要 30 步以上。额外引入的扩散模型,在几乎不增加计算量的情况下,保留了自回归模型的速度优势,还极大提升了生成复杂图像细节的能力。
在研发 HART 时,研究人员克服了高效整合扩散模型以增强自回归模型的难题。他们发现,在自回归过程早期集成扩散模型会导致误差累积,所以最终设计仅在最后一步应用扩散模型预测剩余标记,显著提高了图像生成质量。研究人员结合了 7 亿参数的自回归转换器模型和 3700 万参数的轻量级扩散模型,生成图像质量与 20 亿参数扩散模型相当,速度却快九倍,计算量还少约 31%。
未来可期
HART 因采用自回归模型承担大量工作,更易于与新型统一视觉 - 语言生成式模型集成。未来,人们或许能与这类模型互动,比如让其展示组装家具的中间步骤。展望后续,研究人员计划基于 HART 架构打造视觉 - 语言模型,并凭借其扩展性和多模态通用性,尝试将其应用于视频生成和音频预测任务,持续拓展其应用边界。
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。