Command Palette

Search for a command to run...

5 天前

大规模视觉桥接Transformer

Zhenxiong Tan Zeqing Wang Xingyi Yang Songhua Liu Xinchao Wang

大规模视觉桥接Transformer

摘要

我们提出了视觉桥接变换器(Vision Bridge Transformer, ViBT),这是一种面向条件生成的大规模布朗桥模型实例。与传统扩散模型将噪声逐步转化为数据的机制不同,桥接模型(Bridge Models)直接建模输入与输出之间的动态轨迹,从而构建出一种高效的数据到数据的转换范式。通过将模型规模扩展至200亿(20B)和13亿(1.3B)参数,我们验证了其在图像与视频翻译任务中的卓越性能。为支持如此大规模的模型,我们采用Transformer架构,并提出了一种方差稳定化的速度匹配目标函数,以实现更稳健的训练。上述技术进步共同彰显了桥接模型在基于指令的图像编辑及复杂视频翻译任务中的强大潜力。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大规模视觉桥接Transformer | 论文 | HyperAI超神经