Command Palette
Search for a command to run...
Zhenxiong Tan Zeqing Wang Xingyi Yang Songhua Liu Xinchao Wang

摘要
我们提出了视觉桥接变换器(Vision Bridge Transformer, ViBT),这是一种面向条件生成的大规模布朗桥模型实例。与传统扩散模型将噪声逐步转化为数据的机制不同,桥接模型(Bridge Models)直接建模输入与输出之间的动态轨迹,从而构建出一种高效的数据到数据的转换范式。通过将模型规模扩展至200亿(20B)和13亿(1.3B)参数,我们验证了其在图像与视频翻译任务中的卓越性能。为支持如此大规模的模型,我们采用Transformer架构,并提出了一种方差稳定化的速度匹配目标函数,以实现更稳健的训练。上述技术进步共同彰显了桥接模型在基于指令的图像编辑及复杂视频翻译任务中的强大潜力。