Command Palette
Search for a command to run...
Subin Kim Sangwoo Mo Mamshad Nayeem Rizve Yiran Xu Difan Liu Jinwoo Shin Tobias Hinz

摘要
在文本到视觉生成任务中,实现用户意图与生成图像之间精确对齐仍是核心挑战,因为单次生成往往难以达到预期效果。以往的方法主要通过扩大视觉生成过程(例如增加采样步数或种子数量)来应对这一问题,但这种方法很快会遭遇性能瓶颈。这一局限性源于提示(prompt)作为引导生成的关键因素被固定不变。为解决该问题,我们提出一种推理阶段可扩展的提示重设计框架——PRIS(Prompt Redesign for Inference-time Scaling),该框架在推理过程中根据扩展的视觉生成结果自适应地调整提示内容。PRIS的核心思想是:分析已生成的视觉内容,识别其中反复出现的失败模式,并据此对原始提示进行重构,随后使用优化后的提示重新生成图像。为实现对提示修改的精准反馈,我们引入了一种新型验证机制——元素级事实修正(element-level factual correction),该机制能够在细粒度层面评估提示属性与生成结果之间的对齐程度,相比传统的整体性评估方法,能够提供更准确且更具可解释性的判断。在文本到图像与文本到视频多个基准测试上的大量实验表明,所提方法具有显著有效性,尤其在VBench 2.0基准上实现了15%的性能提升。这些结果表明,在推理阶段同时扩展提示与视觉生成能力,是充分挖掘扩展规律(scaling laws)潜力的关键。相关可视化结果可访问项目主页查看:https://subin-kim-cv.github.io/PRIS。