Command Palette

Search for a command to run...

5 个月前

FaSTA^*:用于高效多轮图像编辑的快速-慢速刀具路径代理与子程序挖掘

Advait Gupta Rishie Raj Dang Nguyen Tianyi Zhou

FaSTA^*:用于高效多轮图像编辑的快速-慢速刀具路径代理与子程序挖掘

摘要

我们开发了一种成本高效的神经符号代理(neurosymbolic agent),用于解决复杂的多轮图像编辑任务,例如“在图像中检测长凳并将其重新着色为粉红色。同时,移除猫以获得更清晰的视野,并将墙壁重新着色为黄色。”该代理结合了大型语言模型(LLMs)快速的高层次子任务规划与每项子任务中缓慢但精确的工具使用及局部A搜索,以找到一种成本高效的工具路径——即一系列调用AI工具的操作序列。为了节省在相似子任务上进行A搜索的成本,我们通过LLMs对先前成功的工具路径进行归纳推理,持续提取/优化常用子程序,并将其作为新工具在未来的任务中自适应地复用。这种可复用的符号子程序显著降低了在类似图像上执行相同类型子任务时的探索成本,从而形成了一种类似于人类的快慢工具路径代理“FaSTA”:首先由LLMs尝试快速的子任务规划和基于规则的子程序选择,预计可以覆盖大多数任务;而只有在遇到新颖且具有挑战性的子任务时,才会触发缓慢的A搜索。通过与近期的图像编辑方法进行比较,我们证明了FaSTA*不仅在计算效率上显著提高,而且在成功率方面仍能与最先进的基线方法保持竞争力。

代码仓库

tianyi-lab/fastar
官方
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FaSTA^*:用于高效多轮图像编辑的快速-慢速刀具路径代理与子程序挖掘 | 论文 | HyperAI超神经