Command Palette

Search for a command to run...

4 个月前

DeepPHY:面向物理推理的智能体视觉语言模型基准测试

Xinrun Xu Pi Bu Ye Wang Börje F. Karlsson Ziming Wang Tengtao Song Qi Zhu Jun Song Zhiming Ding Bo Zheng

DeepPHY:面向物理推理的智能体视觉语言模型基准测试

摘要

尽管视觉语言模型(VLMs)展现出强大的感知能力与令人印象深刻的视觉推理能力,但在复杂动态环境中仍难以关注细节并进行精确的动作规划,导致性能表现欠佳。现实世界中的任务通常需要复杂的交互行为、高级的空间推理能力、长期规划以及持续的策略优化,往往还要求模型理解目标场景中的物理规律。然而,在真实场景中评估这些能力通常成本过高。为弥合这一差距,我们提出了DeepPHY——一种新型基准测试框架,旨在通过一系列具有挑战性的模拟环境,系统性地评估VLMs对基本物理原理的理解与推理能力。DeepPHY整合了多个难度等级各异的物理推理环境,并引入了细粒度的评估指标。我们的评估结果显示,即使是最先进的VLMs,也难以将描述性的物理知识转化为精确且具有预测性的控制行为。

代码仓库

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DeepPHY:面向物理推理的智能体视觉语言模型基准测试 | 论文 | HyperAI超神经