HyperAI超神经

4 个月前

DeepPHY：面向物理推理的智能体视觉语言模型基准测试

查看论文详情查看代码

Xinrun Xu Pi Bu Ye Wang Börje F. Karlsson Ziming Wang Tengtao Song Qi Zhu Jun Song Zhiming Ding Bo Zheng

DeepPHY：面向物理推理的智能体视觉语言模型基准测试

摘要

尽管视觉语言模型（VLMs）展现出强大的感知能力与令人印象深刻的视觉推理能力，但在复杂动态环境中仍难以关注细节并进行精确的动作规划，导致性能表现欠佳。现实世界中的任务通常需要复杂的交互行为、高级的空间推理能力、长期规划以及持续的策略优化，往往还要求模型理解目标场景中的物理规律。然而，在真实场景中评估这些能力通常成本过高。为弥合这一差距，我们提出了DeepPHY——一种新型基准测试框架，旨在通过一系列具有挑战性的模拟环境，系统性地评估VLMs对基本物理原理的理解与推理能力。DeepPHY整合了多个难度等级各异的物理推理环境，并引入了细粒度的评估指标。我们的评估结果显示，即使是最先进的VLMs，也难以将描述性的物理知识转化为精确且具有预测性的控制行为。

代码仓库

XinrunXu/DeepPHY

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI超神经

4 个月前

DeepPHY：面向物理推理的智能体视觉语言模型基准测试

查看论文详情查看代码

Xinrun Xu Pi Bu Ye Wang Börje F. Karlsson Ziming Wang Tengtao Song Qi Zhu Jun Song Zhiming Ding Bo Zheng

DeepPHY：面向物理推理的智能体视觉语言模型基准测试

摘要

尽管视觉语言模型（VLMs）展现出强大的感知能力与令人印象深刻的视觉推理能力，但在复杂动态环境中仍难以关注细节并进行精确的动作规划，导致性能表现欠佳。现实世界中的任务通常需要复杂的交互行为、高级的空间推理能力、长期规划以及持续的策略优化，往往还要求模型理解目标场景中的物理规律。然而，在真实场景中评估这些能力通常成本过高。为弥合这一差距，我们提出了DeepPHY——一种新型基准测试框架，旨在通过一系列具有挑战性的模拟环境，系统性地评估VLMs对基本物理原理的理解与推理能力。DeepPHY整合了多个难度等级各异的物理推理环境，并引入了细粒度的评估指标。我们的评估结果显示，即使是最先进的VLMs，也难以将描述性的物理知识转化为精确且具有预测性的控制行为。

代码仓库

XinrunXu/DeepPHY

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

DeepPHY：面向物理推理的智能体视觉语言模型基准测试 | 论文 | HyperAI超神经