Command Palette
Search for a command to run...
PixelReasoner-RL:像素级视觉推理模型
一、教程简介

PixelReasoner-RL-v1 是由 TIGER AI Lab 于 2025 年 5 月发布的突破性视觉语言模型,相关论文成果为「Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning」。
该项目基于 Qwen2.5-VL 架构,通过创新的好奇心驱动强化学习训练方法,突破了传统视觉语言模型仅依赖文本推理的局限。 PixelReasoner 能够在像素空间中直接进行推理,支持缩放、选择帧等视觉操作,显著提升了对图像细节、空间关系和视频内容的理解能力。
核心特性:
- 像素级推理:模型可以直接在图像像素空间进行分析和操作
- 全局与局部理解结合:既能把握图像整体内容,又能放大聚焦特定区域
- 好奇心驱动训练:引入好奇心奖励机制,激励模型主动探索像素级操作
- 增强推理能力:对复杂视觉任务表现出色,包括微小物体识别、细微空间关系理解等
本教程使用 Gradio 部署 PixelReasoner-RL-v1 作为演示,算力资源采用「单卡 RTX 5090」。
二、效果展示


PixelReasoner-RL-v1 在多项视觉推理任务上表现优异:
- 图像理解:准确识别图像内容、物体关系和场景细节
- 细节捕捉:能够发现图像中的微小物体、嵌入文字等精细信息
- 视频分析:通过选择关键帧理解视频内容和动作序列
- 空间推理:精确理解物体的空间位置、相对关系
三、运行步骤
1. 启动容器
启动容器后点击 API 地址即可进入 Web 界面
首次启动约需 2-3 分钟,请耐心等待。部署完成后,点击「API 地址」直接访问 Gradio 界面。

2. 开始使用

引用信息
本项目引用信息如下:
@article{pixelreasoner2025,
title={Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning},
author={Su, Alex and Wang, Haozhe and Ren, Weiming and Lin, Fangzhen and Chen, Wenhu},
journal={arXiv preprint arXiv:2505.15966},
year={2025}
}