Command Palette

Search for a command to run...

1 个月前

Game-TARS:用于可扩展通用多模态Game Agent的预训练基础模型

Game-TARS:用于可扩展通用多模态Game Agent的预训练基础模型

摘要

我们提出 Game-TARS,这是一种基于统一且可扩展的动作空间的通用游戏智能体,其动作输入与人类对原生键盘鼠标操作的对齐方式保持一致。与依赖API或GUI的方法不同,该范式支持在异构领域(包括操作系统、网页应用及仿真游戏)中进行大规模持续预训练。Game-TARS 在超过5000亿个标记(tokens)的多样化轨迹与多模态数据上进行预训练。关键技术包括一种衰减式持续学习损失机制,用于缓解因果混淆问题,以及一种高效的“稀疏思维”(Sparse-Thinking)策略,可在推理深度与计算成本之间实现良好平衡。实验结果表明,Game-TARS 在开放世界《我的世界》(Minecraft)任务上的成功率约为此前最先进模型的两倍,在未见过的网页3D游戏中表现出接近新手人类的泛化能力,并在FPS基准测试中超越了 GPT-5、Gemini-2.5-Pro 和 Claude-4-Sonnet。训练时间和推理时间的扩展实验进一步验证了统一动作空间在跨游戏和多模态数据场景下仍能持续带来性能提升。我们的研究结果表明,结合简单且可扩展的动作表示与大规模预训练,为构建具备广泛计算机使用能力的通用智能体提供了一条极具前景的发展路径。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Game-TARS:用于可扩展通用多模态Game Agent的预训练基础模型 | 论文 | HyperAI超神经