HyperAI超神经

AI 论文周报丨从头蛋白质设计/首个开源 Agent 方案/HunyuanOCR/Olmo 3 语言模型……一键速览

多模态大语言模型（MLLM）在实现类人交互方面潜力巨大，但其发展正面临一个关键挑战：缺乏一个面向以人为中心场景的细粒度评估框架，该框架需能同时衡量模型对复杂人类意图的理解能力和提供富有同情心、上下文感知反馈的能力。

基于此，来自西安交通大学的研究团队联合蚂蚁集团提出了 HumanSense，这是一个旨在评估 MLLMs 以人为中心的感知和交互能力的综合基准，特别关注对扩展多模态上下文的深度理解以及合理反馈的制定。结果表明，MLLMs 在以人为中心的场景中存在显著改进空间，尤其是在面向高级交互的任务中。研究人员还设计了一种多阶段、模态渐进的强化学习方法，形成了 HumanSense-Omni-Reasoning，显著提升了在高级理解和交互任务上的性能。

论文链接：https://go.hyper.ai/xYM02

最新 AI 论文：https://go.hyper.ai/hzChC

为了让更多用户了解学术界在人工智能领域的最新动态，HyperAI 超神经官网（hyper.ai）现已上线「最新论文」板块，每天都会更新 AI 前沿研究论文。以下是我们为大家推荐的 5 篇热门 AI 论文，一起来速览本周 AI 前沿成果吧 ⬇️

本周论文推荐

1.JAM-2

题目：JAM-2: Fully computational design of drug-like antibodies with high success rates

本文提出了 JAM-2，这是一种通用的从头蛋白质设计系统，首次实现了具有类药物亲和力和可开发性的 VHH-Fc 抗体及全长单克隆抗体（mAb）的高效设计，同时在前所未有的靶点和表位广度下，达到了双位数的成功率。在 16 个未见过的靶点中，JAM-2 成功获得了全部靶点的结合分子，平均成功率达 39%（VHH-Fc）和 18%（mAb）。

论文链接：https://go.hyper.ai/3Mfna

2.Olmo 3

本文推出了 Olmo 3，这是一个在 7B 和 32B 参数规模下处于业界领先水平的完全开源语言模型系列。 Olmo 3 的模型构建旨在实现长上下文推理、函数调用、编程、指令遵循、通用对话以及知识召回等能力。此次发布包含完整的模型流水线（model flow），即该模型系列从构建到部署的全生命周期，涵盖所有训练阶段、检查点（checkpoint）、数据点（datapoint）以及依赖项。

论文链接：https://go.hyper.ai/HgvWV

3.Lumine

题目：Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

本文提出 Lumine，这是首个开源的通用智能体开发方案，能够实现在复杂三维开放世界环境中实时执行长达数小时的复杂任务。该模型采用类人类交互范式，通过视觉-语言模型，以端到端的方式统一感知、推理与行动。它以每秒 5 帧的频率处理原始像素输入，生成每秒 30 帧的精确键盘鼠标操作，并仅在必要时动态调用推理模块。

论文链接：https://go.hyper.ai/6qg4A

4.HumanSense

题目：HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs

本文提出了 HumanSense——一个全面的基准测试体系，旨在评估 MLLM 在人本感知与交互方面的能力，尤其聚焦于对长时多模态上下文的深度理解以及合理反馈的生成。我们的评估结果表明，当前领先的 MLLM 在面向高级交互任务时仍存在显著提升空间。本文还设计了一种多阶段、模态渐进式的强化学习方法，构建出 HumanSense-Omni-Reasoning 模型，显著提升了模型在高层理解与交互任务中的表现。

论文链接：https://go.hyper.ai/xYM02

5.HunyuanOCR Technical Report

本文提出 HunyuanOCR，一个面向 OCR 任务的商用级、开源且轻量级（10 亿参数）视觉-语言模型（VLM）。该模型架构由原生视觉 Transformer（ViT）与轻量级大语言模型（LLM）通过 MLP 适配器连接而成。 HunyuanOCR 展现出卓越的性能，超越了现有商业 API 、传统处理流程以及参数量更大的模型（如 Qwen3-VL-4B）。

论文链接：https://go.hyper.ai/KxstF

以上就是本周论文推荐的全部内容，更多 AI 前沿研究论文，详见 hyper.ai 官网「最新论文」板块。

同时也欢迎研究团队向我们投稿高质量成果及论文，有意向者可添加神经星星微信（微信号：Hyperai01）。

下周再见！

AI 论文周报丨从头蛋白质设计/首个开源 Agent 方案/HunyuanOCR/Olmo 3 语言模型……一键速览

论文链接：https://go.hyper.ai/xYM02

最新 AI 论文：https://go.hyper.ai/hzChC

本周论文推荐

1.JAM-2

题目：JAM-2: Fully computational design of drug-like antibodies with high success rates

论文链接：https://go.hyper.ai/3Mfna

2.Olmo 3

论文链接：https://go.hyper.ai/HgvWV

3.Lumine

题目：Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

论文链接：https://go.hyper.ai/6qg4A

4.HumanSense

题目：HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs

论文链接：https://go.hyper.ai/xYM02

5.HunyuanOCR Technical Report

论文链接：https://go.hyper.ai/KxstF

以上就是本周论文推荐的全部内容，更多 AI 前沿研究论文，详见 hyper.ai 官网「最新论文」板块。

同时也欢迎研究团队向我们投稿高质量成果及论文，有意向者可添加神经星星微信（微信号：Hyperai01）。

下周再见！

论文链接：https://go.hyper.ai/xYM02

最新 AI 论文：https://go.hyper.ai/hzChC

本周论文推荐

1.JAM-2

题目：JAM-2: Fully computational design of drug-like antibodies with high success rates

论文链接：https://go.hyper.ai/3Mfna

2.Olmo 3

论文链接：https://go.hyper.ai/HgvWV

3.Lumine

题目：Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

论文链接：https://go.hyper.ai/6qg4A

4.HumanSense

题目：HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs

论文链接：https://go.hyper.ai/xYM02

5.HunyuanOCR Technical Report

论文链接：https://go.hyper.ai/KxstF

以上就是本周论文推荐的全部内容，更多 AI 前沿研究论文，详见 hyper.ai 官网「最新论文」板块。

同时也欢迎研究团队向我们投稿高质量成果及论文，有意向者可添加神经星星微信（微信号：Hyperai01）。

下周再见！

Command Palette

AI 论文周报丨从头蛋白质设计/首个开源 Agent 方案/HunyuanOCR/Olmo 3 语言模型……一键速览

Command Palette

AI 论文周报丨从头蛋白质设计/首个开源 Agent 方案/HunyuanOCR/Olmo 3 语言模型……一键速览

相关报道

AI 论文周报丨通用 Agent 开发/目标检测/开源物理推理模型……一文了解 AI 前沿动态

AI 论文周报丨 OCR 前沿技术解读，DeepSeek/腾讯/百度同台竞技，从字符识别到结构化文档解析

百度出招！OCR 模型 PaddleOCR-VL 打破管道与端到端方法局限；面部情感识别数据集 Facial Emotion Recognition，赋能 AI 读懂表情

AI 论文周报丨英伟达开源模型/OpenAI 基准测试/Agent 系统/长上下文推理……AI 动态一文速递

TRELLIS.2：采用 O-Voxel 技术，高效生成复杂 3D 几何与材质；Patient Churn Prediction 数据集：帮助识别有流失风险的患者

AI 论文周报丨 Transformer 前沿研究专题导读，解析结构稀疏化、记忆机制与推理组织的最新进展

输入输出双侧革新！腾讯混元推出 HunyuanWorld-Mirror 刷新 3D 重建 SOTA； 解码 Netflix 内容全貌！Netflix 电影电视目录数据集助力洞察娱乐趋势

三维视觉新突破：字节 Seed 推出 DA3，实现任意视角重建视觉空间；7w+真实工业环境数据！CHIP 填补 6D 姿态估计工业数据空白

实时目标检测 SOTA！YOLOv13 拓展全局感知能力；入选 NeurIPS 2025，UltraHR-100K 解锁超高分辨率文生图

Command Palette

AI 论文周报丨从头蛋白质设计/首个开源 Agent 方案/HunyuanOCR/Olmo 3 语言模型……一键速览

相关报道

AI 论文周报丨通用 Agent 开发/目标检测/开源物理推理模型……一文了解 AI 前沿动态

AI 论文周报丨 OCR 前沿技术解读，DeepSeek/腾讯/百度同台竞技，从字符识别到结构化文档解析

百度出招！OCR 模型 PaddleOCR-VL 打破管道与端到端方法局限；面部情感识别数据集 Facial Emotion Recognition，赋能 AI 读懂表情

AI 论文周报丨英伟达开源模型/OpenAI 基准测试/Agent 系统/长上下文推理……AI 动态一文速递

TRELLIS.2：采用 O-Voxel 技术，高效生成复杂 3D 几何与材质；Patient Churn Prediction 数据集：帮助识别有流失风险的患者

AI 论文周报丨 Transformer 前沿研究专题导读，解析结构稀疏化、记忆机制与推理组织的最新进展

输入输出双侧革新！腾讯混元推出 HunyuanWorld-Mirror 刷新 3D 重建 SOTA； 解码 Netflix 内容全貌！Netflix 电影电视目录数据集助力洞察娱乐趋势

三维视觉新突破：字节 Seed 推出 DA3，实现任意视角重建视觉空间；7w+真实工业环境数据！CHIP 填补 6D 姿态估计工业数据空白

实时目标检测 SOTA！YOLOv13 拓展全局感知能力；入选 NeurIPS 2025，UltraHR-100K 解锁超高分辨率文生图

相关报道

AI 论文周报丨通用 Agent 开发/目标检测/开源物理推理模型……一文了解 AI 前沿动态

AI 论文周报丨 OCR 前沿技术解读，DeepSeek/腾讯/百度同台竞技，从字符识别到结构化文档解析

百度出招！OCR 模型 PaddleOCR-VL 打破管道与端到端方法局限；面部情感识别数据集 Facial Emotion Recognition，赋能 AI 读懂表情

AI 论文周报丨英伟达开源模型/OpenAI 基准测试/Agent 系统/长上下文推理……AI 动态一文速递

TRELLIS.2：采用 O-Voxel 技术，高效生成复杂 3D 几何与材质；Patient Churn Prediction 数据集：帮助识别有流失风险的患者

AI 论文周报丨 Transformer 前沿研究专题导读，解析结构稀疏化、记忆机制与推理组织的最新进展

输入输出双侧革新！腾讯混元推出 HunyuanWorld-Mirror 刷新 3D 重建 SOTA； 解码 Netflix 内容全貌！Netflix 电影电视目录数据集助力洞察娱乐趋势

三维视觉新突破：字节 Seed 推出 DA3，实现任意视角重建视觉空间；7w+真实工业环境数据！CHIP 填补 6D 姿态估计工业数据空白

实时目标检测 SOTA！YOLOv13 拓展全局感知能力；入选 NeurIPS 2025，UltraHR-100K 解锁超高分辨率文生图

相关报道

AI 论文周报丨通用 Agent 开发/目标检测/开源物理推理模型……一文了解 AI 前沿动态

AI 论文周报丨 OCR 前沿技术解读，DeepSeek/腾讯/百度同台竞技，从字符识别到结构化文档解析

百度出招！OCR 模型 PaddleOCR-VL 打破管道与端到端方法局限；面部情感识别数据集 Facial Emotion Recognition，赋能 AI 读懂表情

AI 论文周报丨英伟达开源模型/OpenAI 基准测试/Agent 系统/长上下文推理……AI 动态一文速递

TRELLIS.2：采用 O-Voxel 技术，高效生成复杂 3D 几何与材质；Patient Churn Prediction 数据集：帮助识别有流失风险的患者

AI 论文周报丨 Transformer 前沿研究专题导读，解析结构稀疏化、记忆机制与推理组织的最新进展

输入输出双侧革新！腾讯混元推出 HunyuanWorld-Mirror 刷新 3D 重建 SOTA； 解码 Netflix 内容全貌！Netflix 电影电视目录数据集助力洞察娱乐趋势

三维视觉新突破：字节 Seed 推出 DA3，实现任意视角重建视觉空间；7w+真实工业环境数据！CHIP 填补 6D 姿态估计工业数据空白

实时目标检测 SOTA！YOLOv13 拓展全局感知能力；入选 NeurIPS 2025，UltraHR-100K 解锁超高分辨率文生图

输入输出双侧革新！腾讯混元推出 HunyuanWorld-Mirror 刷新 3D 重建 SOTA；解码 Netflix 内容全貌！Netflix 电影电视目录数据集助力洞察娱乐趋势

输入输出双侧革新！腾讯混元推出 HunyuanWorld-Mirror 刷新 3D 重建 SOTA；解码 Netflix 内容全貌！Netflix 电影电视目录数据集助力洞察娱乐趋势

输入输出双侧革新！腾讯混元推出 HunyuanWorld-Mirror 刷新 3D 重建 SOTA；解码 Netflix 内容全貌！Netflix 电影电视目录数据集助力洞察娱乐趋势

输入输出双侧革新！腾讯混元推出 HunyuanWorld-Mirror 刷新 3D 重建 SOTA；解码 Netflix 内容全貌！Netflix 电影电视目录数据集助力洞察娱乐趋势