Command Palette

Search for a command to run...

AI 论文周报丨从头蛋白质设计/首个开源 Agent 方案/HunyuanOCR/Olmo 3 语言模型……一键速览

Featured Image

多模态大语言模型(MLLM)在实现类人交互方面潜力巨大,但其发展正面临一个关键挑战:缺乏一个面向以人为中心场景的细粒度评估框架,该框架需能同时衡量模型对复杂人类意图的理解能力和提供富有同情心、上下文感知反馈的能力。

基于此,来自西安交通大学的研究团队联合蚂蚁集团提出了 HumanSense,这是一个旨在评估 MLLMs 以人为中心的感知和交互能力的综合基准,特别关注对扩展多模态上下文的深度理解以及合理反馈的制定。结果表明,MLLMs 在以人为中心的场景中存在显著改进空间,尤其是在面向高级交互的任务中。研究人员还设计了一种多阶段、模态渐进的强化学习方法,形成了  HumanSense-Omni-Reasoning,显著提升了在高级理解和交互任务上的性能。

论文链接https://go.hyper.ai/xYM02

最新 AI 论文https://go.hyper.ai/hzChC

为了让更多用户了解学术界在人工智能领域的最新动态,HyperAI 超神经官网(hyper.ai)现已上线「最新论文」板块,每天都会更新 AI 前沿研究论文。以下是我们为大家推荐的 5 篇热门 AI 论文,一起来速览本周 AI 前沿成果吧 ⬇️

本周论文推荐

1.JAM-2

题目:JAM-2: Fully computational design of drug-like antibodies with high success rates

本文提出了 JAM-2,这是一种通用的从头蛋白质设计系统,首次实现了具有类药物亲和力和可开发性的 VHH-Fc 抗体及全长单克隆抗体(mAb)的高效设计,同时在前所未有的靶点和表位广度下,达到了双位数的成功率。在 16 个未见过的靶点中,JAM-2 成功获得了全部靶点的结合分子,平均成功率达 39%(VHH-Fc)和 18%(mAb)。

论文链接:https://go.hyper.ai/3Mfna

JAM-2 通过药物样亲和力设计出针对未见过靶标的抗体,并具有双位数结合率

2.Olmo 3

本文推出了 Olmo 3,这是一个在 7B 和 32B 参数规模下处于业界领先水平的完全开源语言模型系列。 Olmo 3 的模型构建旨在实现长上下文推理、函数调用、编程、指令遵循、通用对话以及知识召回等能力。此次发布包含完整的模型流水线(model flow),即该模型系列从构建到部署的全生命周期,涵盖所有训练阶段、检查点(checkpoint)、数据点(datapoint)以及依赖项。

论文链接:https://go.hyper.ai/HgvWV

模型工作流程图

3.Lumine

题目:Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

本文提出 Lumine,这是首个开源的通用智能体开发方案,能够实现在复杂三维开放世界环境中实时执行长达数小时的复杂任务。该模型采用类人类交互范式,通过视觉-语言模型,以端到端的方式统一感知、推理与行动。它以每秒 5 帧的频率处理原始像素输入,生成每秒 30 帧的精确键盘鼠标操作,并仅在必要时动态调用推理模块。

论文链接:https://go.hyper.ai/6qg4A

模型概述

4.HumanSense

题目:HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs

本文提出了 HumanSense——一个全面的基准测试体系,旨在评估 MLLM 在人本感知与交互方面的能力,尤其聚焦于对长时多模态上下文的深度理解以及合理反馈的生成。我们的评估结果表明,当前领先的 MLLM 在面向高级交互任务时仍存在显著提升空间。本文还设计了一种多阶段、模态渐进式的强化学习方法,构建出 HumanSense-Omni-Reasoning 模型,显著提升了模型在高层理解与交互任务中的表现。

论文链接:https://go.hyper.ai/xYM02

HumanSense 按层次结构设计

5.HunyuanOCR Technical Report

本文提出 HunyuanOCR,一个面向 OCR 任务的商用级、开源且轻量级(10 亿参数)视觉-语言模型(VLM)。该模型架构由原生视觉 Transformer(ViT)与轻量级大语言模型(LLM)通过 MLP 适配器连接而成。 HunyuanOCR 展现出卓越的性能,超越了现有商业 API 、传统处理流程以及参数量更大的模型(如 Qwen3-VL-4B)。

论文链接:https://go.hyper.ai/KxstF

模型架构图

以上就是本周论文推荐的全部内容,更多 AI 前沿研究论文,详见 hyper.ai 官网「最新论文」板块。

同时也欢迎研究团队向我们投稿高质量成果及论文,有意向者可添加神经星星微信(微信号:Hyperai01)。

下周再见!

AI 论文周报丨从头蛋白质设计/首个开源 Agent 方案/HunyuanOCR/Olmo 3 语言模型……一键速览 | 资讯 | HyperAI超神经