HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
DataFlow:一种面向以数据为中心的人工智能时代的统一数据准备与工作流自动化框架
LLM
检索增强生成
Hao Liang, Xiaochen Ma, Zhou Liu, et al.
HiStream:通过冗余消除流式传输实现高效高分辨率视频生成
视频生成
扩散模型
Haonan Qiu, Shikun Liu, Zijian Zhou, et al.
TokSuite:衡量分词器选择对语言模型行为的影响
Transformer
基准
Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, et al.
Nemotron 3 Nano:面向智能体推理的开源、高效混合专家Mamba-Transformer模型
Transformer
监督式微调
NVIDIA, Aaron Blakeman, Aaron Grattafiori, et al.
超越记忆:一种多模态序数回归基准以揭示视觉-语言模型中的流行度偏差
多模态
基准
Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, et al.
DreaMontage:任意帧引导的单次视频生成
视频生成
图生视频
Jiawei Liu, Junqiao Li, Jiangfan Deng, et al.
T2AV-Compass:面向文本到音频视频生成的统一评估
统一多模态
文生视频
Zhe Cao, Tao Wang, Jiaming Wang, et al.
TongSIM:一种用于模拟智能机器的通用平台
具身智能
Agent
Zhe Sun, Kunlun Wu, Chuanjian Fu, et al.
Qwen-Image-Layered:通过层分解实现固有可编辑性
扩散模型
图像生成
Shengming Yin, Zekai Zhang, Zecheng Tang, et al.
RoboSafe:通过可执行安全逻辑保障具身Agent的安全
机器人技术
推理
Le Wang, Zonghao Ying, Xiao Yang, et al.
NHS基层医疗中LLM药物安全审查的现实世界评估
自然语言处理
数据集
Oliver Normand, Esther Borsi, Mitch Fruin, et al.
多LLM主题分析结合双重可靠性度量:基于Cohen's Kappa与语义相似性的定性研究验证
LLM
自然语言处理
Nilesh Jain, Seyi Adeyinka, Leor Roseman, et al.
通过闭环世界建模实现视频虚拟人中的主动智能
具身智能
强化学习
Xuanhua He, Tianyu Yang, Ke Cao, et al.
FaithLens:检测与解释忠实性幻觉
检索增强生成
监督式微调
Shuzheng Si, Qingyi Wang, Haozhe Zhao, et al.
SAM Audio:音频中的任意分割
统一多模态
多模态
Bowen Shi, Andros Tjandra, John Hoffman, et al.
Step-DeepResearch 技术报告
Agent
监督式微调
Chen Hu, Haikuo Du, Heng Wang, et al.
SpatialTree:空间能力在MLLMs中的分支发展
多模态
推理
Yuxi Xiao, Longfei Li, Shen Yan, et al.
SemanticGen:语义空间中的视频生成
视频生成
图生视频
Jianhong Bai, Xiaoshi Wu, Xintao Wang, et al.
基于人机协同推理大型语言模型Agent的自动化立体定向放射外科计划
推理
Agent
Humza Nusrat, Luke Francisco, Bing Luo, et al.
LongVideoAgent:基于长视频的多Agent推理
Agent
视觉问答
Runtao Liu, Ziyi Liu, Jiaqi Tang, et al.
GenEnv:LLM Agent 与环境模拟器之间的难度对齐协同进化
Agent
LLM
Jiacheng Guo, Ling Yang, Peter Chen, et al.
WorldWarp:基于异步视频扩散的3D几何传播
扩散模型
3D 模型
Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, et al.
LoGoPlanner:基于定位的度量感知视觉几何导航策略
具身智能
深度估计
Jiaqi Peng, Wenzhe Cai, Yuqiang Yang, et al.
LLM能否评估学生困难?基于能力模拟的师生AI难度对齐在题目难度预测中的应用
LLM
推理
Ming Li, Han Chen, Yunze Xiao, et al.
QuCo-RAG:基于预训练语料库量化不确定性以实现动态检索增强生成
检索增强生成
智能问答
Dehai Min, Kailin Zhang, Tongtong Wu, et al.
棱镜假说:通过统一自编码实现语义与像素表征的融合
多模态表征
统一多模态
Weichen Fan, Haiwen Diao, Quan Wang, et al.
Med-Banana-50K:用于文本引导的医学图像编辑的跨模态大规模数据集
数据集
文生图
Zhihui Chen, Mengling Feng
Kascade:一种面向长上下文LLM推理的实用稀疏注意力方法
Transformer
LLM
Dhruv Deshmukh, Saurabh Goyal, Nipun Kwatra, et al.
GLM-4.5:智能体、推理与编程(ARC)基础模型
推理
Agent
GroundingME:通过多维评估揭示MLLMs中的视觉定位鸿沟
多模态
基准
Rang Li, Lei Li, Shuhuai Ren, et al.
语义与重构同样重要:使表示编码器适用于文本到图像生成与编辑
文生图
扩散模型
Shilong Zhang, He Zhang, Zhifei Zhang, et al.
4D-RGPT:通过感知蒸馏实现区域级4D理解
视觉问答
多模态表征
Chiao-An Yang, Ryo Hachiuma, Sifei Liu, et al.
1
5
6
7
8
9
10
11
48
DataFlow:一种面向以数据为中心的人工智能时代的统一数据准备与工作流自动化框架
LLM
检索增强生成
Hao Liang, Xiaochen Ma, Zhou Liu, et al.
HiStream:通过冗余消除流式传输实现高效高分辨率视频生成
视频生成
扩散模型
Haonan Qiu, Shikun Liu, Zijian Zhou, et al.
TokSuite:衡量分词器选择对语言模型行为的影响
Transformer
基准
Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, et al.
Nemotron 3 Nano:面向智能体推理的开源、高效混合专家Mamba-Transformer模型
Transformer
监督式微调
NVIDIA, Aaron Blakeman, Aaron Grattafiori, et al.
超越记忆:一种多模态序数回归基准以揭示视觉-语言模型中的流行度偏差
多模态
基准
Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, et al.
DreaMontage:任意帧引导的单次视频生成
视频生成
图生视频
Jiawei Liu, Junqiao Li, Jiangfan Deng, et al.
T2AV-Compass:面向文本到音频视频生成的统一评估
统一多模态
文生视频
Zhe Cao, Tao Wang, Jiaming Wang, et al.
TongSIM:一种用于模拟智能机器的通用平台
具身智能
Agent
Zhe Sun, Kunlun Wu, Chuanjian Fu, et al.
Qwen-Image-Layered:通过层分解实现固有可编辑性
扩散模型
图像生成
Shengming Yin, Zekai Zhang, Zecheng Tang, et al.
RoboSafe:通过可执行安全逻辑保障具身Agent的安全
机器人技术
推理
Le Wang, Zonghao Ying, Xiao Yang, et al.
NHS基层医疗中LLM药物安全审查的现实世界评估
自然语言处理
数据集
Oliver Normand, Esther Borsi, Mitch Fruin, et al.
多LLM主题分析结合双重可靠性度量:基于Cohen's Kappa与语义相似性的定性研究验证
LLM
自然语言处理
Nilesh Jain, Seyi Adeyinka, Leor Roseman, et al.
通过闭环世界建模实现视频虚拟人中的主动智能
具身智能
强化学习
Xuanhua He, Tianyu Yang, Ke Cao, et al.
FaithLens:检测与解释忠实性幻觉
检索增强生成
监督式微调
Shuzheng Si, Qingyi Wang, Haozhe Zhao, et al.
SAM Audio:音频中的任意分割
统一多模态
多模态
Bowen Shi, Andros Tjandra, John Hoffman, et al.
Step-DeepResearch 技术报告
Agent
监督式微调
Chen Hu, Haikuo Du, Heng Wang, et al.
SpatialTree:空间能力在MLLMs中的分支发展
多模态
推理
Yuxi Xiao, Longfei Li, Shen Yan, et al.
SemanticGen:语义空间中的视频生成
视频生成
图生视频
Jianhong Bai, Xiaoshi Wu, Xintao Wang, et al.
基于人机协同推理大型语言模型Agent的自动化立体定向放射外科计划
推理
Agent
Humza Nusrat, Luke Francisco, Bing Luo, et al.
LongVideoAgent:基于长视频的多Agent推理
Agent
视觉问答
Runtao Liu, Ziyi Liu, Jiaqi Tang, et al.
GenEnv:LLM Agent 与环境模拟器之间的难度对齐协同进化
Agent
LLM
Jiacheng Guo, Ling Yang, Peter Chen, et al.
WorldWarp:基于异步视频扩散的3D几何传播
扩散模型
3D 模型
Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, et al.
LoGoPlanner:基于定位的度量感知视觉几何导航策略
具身智能
深度估计
Jiaqi Peng, Wenzhe Cai, Yuqiang Yang, et al.
LLM能否评估学生困难?基于能力模拟的师生AI难度对齐在题目难度预测中的应用
LLM
推理
Ming Li, Han Chen, Yunze Xiao, et al.
QuCo-RAG:基于预训练语料库量化不确定性以实现动态检索增强生成
检索增强生成
智能问答
Dehai Min, Kailin Zhang, Tongtong Wu, et al.
棱镜假说:通过统一自编码实现语义与像素表征的融合
多模态表征
统一多模态
Weichen Fan, Haiwen Diao, Quan Wang, et al.
Med-Banana-50K:用于文本引导的医学图像编辑的跨模态大规模数据集
数据集
文生图
Zhihui Chen, Mengling Feng
Kascade:一种面向长上下文LLM推理的实用稀疏注意力方法
Transformer
LLM
Dhruv Deshmukh, Saurabh Goyal, Nipun Kwatra, et al.
GLM-4.5:智能体、推理与编程(ARC)基础模型
推理
Agent
GroundingME:通过多维评估揭示MLLMs中的视觉定位鸿沟
多模态
基准
Rang Li, Lei Li, Shuhuai Ren, et al.
语义与重构同样重要:使表示编码器适用于文本到图像生成与编辑
文生图
扩散模型
Shilong Zhang, He Zhang, Zhifei Zhang, et al.
4D-RGPT:通过感知蒸馏实现区域级4D理解
视觉问答
多模态表征
Chiao-An Yang, Ryo Hachiuma, Sifei Liu, et al.
1
5
6
7
8
9
10
11
48