HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Budget-Aware Tool-Use Enables Effective Agent Scaling

Budget-Aware Tool-Use Enables Effective Agent Scaling

Tengxiao Liu, Zifeng Wang, Jin Miao, et al.

In-Video Instructions: Visual Signals as Generative Control

In-Video Instructions: Visual Signals as Generative Control

Video Generation

Gongfan Fang, Xinyin Ma, Xinchao Wang

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

Reinforcement Learning

Intelligent Question Answering

Rulin Shao, Akari Asai, Shannon Zejiang Shen, et al.

AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser

Document Understanding

Ren Ma, Jiantao Qiu, Chao Xu, et al.

UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

Diffusion Model

Tian Ye, Song Fei, Lei Zhu

DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

Diffusion Model

Image Generation

Zehong Ma, Longhui Wei, Shuai Wang, et al.

Computer-Use Agents as Judges for Generative User Interface

Code Generation

Kevin Qinghong Lin, Siyuan Hu, Linjie Li, et al.

AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning

Reinforcement Learning

Jiayi Zhang, Yiran Peng, Fanqi Kong, et al.

General Agentic Memory Via Deep Research

Retrieval-Augmented Generation

B.Y. Yan, Chaofan Li, Hongjin Qian, et al.

VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation

Reinforcement Learning

Computer Vision

Tairan He, Zi Wang, Haoru Xue, et al.

MIST: Mutual Information Via Supervised Training

Neural Networks

German Gritsai, Megan Richards, Maxime Méloux, et al.

Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO

Reinforcement Learning

Haoyang Hong, Jiajun Yin, Yuan Wang, et al.

Flow Map Distillation Without Data

Diffusion Model

Shangyuan Tong, Nanye Ma, Saining Xie, et al.

Docling: An Efficient Open-Source Toolkit for AI-driven Document Conversion

Nikolaos Livathinos, Christoph Auer, Maksym Lysak, et al.

HunyuanOCR Technical Report

Visual Question Answering

Tencent Hunyuan Vision Team, Jie Jiang, Linus, et al.

PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

Visual Question Answering

Zixin Zhang, Kanghao Chen, Xingwang Lin, et al.

Huxley-Gödel Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine

Artificial Intelligence

Wenyi Wang, Piotr Piękos, Li Nanbo, et al.

Solving Spatial Supersensing Without Spatial Supersensing

Video Understanding

Computer Vision

Vishaal Udandarao, Shyamgopal Karthik, Surabhi S. Nath, et al.

Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs

Yusuf Çelebi, Mahmoud El Hussieni, Özay Ezerceli

O-Mem: Omni Memory System for Personalized, Long Horizon Self-Evolving Agents

Wangchunshu Zhou

Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story

Natural Language Processing

Vladislav Pedashenko, Laida Kushnareva, Yana Khassan Nibal, et al.

SAM 3: Segment Anything with Concepts

Computer Vision

Semantic Segmentation

Nicolas Carion, Laura Gustafson, Yuan-Ting Hu, et al.

GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

Retrieval-Augmented Generation

Yikun Wang, Zuyan Liu, Ziyi Wang, et al.

OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

Supervised Fine-Tuning

Kaichen Zhang, Keming Wu, Zuhao Yang, et al.

HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs

Reinforcement Learning

Ken Deng, Zizheng Zhan, Wen Xiang, et al.

SERES: Semantic-Aware Neural Reconstruction from Sparse Views

Computer Vision

Bo Xu, Yuhu Guo, Yuchao Wang, et al.

SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation

Diffusion Model

Shuang Cheng, Yihan Bian, Dawei Liu, et al.

MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts

Code Generation

Qing Wang, Xue Han, Jiahui Wang, et al.

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

Image Captioning

Visual Question Answering

Long Xing, Xiaoyi Dong, Yuhang Zang, et al.

Ultra-Fast Language Generation via Discrete Diffusion Divergence Instruct

Diffusion Model

Text Generation

Haoyang Zheng, Xinyang Liu, Cindy Xiangrui Kong, et al.

DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization

Reinforcement Learning

Gang Li, Ming Lin, Tomer Galanti, et al.

QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models

Visual Question Answering

Yutong Wang, Haiyu Wang, Sai Qian Zhang

Budget-Aware Tool-Use Enables Effective Agent Scaling

Budget-Aware Tool-Use Enables Effective Agent Scaling

Tengxiao Liu, Zifeng Wang, Jin Miao, et al.

In-Video Instructions: Visual Signals as Generative Control

In-Video Instructions: Visual Signals as Generative Control

Video Generation

Gongfan Fang, Xinyin Ma, Xinchao Wang

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

Reinforcement Learning

Intelligent Question Answering

Rulin Shao, Akari Asai, Shannon Zejiang Shen, et al.

AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser

Document Understanding

Ren Ma, Jiantao Qiu, Chao Xu, et al.

UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

Diffusion Model

Tian Ye, Song Fei, Lei Zhu

DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

Diffusion Model

Image Generation

Zehong Ma, Longhui Wei, Shuai Wang, et al.

Computer-Use Agents as Judges for Generative User Interface

Code Generation

Kevin Qinghong Lin, Siyuan Hu, Linjie Li, et al.

AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning

Reinforcement Learning

Jiayi Zhang, Yiran Peng, Fanqi Kong, et al.

General Agentic Memory Via Deep Research

Retrieval-Augmented Generation

B.Y. Yan, Chaofan Li, Hongjin Qian, et al.

VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation

Reinforcement Learning

Computer Vision

Tairan He, Zi Wang, Haoru Xue, et al.

MIST: Mutual Information Via Supervised Training

Neural Networks

German Gritsai, Megan Richards, Maxime Méloux, et al.

Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO

Reinforcement Learning

Haoyang Hong, Jiajun Yin, Yuan Wang, et al.

Flow Map Distillation Without Data

Diffusion Model

Shangyuan Tong, Nanye Ma, Saining Xie, et al.

Docling: An Efficient Open-Source Toolkit for AI-driven Document Conversion

Nikolaos Livathinos, Christoph Auer, Maksym Lysak, et al.

HunyuanOCR Technical Report

Visual Question Answering

Tencent Hunyuan Vision Team, Jie Jiang, Linus, et al.

PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

Visual Question Answering

Zixin Zhang, Kanghao Chen, Xingwang Lin, et al.

Huxley-Gödel Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine

Artificial Intelligence

Wenyi Wang, Piotr Piękos, Li Nanbo, et al.

Solving Spatial Supersensing Without Spatial Supersensing

Video Understanding

Computer Vision

Vishaal Udandarao, Shyamgopal Karthik, Surabhi S. Nath, et al.

Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs

Yusuf Çelebi, Mahmoud El Hussieni, Özay Ezerceli

O-Mem: Omni Memory System for Personalized, Long Horizon Self-Evolving Agents

Wangchunshu Zhou

Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story

Natural Language Processing

Vladislav Pedashenko, Laida Kushnareva, Yana Khassan Nibal, et al.

SAM 3: Segment Anything with Concepts

Computer Vision

Semantic Segmentation

Nicolas Carion, Laura Gustafson, Yuan-Ting Hu, et al.

GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

Retrieval-Augmented Generation

Yikun Wang, Zuyan Liu, Ziyi Wang, et al.

OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

Supervised Fine-Tuning

Kaichen Zhang, Keming Wu, Zuhao Yang, et al.

HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs

Reinforcement Learning

Ken Deng, Zizheng Zhan, Wen Xiang, et al.

SERES: Semantic-Aware Neural Reconstruction from Sparse Views

Computer Vision

Bo Xu, Yuhu Guo, Yuchao Wang, et al.

SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation

Diffusion Model

Shuang Cheng, Yihan Bian, Dawei Liu, et al.

MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts

Code Generation

Qing Wang, Xue Han, Jiahui Wang, et al.

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

Image Captioning

Visual Question Answering

Long Xing, Xiaoyi Dong, Yuhang Zang, et al.

Ultra-Fast Language Generation via Discrete Diffusion Divergence Instruct

Diffusion Model

Text Generation

Haoyang Zheng, Xinyang Liu, Cindy Xiangrui Kong, et al.

DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization

Reinforcement Learning

Gang Li, Ming Lin, Tomer Galanti, et al.

QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models

Visual Question Answering

Yutong Wang, Haiyu Wang, Sai Qian Zhang

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser

UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

Computer-Use Agents as Judges for Generative User Interface

AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning

General Agentic Memory Via Deep Research

VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation

MIST: Mutual Information Via Supervised Training

Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO

Flow Map Distillation Without Data

Docling: An Efficient Open-Source Toolkit for AI-driven Document Conversion

HunyuanOCR Technical Report

PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

Huxley-Gödel Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine

Solving Spatial Supersensing Without Spatial Supersensing

Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs

O-Mem: Omni Memory System for Personalized, Long Horizon Self-Evolving Agents

Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story

SAM 3: Segment Anything with Concepts

GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs

SERES: Semantic-Aware Neural Reconstruction from Sparse Views

SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation

MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

Ultra-Fast Language Generation via Discrete Diffusion Divergence Instruct

DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization

QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser

UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

Computer-Use Agents as Judges for Generative User Interface

AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning

General Agentic Memory Via Deep Research

VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation

MIST: Mutual Information Via Supervised Training

Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO

Flow Map Distillation Without Data

Docling: An Efficient Open-Source Toolkit for AI-driven Document Conversion

HunyuanOCR Technical Report

PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

Huxley-Gödel Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine

Solving Spatial Supersensing Without Spatial Supersensing

Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs

O-Mem: Omni Memory System for Personalized, Long Horizon Self-Evolving Agents

Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story

SAM 3: Segment Anything with Concepts

GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs

SERES: Semantic-Aware Neural Reconstruction from Sparse Views

SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation

MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

Ultra-Fast Language Generation via Discrete Diffusion Divergence Instruct

DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization

QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models