HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning

VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning

Diffusion Model

OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models

OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models

Diffusion Model

Han Zhu, Lingxuan Ye, Wei Kang, et al.

Where Vision Becomes Text: Locating the OCR Routing Bottleneck in Vision-Language Models

Jonathan Steinberg, Oren Gal

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Document Understanding

Jiyuan Shen, Peiyue Yuan, Atin Ghosh, et al.

dnaHNet: A Scalable and Hierarchical Foundation Model for Genomic Sequence Learning

Arnav Shah, Junzhe Li, Parsa Idehpour, et al.

Neural Computers

Video Generation

Mingchen Zhuge, Changsheng Zhao, Haozhe Liu, et al.

ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

Supervised Fine-Tuning

Yein Park, Jungwoo Park, Jaewoo Kang

GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

3D Machine Vision

Roni Itkin, Noam Issachar, Yehonatan Keypur, et al.

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

Supervised Fine-Tuning

Code Generation

Zixian Huang, Kaichen Yang, Xu Huang, et al.

RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

Diffusion Model

Autonomous Driving

Hao Gao, Shaoyu Chen, Yifan Zhu, et al.

DR$^{3}$-Eval: Towards Realistic and Reproducible Deep Research Evaluation

Retrieval-Augmented Generation

Qianqian Xie, Qingheng Xiong, He Zhu, et al.

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

Team HY-World, Chenjie Cao, Xuhui Zuo, et al.

pi0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

Multimodal Representation

Bo Ai, Ali Amin, Raichelle Aniceto, et al.

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

Reinforcement Learning

Tong Wei, Yijun Yang, Junliang Xing, et al.

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

Ranjun Xu, Yang Yan

Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?

Embodied Intelligence

Pingyue Zhang, Zihan Huang, Yue Wang, et al.

Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents

Code Generation

Kangsan Kim, Minki Kang, Taeil Kim, et al.

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

Xiaomeng Hu, Yinger Zhang, Fei Huang, et al.

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

3D Machine Vision

Visual Question Answering

Dinging Li, Yingxiu Zhao, Xinrui Cheng, et al.

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Image Generation

Haozhe Wang, Cong Wei, Weiming Ren, et al.

Seedance 2.0: Advancing Video Generation for World Complexity

Video Generation

Team Seedance, De Chen, Liyang Chen, et al.

GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Mingyu Ouyang, Siyuan Hu, Kevin Qinghong Lin, et al.

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

Image Generation

Ke Cao, Xuanhua He, Xueheng Li, et al.

ParseBench: A Document Parsing Benchmark for AI Agents

Document Understanding

Boyang Zhang, Sebastián G. Acosta, Preston Carlson, et al.

Memory Intelligence Agent

Jingyang Qiao, Weicheng Meng, Yu Cheng, et al.

PROPELLA-1: MULTI-PROPERTY DOCUMENT ANNOTATION FOR LLM DATA CURATION AT SCALE

Maximilian Idahl, Benedikt Droste, Björn Plüster, et al.

Internalized Reasoning for Long-Context Visual Document Understanding

Document Understanding

Visual Question Answering

TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate

Amir Zandieh, Majid Daliri, Majid Hadian, et al.

BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation

Text Generation

Hippolyte Gisserot-Boukhlef, Nicolas Boizard, Emmanuel Malherbe, et al.

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Reinforcement Learning

Tianyi Wang, Yixia Li, Long Li, et al.

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

Jiachen Zhu, Lingyu Yang, Rong Shan, et al.

Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing

Zeyue Tian, Binxin Yang, Zhaoyang Liu, et al.

VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning

VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning

Diffusion Model

OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models

OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models

Diffusion Model

Han Zhu, Lingxuan Ye, Wei Kang, et al.

Where Vision Becomes Text: Locating the OCR Routing Bottleneck in Vision-Language Models

Jonathan Steinberg, Oren Gal

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Document Understanding

Jiyuan Shen, Peiyue Yuan, Atin Ghosh, et al.

dnaHNet: A Scalable and Hierarchical Foundation Model for Genomic Sequence Learning

Arnav Shah, Junzhe Li, Parsa Idehpour, et al.

Neural Computers

Video Generation

Mingchen Zhuge, Changsheng Zhao, Haozhe Liu, et al.

ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

Supervised Fine-Tuning

Yein Park, Jungwoo Park, Jaewoo Kang

GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

3D Machine Vision

Roni Itkin, Noam Issachar, Yehonatan Keypur, et al.

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

Supervised Fine-Tuning

Code Generation

Zixian Huang, Kaichen Yang, Xu Huang, et al.

RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

Diffusion Model

Autonomous Driving

Hao Gao, Shaoyu Chen, Yifan Zhu, et al.

DR$^{3}$-Eval: Towards Realistic and Reproducible Deep Research Evaluation

Retrieval-Augmented Generation

Qianqian Xie, Qingheng Xiong, He Zhu, et al.

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

Team HY-World, Chenjie Cao, Xuhui Zuo, et al.

pi0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

Multimodal Representation

Bo Ai, Ali Amin, Raichelle Aniceto, et al.

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

Reinforcement Learning

Tong Wei, Yijun Yang, Junliang Xing, et al.

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

Ranjun Xu, Yang Yan

Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?

Embodied Intelligence

Pingyue Zhang, Zihan Huang, Yue Wang, et al.

Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents

Code Generation

Kangsan Kim, Minki Kang, Taeil Kim, et al.

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

Xiaomeng Hu, Yinger Zhang, Fei Huang, et al.

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

3D Machine Vision

Visual Question Answering

Dinging Li, Yingxiu Zhao, Xinrui Cheng, et al.

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Image Generation

Haozhe Wang, Cong Wei, Weiming Ren, et al.

Seedance 2.0: Advancing Video Generation for World Complexity

Video Generation

Team Seedance, De Chen, Liyang Chen, et al.

GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Mingyu Ouyang, Siyuan Hu, Kevin Qinghong Lin, et al.

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

Image Generation

Ke Cao, Xuanhua He, Xueheng Li, et al.

ParseBench: A Document Parsing Benchmark for AI Agents

Document Understanding

Boyang Zhang, Sebastián G. Acosta, Preston Carlson, et al.

Memory Intelligence Agent

Jingyang Qiao, Weicheng Meng, Yu Cheng, et al.

PROPELLA-1: MULTI-PROPERTY DOCUMENT ANNOTATION FOR LLM DATA CURATION AT SCALE

Maximilian Idahl, Benedikt Droste, Björn Plüster, et al.

Internalized Reasoning for Long-Context Visual Document Understanding

Document Understanding

Visual Question Answering

TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate

Amir Zandieh, Majid Daliri, Majid Hadian, et al.

BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation

Text Generation

Hippolyte Gisserot-Boukhlef, Nicolas Boizard, Emmanuel Malherbe, et al.

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Reinforcement Learning

Tianyi Wang, Yixia Li, Long Li, et al.

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

Jiachen Zhu, Lingyu Yang, Rong Shan, et al.

Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing

Zeyue Tian, Binxin Yang, Zhaoyang Liu, et al.

Where Vision Becomes Text: Locating the OCR Routing Bottleneck in Vision-Language Models

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

dnaHNet: A Scalable and Hierarchical Foundation Model for Genomic Sequence Learning

Neural Computers

ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

DR $^{3}$ -Eval: Towards Realistic and Reproducible Deep Research Evaluation

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

pi0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?

Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Seedance 2.0: Advancing Video Generation for World Complexity

GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

ParseBench: A Document Parsing Benchmark for AI Agents

Memory Intelligence Agent

PROPELLA-1: MULTI-PROPERTY DOCUMENT ANNOTATION FOR LLM DATA CURATION AT SCALE

Internalized Reasoning for Long-Context Visual Document Understanding

TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate

BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing

Where Vision Becomes Text: Locating the OCR Routing Bottleneck in Vision-Language Models

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

dnaHNet: A Scalable and Hierarchical Foundation Model for Genomic Sequence Learning

Neural Computers

ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

DR $^{3}$ -Eval: Towards Realistic and Reproducible Deep Research Evaluation

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

pi0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?

Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Seedance 2.0: Advancing Video Generation for World Complexity

GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

ParseBench: A Document Parsing Benchmark for AI Agents

Memory Intelligence Agent

PROPELLA-1: MULTI-PROPERTY DOCUMENT ANNOTATION FOR LLM DATA CURATION AT SCALE

Internalized Reasoning for Long-Context Visual Document Understanding

TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate

BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing