HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

Code Generation

Hui Sun, Yun-Ji Zhang, Zheng Xie, et al.

Learning to Retrieve from Agent Trajectories

Learning to Retrieve from Agent Trajectories

Retrieval-Augmented Generation

Yuqi Zhou, Sunhao Dai, Changle Qu, et al.

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

Bowen Ye, Rang Li, Qibin Yang, et al.

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

Video Understanding

Visual Question Answering

Chaoyou Fu, Haozhi Yuan, Yuhao Dong, et al.

GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

Code Generation

DeepReinforce Team, Xiaoya Li, Xiaofei Sun, et al.

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

Multimodal Representation

Chanyoung Kim, Minwoo Kim, Minseok Kang, et al.

TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

Weian Mao, Xi Lin, Wei Huang, et al.

MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale

Document Understanding

Bin Wang, Tianyao He, Linke Ouyang, et al.

Adam's Law: Textual Frequency Law on Large Language Models

Supervised Fine-Tuning

Hongyuan Adam Lu, Z.L., Victor Wei, et al.

OpenWorldLib: A Unified Codebase and Definition of Advanced World Models

DataFlow Team, Bohan Zeng, Daili Hua, et al.

WAXAL: A Large-Scale Multilingual African Language Speech Corpus

Abdoulaye Diack, Perry Nelson, Kwaku Agbesi, et al.

DRACO: a Cross-Domain Benchmark for Deep Research Accuracy, Completeness, and Objectivity

Retrieval-Augmented Generation

Joey Zhong, Hao Zhang, Clare Southern, et al.

HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

Junying Chen, Zhenyang Cai, Ke Ji, et al.

AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

Prince Zizhuang Wang, Shuli Jiang

InCoder-32B-Thinking: Industrial Code World Model for Thinking

Jian Yang, Wei Zhang, Jiajun Wu, et al.

Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

Qianshan Wei, Yishan Yang, Siyi Wang, et al.

Token Warping Helps MLLMs Look from Nearby Viewpoints

Multimodal Representation

Phillip Y. Lee, Chanho Park, Mingue Park, et al.

Self-Distilled RLVR

Reinforcement Learning

Chenxu Yang, Chuanyu Qin, Qingyi Si, et al.

A Simple Baseline for Streaming Video Understanding

Video Understanding

Visual Question Answering

Yujiao Shen, Shulin Tian, Jingkang Yang, et al.

CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery

Ao Qu, Han Zheng, Zijian Zhou, et al.

Steerable Visual Representations

Multimodal Representation

Jona Ruthardt, Manu Gaur, Deva Ramanan, et al.

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Reinforcement Learning

Zhengxi Lu, Zhiyuan Yao, Jinyang Wu, et al.

Generative World Renderer

Diffusion Model

Video Generation

Zheng-Hui Huang, Zhixiang Wang, Jiaming Tan, et al.

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

Xinlei Yu, Zhangquan Chen, Yongbo He, et al.

DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

Hao Liang, Zhengyang Zhao, Meiyi Qiang, et al.

QuitoBench: A High-Quality Open Time Series Forecasting Benchmark

Siqiao Xue, Zhaoyang Zhu, Wei Zhang, et al.

Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

Code Generation

Zehai He, Wenyi Hong, Zhen Yang, et al.

ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

Haonan Han, Jiancheng Huang, Xiaopeng Sun, et al.

MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

Fangda Ye, Yuxin Hu, Pengxiang Zhu, et al.

Terminal Agents Suffice for Enterprise Automation

Patrice Bechard, Orlando Marquez Ayala, Emily Chen, et al.

ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

Songyang Liu, Chaozhuo Li, Chenxu Wang, et al.

Cheap Bootstrap for Fast Uncertainty Quantification of Stochastic Gradient Descent

Henry Lam, Zitong Wang

ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

Code Generation

Hui Sun, Yun-Ji Zhang, Zheng Xie, et al.

Learning to Retrieve from Agent Trajectories

Learning to Retrieve from Agent Trajectories

Retrieval-Augmented Generation

Yuqi Zhou, Sunhao Dai, Changle Qu, et al.

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

Bowen Ye, Rang Li, Qibin Yang, et al.

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

Video Understanding

Visual Question Answering

Chaoyou Fu, Haozhi Yuan, Yuhao Dong, et al.

GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

Code Generation

DeepReinforce Team, Xiaoya Li, Xiaofei Sun, et al.

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

Multimodal Representation

Chanyoung Kim, Minwoo Kim, Minseok Kang, et al.

TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

Weian Mao, Xi Lin, Wei Huang, et al.

MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale

Document Understanding

Bin Wang, Tianyao He, Linke Ouyang, et al.

Adam's Law: Textual Frequency Law on Large Language Models

Supervised Fine-Tuning

Hongyuan Adam Lu, Z.L., Victor Wei, et al.

OpenWorldLib: A Unified Codebase and Definition of Advanced World Models

DataFlow Team, Bohan Zeng, Daili Hua, et al.

WAXAL: A Large-Scale Multilingual African Language Speech Corpus

Abdoulaye Diack, Perry Nelson, Kwaku Agbesi, et al.

DRACO: a Cross-Domain Benchmark for Deep Research Accuracy, Completeness, and Objectivity

Retrieval-Augmented Generation

Joey Zhong, Hao Zhang, Clare Southern, et al.

HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

Junying Chen, Zhenyang Cai, Ke Ji, et al.

AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

Prince Zizhuang Wang, Shuli Jiang

InCoder-32B-Thinking: Industrial Code World Model for Thinking

Jian Yang, Wei Zhang, Jiajun Wu, et al.

Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

Qianshan Wei, Yishan Yang, Siyi Wang, et al.

Token Warping Helps MLLMs Look from Nearby Viewpoints

Multimodal Representation

Phillip Y. Lee, Chanho Park, Mingue Park, et al.

Self-Distilled RLVR

Reinforcement Learning

Chenxu Yang, Chuanyu Qin, Qingyi Si, et al.

A Simple Baseline for Streaming Video Understanding

Video Understanding

Visual Question Answering

Yujiao Shen, Shulin Tian, Jingkang Yang, et al.

CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery

Ao Qu, Han Zheng, Zijian Zhou, et al.

Steerable Visual Representations

Multimodal Representation

Jona Ruthardt, Manu Gaur, Deva Ramanan, et al.

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Reinforcement Learning

Zhengxi Lu, Zhiyuan Yao, Jinyang Wu, et al.

Generative World Renderer

Diffusion Model

Video Generation

Zheng-Hui Huang, Zhixiang Wang, Jiaming Tan, et al.

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

Xinlei Yu, Zhangquan Chen, Yongbo He, et al.

DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

Hao Liang, Zhengyang Zhao, Meiyi Qiang, et al.

QuitoBench: A High-Quality Open Time Series Forecasting Benchmark

Siqiao Xue, Zhaoyang Zhu, Wei Zhang, et al.

Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

Code Generation

Zehai He, Wenyi Hong, Zhen Yang, et al.

ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

Haonan Han, Jiancheng Huang, Xiaopeng Sun, et al.

MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

Fangda Ye, Yuxin Hu, Pengxiang Zhu, et al.

Terminal Agents Suffice for Enterprise Automation

Patrice Bechard, Orlando Marquez Ayala, Emily Chen, et al.

ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

Songyang Liu, Chaozhuo Li, Chenxu Wang, et al.

Cheap Bootstrap for Fast Uncertainty Quantification of Stochastic Gradient Descent

Henry Lam, Zitong Wang

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale

Adam's Law: Textual Frequency Law on Large Language Models

OpenWorldLib: A Unified Codebase and Definition of Advanced World Models

WAXAL: A Large-Scale Multilingual African Language Speech Corpus

DRACO: a Cross-Domain Benchmark for Deep Research Accuracy, Completeness, and Objectivity

HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

InCoder-32B-Thinking: Industrial Code World Model for Thinking

Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

Token Warping Helps MLLMs Look from Nearby Viewpoints

Self-Distilled RLVR

A Simple Baseline for Streaming Video Understanding

CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery

Steerable Visual Representations

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Generative World Renderer

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

QuitoBench: A High-Quality Open Time Series Forecasting Benchmark

Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

Terminal Agents Suffice for Enterprise Automation

ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

Cheap Bootstrap for Fast Uncertainty Quantification of Stochastic Gradient Descent

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale

Adam's Law: Textual Frequency Law on Large Language Models

OpenWorldLib: A Unified Codebase and Definition of Advanced World Models

WAXAL: A Large-Scale Multilingual African Language Speech Corpus

DRACO: a Cross-Domain Benchmark for Deep Research Accuracy, Completeness, and Objectivity

HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

InCoder-32B-Thinking: Industrial Code World Model for Thinking

Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

Token Warping Helps MLLMs Look from Nearby Viewpoints

Self-Distilled RLVR

A Simple Baseline for Streaming Video Understanding

CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery

Steerable Visual Representations

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Generative World Renderer

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

QuitoBench: A High-Quality Open Time Series Forecasting Benchmark

Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

Terminal Agents Suffice for Enterprise Automation

ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

Cheap Bootstrap for Fast Uncertainty Quantification of Stochastic Gradient Descent