HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company

From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company

Zhengxu Yu, Yu Fu, Zhiyuan He, et al.

World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

Video Generation

Weijie Wang, Xiaoxuan He, Youping Gu, et al.

Video Analysis and Generation via a Semantic Progress Function

Video Generation

Video Processing

Gal Metzer, Sagi Polaczek, Ali Mahdavi-Amiri, et al.

SmartPhotoCrafter: Unified Reasoning, Generation and Optimization for Automatic Photographic Image Editing

Image Understanding

Ying Zeng, Miaosen Luo, Guangyuan Li, et al.

Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets

Intelligent Question Answering

Document Understanding

Harshit Joshi, Priyank Shethia, Jadelynn Dao, et al.

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

Bin Wu, Arastun Mammadli, Xiaoyu Zhang, et al.

FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing

Ze Chen, Lan Chen, Yuanhang Li, et al.

LLM Safety From Within: Detecting Harmful Content with Internal Representations

Difan Jiao, Yilun Liu, Ye Yuan, et al.

DiffNR: Diffusion-Enhanced Neural Representation Optimization for Sparse-View 3D Tomographic Reconstruction

Diffusion Model

Medical Imaging

Shiyan Su, Ruyi Zha, Danli Shi, et al.

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, et al.

Decoupled DiLoCo for Resilient Distributed Pre-training

Decoupled DiLoCo Team

EVENT TENSOR: A UNIFIED ABSTRACTION FOR COMPILING DYNAMIC MEGAKERNEL

Hongyi Jin, Bohan Hou, Guanjie Wang, et al.

Seeing Fast and Slow: Learning the Flow of Time in Videos

Video Generation

Video Understanding

Yen-Siang Wu, Rundong Luo, Jingsen Zhu, et al.

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Xiyang Wu, Zongxia Li, Guangyao Shi, et al.

StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition

Face Recognition

Image Recognition

Kwan Yun, Changmin Lee, Ayeong Jeong, et al.

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

Multimodal Representation

Video Generation

Boyu Chen, Yi Chen, Lu Qiu, et al.

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

Video Generation

Xiaojie Xu, Zhengyuan Lin, Kang He, et al.

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

Yueyang Ding, HaoPeng Zhang, Rui Dai, et al.

Image Generators are Generalist Vision Learners

Image Generation

Image Understanding

Valentin Gabeur, Shangbang Long, Songyou Peng, et al.

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

Multimodal Representation

Meituan LongCat Team

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Reinforcement Learning

Qwen Pilot Team

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Reinforcement Learning

Lei Huang, Xiang Cheng, Chenxiao Zhao, et al.

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Tianyu Xie, Jina Huang, Yuexiao Ma, et al.

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

Exploring Spatial Intelligence from a Generative Perspective

Image Generation

Muzhi Zhu, Shunyao Jiang, Huanyi Zheng, et al.

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

Video Generation

Hyeonwoo Kim, Jeonghwan Kim, Kyungwon Cho, et al.

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

Xiaohua Wang, Muzhao Tian, Yuqi Zeng, et al.

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Supervised Fine-Tuning

Venus Team, Sunhao Dai, Yong Deng, et al.

Near-Future Policy Optimization

Reinforcement Learning

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

Diffusion Model

Inclusion AI, Tiwei Bie, Haoxing Chen, et al.

BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing

Supervised Fine-Tuning

Hieu Tran, Zhichao Yang, Zonghai Yao, et al.

Logics-Parsing-Omni Technical Report

From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company

From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company

Zhengxu Yu, Yu Fu, Zhiyuan He, et al.

World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

Video Generation

Weijie Wang, Xiaoxuan He, Youping Gu, et al.

Video Analysis and Generation via a Semantic Progress Function

Video Generation

Video Processing

Gal Metzer, Sagi Polaczek, Ali Mahdavi-Amiri, et al.

SmartPhotoCrafter: Unified Reasoning, Generation and Optimization for Automatic Photographic Image Editing

Image Understanding

Ying Zeng, Miaosen Luo, Guangyuan Li, et al.

Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets

Intelligent Question Answering

Document Understanding

Harshit Joshi, Priyank Shethia, Jadelynn Dao, et al.

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

Bin Wu, Arastun Mammadli, Xiaoyu Zhang, et al.

FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing

Ze Chen, Lan Chen, Yuanhang Li, et al.

LLM Safety From Within: Detecting Harmful Content with Internal Representations

Difan Jiao, Yilun Liu, Ye Yuan, et al.

DiffNR: Diffusion-Enhanced Neural Representation Optimization for Sparse-View 3D Tomographic Reconstruction

Diffusion Model

Medical Imaging

Shiyan Su, Ruyi Zha, Danli Shi, et al.

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, et al.

Decoupled DiLoCo for Resilient Distributed Pre-training

Decoupled DiLoCo Team

EVENT TENSOR: A UNIFIED ABSTRACTION FOR COMPILING DYNAMIC MEGAKERNEL

Hongyi Jin, Bohan Hou, Guanjie Wang, et al.

Seeing Fast and Slow: Learning the Flow of Time in Videos

Video Generation

Video Understanding

Yen-Siang Wu, Rundong Luo, Jingsen Zhu, et al.

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Xiyang Wu, Zongxia Li, Guangyao Shi, et al.

StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition

Face Recognition

Image Recognition

Kwan Yun, Changmin Lee, Ayeong Jeong, et al.

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

Multimodal Representation

Video Generation

Boyu Chen, Yi Chen, Lu Qiu, et al.

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

Video Generation

Xiaojie Xu, Zhengyuan Lin, Kang He, et al.

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

Yueyang Ding, HaoPeng Zhang, Rui Dai, et al.

Image Generators are Generalist Vision Learners

Image Generation

Image Understanding

Valentin Gabeur, Shangbang Long, Songyou Peng, et al.

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

Multimodal Representation

Meituan LongCat Team

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Reinforcement Learning

Qwen Pilot Team

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Reinforcement Learning

Lei Huang, Xiang Cheng, Chenxiao Zhao, et al.

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Tianyu Xie, Jina Huang, Yuexiao Ma, et al.

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

Exploring Spatial Intelligence from a Generative Perspective

Image Generation

Muzhi Zhu, Shunyao Jiang, Huanyi Zheng, et al.

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

Video Generation

Hyeonwoo Kim, Jeonghwan Kim, Kyungwon Cho, et al.

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

Xiaohua Wang, Muzhao Tian, Yuqi Zeng, et al.

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Supervised Fine-Tuning

Venus Team, Sunhao Dai, Yong Deng, et al.

Near-Future Policy Optimization

Reinforcement Learning

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

Diffusion Model

Inclusion AI, Tiwei Bie, Haoxing Chen, et al.

BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing

Supervised Fine-Tuning

Hieu Tran, Zhichao Yang, Zonghai Yao, et al.

Logics-Parsing-Omni Technical Report

Video Analysis and Generation via a Semantic Progress Function

SmartPhotoCrafter: Unified Reasoning, Generation and Optimization for Automatic Photographic Image Editing

Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing

LLM Safety From Within: Detecting Harmful Content with Internal Representations

DiffNR: Diffusion-Enhanced Neural Representation Optimization for Sparse-View 3D Tomographic Reconstruction

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Decoupled DiLoCo for Resilient Distributed Pre-training

EVENT TENSOR: A UNIFIED ABSTRACTION FOR COMPILING DYNAMIC MEGAKERNEL

Seeing Fast and Slow: Learning the Flow of Time in Videos

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

Image Generators are Generalist Vision Learners

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

Exploring Spatial Intelligence from a Generative Perspective

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Near-Future Policy Optimization

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing

Logics-Parsing-Omni Technical Report

Video Analysis and Generation via a Semantic Progress Function

SmartPhotoCrafter: Unified Reasoning, Generation and Optimization for Automatic Photographic Image Editing

Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing

LLM Safety From Within: Detecting Harmful Content with Internal Representations

DiffNR: Diffusion-Enhanced Neural Representation Optimization for Sparse-View 3D Tomographic Reconstruction

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Decoupled DiLoCo for Resilient Distributed Pre-training

EVENT TENSOR: A UNIFIED ABSTRACTION FOR COMPILING DYNAMIC MEGAKERNEL

Seeing Fast and Slow: Learning the Flow of Time in Videos

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

Image Generators are Generalist Vision Learners

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

Exploring Spatial Intelligence from a Generative Perspective

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Near-Future Policy Optimization

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing

Logics-Parsing-Omni Technical Report