HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Vector Prism: Animating Vector Graphics by Stratifying Semantic Structure

Vector Prism: Animating Vector Graphics by Stratifying Semantic Structure

Image Segmentation

Jooyeol Yun, Jaegul Choo

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value

Mengzhang Cai, Xin Gao, Yu Li, et al.

Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?

Video Processing

Jiaqi Wang, Weijia Wu, Yi Zhan, et al.

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

Video Generation

Wenqiang Sun, Haiyu Zhang, Haoyuan Wang, et al.

MMGR: Multi-Modal Generative Reasoning

Video Generation

Zefan Cai, Haoyi Qiu, Tianyi Ma, et al.

FrontierScience: Evaluating AI’s Ability To Perform Expert-Level Scientific Tasks

Miles Wang, Joy Jiao, Neil Chowdhury, et al.

The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality

Retrieval-Augmented Generation

Aileen Cheng, Alon Jacovi, Amir Globerson, et al.

Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models

Reinforcement Learning

Boxin Wang, Chankyu Lee, Nayeon Lee, et al.

KlingAvatar 2.0 Technical Report

Video Generation

Kling Team, Jialu Chen, Yikang Ding, et al.

QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

Supervised Fine-Tuning

Weizhou Shen, Ziyi Yang, Chenliang Li, et al.

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Diffusion Model

Jia-Nan Li, Jian Guan, Wei Wu, et al.

Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics

Jingdi Lei, Di Zhang, Soujanya Poria

Memory in the Age of AI Agents

Retrieval-Augmented Generation

Yuyang Hu, Shichun Liu, Yanwei Yue, et al.

LongVie 2: Multimodal Controllable Ultra-Long Video World Model

Video Generation

Jianxiong Gao, Zhaoxi Chen, Xian Liu, et al.

FirstAidQA: A Synthetic Dataset for First Aid and Emergency Response in Low-Connectivity Settings

Supervised Fine-Tuning

Saiyma Sittul Muna, Rezwan Islam Salvi, Mushfiqur Rahman Mushfique, et al.

CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

High-Performance Computing

Songqiao Su, Xiaofei Sun, Xiaoya Li, et al.

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

Jinliang Zheng, Jianxiong Li, Zhihao Wang, et al.

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Supervised Fine-Tuning

Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation

Video Generation

Diffusion Model

Yang Fei, George Stoica, Jingyuan Liu, et al.

Exploring MLLM-Diffusion Information Transfer with MetaCanvas

Diffusion Model

Image Generation

Han Lin, Xichen Pan, Ziqi Huang, et al.

PersonaLive! Expressive Portrait Image Animation for Live Streaming

Diffusion Model

Zhiyuan Li, Chi-Man Pun, Chen Fang, et al.

V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

Video Generation

Video Processing

Ye Fang, Tong Wu, Valentin Deschaintre, et al.

SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

Diffusion Model

Minglei Shi, Haolin Wang, Borui Zhang, et al.

DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry

Visual Question Answering

Multimodal Representation

Zhenyang Cai, Jiaming Zhang, Junjie Zhao, et al.

SSRB: Direct Natural Language Querying to Massive Heterogeneous Semi-Structured Data

Retrieval-Augmented Generation

Natural Language Processing

Xin Zhang, Mingxin Li, Yanzhao Zhang, et al.

MUVR: A Multi-Modal Untrimmed Video Retrieval Benchmark with Multi-Level Visual Correspondence

Visual Question Answering

Multimodal Representation

Yue Feng, Jinwei Hu, Qijia Lu, et al.

Evaluating Gemini Robotics Policies in a Veo World Simulator

Video Understanding

Coline Devin, Yilun Du, Debidatta Dwibedi, et al.

MotionEdit: Benchmarking and Learning Motion-Centric Image Editing

Video Generation

Yixin Wan, Lei Ke, Wenhao Yu, et al.

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

Visual Question Answering

Haiteng Zhao, Junhao Shen, Yiming Zhang, et al.

OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification

Zijian Wu, Lingkai Kong, Wenwei Zhang, et al.

Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

Reinforcement Learning

Yiwen Tang, Zoey Guo, Kaixin Zhu, et al.

Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving

Songyang Gao, Yuzhe Gu, Zijian Wu, et al.

Vector Prism: Animating Vector Graphics by Stratifying Semantic Structure

Vector Prism: Animating Vector Graphics by Stratifying Semantic Structure

Image Segmentation

Jooyeol Yun, Jaegul Choo

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value

Mengzhang Cai, Xin Gao, Yu Li, et al.

Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?

Video Processing

Jiaqi Wang, Weijia Wu, Yi Zhan, et al.

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

Video Generation

Wenqiang Sun, Haiyu Zhang, Haoyuan Wang, et al.

MMGR: Multi-Modal Generative Reasoning

Video Generation

Zefan Cai, Haoyi Qiu, Tianyi Ma, et al.

FrontierScience: Evaluating AI’s Ability To Perform Expert-Level Scientific Tasks

Miles Wang, Joy Jiao, Neil Chowdhury, et al.

The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality

Retrieval-Augmented Generation

Aileen Cheng, Alon Jacovi, Amir Globerson, et al.

Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models

Reinforcement Learning

Boxin Wang, Chankyu Lee, Nayeon Lee, et al.

KlingAvatar 2.0 Technical Report

Video Generation

Kling Team, Jialu Chen, Yikang Ding, et al.

QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

Supervised Fine-Tuning

Weizhou Shen, Ziyi Yang, Chenliang Li, et al.

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Diffusion Model

Jia-Nan Li, Jian Guan, Wei Wu, et al.

Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics

Jingdi Lei, Di Zhang, Soujanya Poria

Memory in the Age of AI Agents

Retrieval-Augmented Generation

Yuyang Hu, Shichun Liu, Yanwei Yue, et al.

LongVie 2: Multimodal Controllable Ultra-Long Video World Model

Video Generation

Jianxiong Gao, Zhaoxi Chen, Xian Liu, et al.

FirstAidQA: A Synthetic Dataset for First Aid and Emergency Response in Low-Connectivity Settings

Supervised Fine-Tuning

Saiyma Sittul Muna, Rezwan Islam Salvi, Mushfiqur Rahman Mushfique, et al.

CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

High-Performance Computing

Songqiao Su, Xiaofei Sun, Xiaoya Li, et al.

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

Jinliang Zheng, Jianxiong Li, Zhihao Wang, et al.

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Supervised Fine-Tuning

Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation

Video Generation

Diffusion Model

Yang Fei, George Stoica, Jingyuan Liu, et al.

Exploring MLLM-Diffusion Information Transfer with MetaCanvas

Diffusion Model

Image Generation

Han Lin, Xichen Pan, Ziqi Huang, et al.

PersonaLive! Expressive Portrait Image Animation for Live Streaming

Diffusion Model

Zhiyuan Li, Chi-Man Pun, Chen Fang, et al.

V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

Video Generation

Video Processing

Ye Fang, Tong Wu, Valentin Deschaintre, et al.

SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

Diffusion Model

Minglei Shi, Haolin Wang, Borui Zhang, et al.

DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry

Visual Question Answering

Multimodal Representation

Zhenyang Cai, Jiaming Zhang, Junjie Zhao, et al.

SSRB: Direct Natural Language Querying to Massive Heterogeneous Semi-Structured Data

Retrieval-Augmented Generation

Natural Language Processing

Xin Zhang, Mingxin Li, Yanzhao Zhang, et al.

MUVR: A Multi-Modal Untrimmed Video Retrieval Benchmark with Multi-Level Visual Correspondence

Visual Question Answering

Multimodal Representation

Yue Feng, Jinwei Hu, Qijia Lu, et al.

Evaluating Gemini Robotics Policies in a Veo World Simulator

Video Understanding

Coline Devin, Yilun Du, Debidatta Dwibedi, et al.

MotionEdit: Benchmarking and Learning Motion-Centric Image Editing

Video Generation

Yixin Wan, Lei Ke, Wenhao Yu, et al.

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

Visual Question Answering

Haiteng Zhao, Junhao Shen, Yiming Zhang, et al.

OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification

Zijian Wu, Lingkai Kong, Wenwei Zhang, et al.

Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

Reinforcement Learning

Yiwen Tang, Zoey Guo, Kaixin Zhu, et al.

Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving

Songyang Gao, Yuzhe Gu, Zijian Wu, et al.

Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

MMGR: Multi-Modal Generative Reasoning

FrontierScience: Evaluating AI’s Ability To Perform Expert-Level Scientific Tasks

The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality

Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models

KlingAvatar 2.0 Technical Report

QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics

Memory in the Age of AI Agents

LongVie 2: Multimodal Controllable Ultra-Long Video World Model

FirstAidQA: A Synthetic Dataset for First Aid and Emergency Response in Low-Connectivity Settings

CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation

Exploring MLLM-Diffusion Information Transfer with MetaCanvas

PersonaLive! Expressive Portrait Image Animation for Live Streaming

V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry

SSRB: Direct Natural Language Querying to Massive Heterogeneous Semi-Structured Data

MUVR: A Multi-Modal Untrimmed Video Retrieval Benchmark with Multi-Level Visual Correspondence

Evaluating Gemini Robotics Policies in a Veo World Simulator

MotionEdit: Benchmarking and Learning Motion-Centric Image Editing

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification

Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving

Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

MMGR: Multi-Modal Generative Reasoning

FrontierScience: Evaluating AI’s Ability To Perform Expert-Level Scientific Tasks

The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality

Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models

KlingAvatar 2.0 Technical Report

QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics

Memory in the Age of AI Agents

LongVie 2: Multimodal Controllable Ultra-Long Video World Model

FirstAidQA: A Synthetic Dataset for First Aid and Emergency Response in Low-Connectivity Settings

CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation

Exploring MLLM-Diffusion Information Transfer with MetaCanvas

PersonaLive! Expressive Portrait Image Animation for Live Streaming

V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry

SSRB: Direct Natural Language Querying to Massive Heterogeneous Semi-Structured Data

MUVR: A Multi-Modal Untrimmed Video Retrieval Benchmark with Multi-Level Visual Correspondence

Evaluating Gemini Robotics Policies in a Veo World Simulator

MotionEdit: Benchmarking and Learning Motion-Centric Image Editing

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification

Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving