HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

FASTER: Rethinking Real-Time Flow VLAs

FASTER: Rethinking Real-Time Flow VLAs

Diffusion Model

Yuxiang Lu, Zhe Liu, Xianzhe Fan, et al.

3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

Hyun-kyu Ko, Jihyeon Park, Younghyun Kim, et al.

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

Video Generation

Diffusion Model

Xinyao Zhang, Wenkai Dong, Yuxin Song, et al.

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Video Generation

Xianjin Wu, Dingkang Liang, Tianrui Feng, et al.

Efficient Reasoning with Balanced Thinking

Yulin Li, Tengyao Tu, Li Ding, et al.

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Multimodal Representation

Yulin Luo, Hao Chen, Zhuangzhe Wu, et al.

Complementary Reinforcement Learning

Reinforcement Learning

Dilxat Muhtar, Jiashun Liu, Wei Gao, et al.

Alignment Makes Language Models Normative, Not Descriptive

Preference Modeling

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

Video Generation

Diffusion Model

Wei Yu, Runjia Qian, Yumeng Li, et al.

MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

Peng Xia, Jianwen Chen, Xinyu Yang, et al.

Video-CoE: Reinforcing Video Event Prediction via Chain of Events

Video Understanding

Qile Su, Jing Tang, Rui Chen, et al.

FunCineForge: A Unified Dataset Toolkit and Model for Zero-Shot Movie Dubbing in Diverse Cinematic Scenes

Jiaxuan Liu, Yang Xiang, Han Zhao, et al.

In-Context Watermarks for Large Language Models

Text Generation

Yepeng Liu, Xuandong Zhao, Christopher Kruegel, et al.

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Diffusion Model

Video Generation

Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, et al.

Demystifing Video Reasoning

Video Generation

Diffusion Model

Ruisi Wang, Zhongang Cai, Fanyi Pu, et al.

Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

Embodied Intelligence

Video Generation

Mutian Xu, Tianbao Zhang, Tianqi Liu, et al.

Qianfan-OCR: A Unified End-to-End Model for Document Intelligence

Document Understanding

Daxiang Dong, Mingming Zheng, Dong Xu, et al.

InCoder-32B: Code Foundation Model for Industrial Scenarios

Code Generation

Jian Yang, Wei Zhang, Jiajun Wu, et al.

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

MiroMind Team, S. Bai, L. Bing, et al.

HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

3D Machine Vision

Yukang Cao, Haozhe Xie, Fangzhou Hong, et al.

Mixture-of-Depths Attention

Lianghui Zhu, Yuxin Fang, Bencheng Liao, et al.

Attention Residuals

Kimi Team, Guangyu Chen, Yu Zhang, et al.

Grounding World Simulation Models in a Real-World Metropolis

Video Generation

Junyoung Seo, Hyunwook Choi, Minkyung Kwon, et al.

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Yuwen Du, Rui Ye, Shuo Tang, et al.

AI Can Learn Scientific Taste

Preference Modeling

Jingqi Tong, Mingzhe Li, Hangcheng Li, et al.

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Visual Question Answering

Haozhan Shen, Shilin Yan, Hongwei Xue, et al.

Can Vision-Language Models Solve the Shell Game?

Object Tracking

Video Understanding

Tiedong Liu, Wee Sun Lee

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

Diffusion Model

Yaofeng Su, Yuming Li, Zeyue Xue, et al.

daVinci-Env: Open SWE Environment Synthesis at Scale

Code Generation

Dayuan Fu, Shenyu Wu, Yunze Wu, et al.

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

Yichen Zhang, Da Peng, Zonghao Guo, et al.

LMEB: Long-horizon Memory Embedding Benchmark

Retrieval-Augmented Generation

Xinping Zhao, Xinshuo Hu, Jiaxin Xu, et al.

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

Video Generation

Yujie Wei, Xinyu Liu, Shiwei Zhang, et al.

FASTER: Rethinking Real-Time Flow VLAs

FASTER: Rethinking Real-Time Flow VLAs

Diffusion Model

Yuxiang Lu, Zhe Liu, Xianzhe Fan, et al.

3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

Hyun-kyu Ko, Jihyeon Park, Younghyun Kim, et al.

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

Video Generation

Diffusion Model

Xinyao Zhang, Wenkai Dong, Yuxin Song, et al.

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Video Generation

Xianjin Wu, Dingkang Liang, Tianrui Feng, et al.

Efficient Reasoning with Balanced Thinking

Yulin Li, Tengyao Tu, Li Ding, et al.

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Multimodal Representation

Yulin Luo, Hao Chen, Zhuangzhe Wu, et al.

Complementary Reinforcement Learning

Reinforcement Learning

Dilxat Muhtar, Jiashun Liu, Wei Gao, et al.

Alignment Makes Language Models Normative, Not Descriptive

Preference Modeling

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

Video Generation

Diffusion Model

Wei Yu, Runjia Qian, Yumeng Li, et al.

MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

Peng Xia, Jianwen Chen, Xinyu Yang, et al.

Video-CoE: Reinforcing Video Event Prediction via Chain of Events

Video Understanding

Qile Su, Jing Tang, Rui Chen, et al.

FunCineForge: A Unified Dataset Toolkit and Model for Zero-Shot Movie Dubbing in Diverse Cinematic Scenes

Jiaxuan Liu, Yang Xiang, Han Zhao, et al.

In-Context Watermarks for Large Language Models

Text Generation

Yepeng Liu, Xuandong Zhao, Christopher Kruegel, et al.

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Diffusion Model

Video Generation

Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, et al.

Demystifing Video Reasoning

Video Generation

Diffusion Model

Ruisi Wang, Zhongang Cai, Fanyi Pu, et al.

Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

Embodied Intelligence

Video Generation

Mutian Xu, Tianbao Zhang, Tianqi Liu, et al.

Qianfan-OCR: A Unified End-to-End Model for Document Intelligence

Document Understanding

Daxiang Dong, Mingming Zheng, Dong Xu, et al.

InCoder-32B: Code Foundation Model for Industrial Scenarios

Code Generation

Jian Yang, Wei Zhang, Jiajun Wu, et al.

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

MiroMind Team, S. Bai, L. Bing, et al.

HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

3D Machine Vision

Yukang Cao, Haozhe Xie, Fangzhou Hong, et al.

Mixture-of-Depths Attention

Lianghui Zhu, Yuxin Fang, Bencheng Liao, et al.

Attention Residuals

Kimi Team, Guangyu Chen, Yu Zhang, et al.

Grounding World Simulation Models in a Real-World Metropolis

Video Generation

Junyoung Seo, Hyunwook Choi, Minkyung Kwon, et al.

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Yuwen Du, Rui Ye, Shuo Tang, et al.

AI Can Learn Scientific Taste

Preference Modeling

Jingqi Tong, Mingzhe Li, Hangcheng Li, et al.

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Visual Question Answering

Haozhan Shen, Shilin Yan, Hongwei Xue, et al.

Can Vision-Language Models Solve the Shell Game?

Object Tracking

Video Understanding

Tiedong Liu, Wee Sun Lee

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

Diffusion Model

Yaofeng Su, Yuming Li, Zeyue Xue, et al.

daVinci-Env: Open SWE Environment Synthesis at Scale

Code Generation

Dayuan Fu, Shenyu Wu, Yunze Wu, et al.

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

Yichen Zhang, Da Peng, Zonghao Guo, et al.

LMEB: Long-horizon Memory Embedding Benchmark

Retrieval-Augmented Generation

Xinping Zhao, Xinshuo Hu, Jiaxin Xu, et al.

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

Video Generation

Yujie Wei, Xinyu Liu, Shiwei Zhang, et al.

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Efficient Reasoning with Balanced Thinking

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Complementary Reinforcement Learning

Alignment Makes Language Models Normative, Not Descriptive

MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

Video-CoE: Reinforcing Video Event Prediction via Chain of Events

FunCineForge: A Unified Dataset Toolkit and Model for Zero-Shot Movie Dubbing in Diverse Cinematic Scenes

In-Context Watermarks for Large Language Models

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Demystifing Video Reasoning

Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

Qianfan-OCR: A Unified End-to-End Model for Document Intelligence

InCoder-32B: Code Foundation Model for Industrial Scenarios

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

Mixture-of-Depths Attention

Attention Residuals

Grounding World Simulation Models in a Real-World Metropolis

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

AI Can Learn Scientific Taste

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Can Vision-Language Models Solve the Shell Game?

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

daVinci-Env: Open SWE Environment Synthesis at Scale

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

LMEB: Long-horizon Memory Embedding Benchmark

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Efficient Reasoning with Balanced Thinking

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Complementary Reinforcement Learning

Alignment Makes Language Models Normative, Not Descriptive

MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

Video-CoE: Reinforcing Video Event Prediction via Chain of Events

FunCineForge: A Unified Dataset Toolkit and Model for Zero-Shot Movie Dubbing in Diverse Cinematic Scenes

In-Context Watermarks for Large Language Models

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Demystifing Video Reasoning

Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

Qianfan-OCR: A Unified End-to-End Model for Document Intelligence

InCoder-32B: Code Foundation Model for Industrial Scenarios

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

Mixture-of-Depths Attention

Attention Residuals

Grounding World Simulation Models in a Real-World Metropolis

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

AI Can Learn Scientific Taste

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Can Vision-Language Models Solve the Shell Game?

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

daVinci-Env: Open SWE Environment Synthesis at Scale

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

LMEB: Long-horizon Memory Embedding Benchmark

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning