HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

Video Generation

Songlin Yang, Zhe Wang, Xuyi Yang, et al.

Video-Based Reward Modeling for Computer-Use Agents

Video-Based Reward Modeling for Computer-Use Agents

Video Understanding

Linxin Song, Jieyu Zhang, Huanxin Sheng, et al.

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Yushi Bai, Qian Dong, Ting Jiang, et al.

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Intelligent Question Answering

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, et al.

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Video Understanding

Video Processing

Fangfu Liu, Diankun Wu, Jiawei Chi, et al.

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Jiyeon Kim, Hyunji Lee, Dylan Zhou, et al.

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

Supervised Fine-Tuning

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, et al.

In-Context Reinforcement Learning for Tool Use in Large Language Models

Reinforcement Learning

Yaoqi Ye, Yiran Zhao, Keyu Duan, et al.

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Visual Question Answering

Video Understanding

Kangsan Kim, Yanlai Yang, Suji Kim, et al.

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

Shuo Yang, Haocheng Xi, Yilong Zhao, et al.

OpenClaw-RL: Train Any Agent Simply by Talking

Reinforcement Learning

Yinjie Wang, Xuyang Chen, Xiaolong Jin, et al.

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Visual Question Answering

Yuchen Yang, Yuqing Shao, Duxiu Huang, et al.

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Changyao Tian, Danni Yang, Guanzhou Chen, et al.

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Visual Question Answering

Zongxia Li, Hongyang Du, Chengsong Huang, et al.

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Zorik Gekhman, Roee Aharoni, Eran Ofek, et al.

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Diffusion Model

Lijiang Li, Zuwei Long, Yunhang Shen, et al.

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

Diffusion Model

Jiyuan Wang, Chunyu Lin, Lei Sun, et al.

CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

Diffusion Model

Yucheng Wang, Zedong Wang, Yuetong Wu, et al.

Believe Your Model: Distribution-Guided Confidence Calibration

Xizhong Yang, Haotian Zhang, Huiming Wang, et al.

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

3D Machine Vision

Video Processing

Junyi Zhang, Charles Herrmann, Junhwa Hur, et al.

How Far Can Unsupervised RLVR Scale LLM Training?

Reinforcement Learning

Bingxiang He, Yuxin Zuo, Zeyuan Liu, et al.

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Video Understanding

Yuanyuan Gao, Hao Li, Yifei Liu, et al.

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Text Generation

Junjie Li, Xinrui Guo, Yuhao Wu, et al.

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, et al.

Real-Time AI Service Economy: A Framework for Agentic Computing Across the Continuum

Lauri Lovén, Alaa Saleh, Reza Farahani, et al.

NOTAI.AI: Explainable Detection of Machine-Generated Text via Curvature and Feature Attribution

Text Generation

Oleksandr Marchenko Breneur, Adelaide Danilov, Aria Nourbakhsh, et al.

Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs

Patrick Ahrend, Tobias Eder, Xiyang Yang, et al.

RACAS: Controlling Diverse Robots With a Single Agentic System

Dylan R. Ashley, Jan Przepióra, Yimeng Chen, et al.

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, et al.

ArtLLM: Generating Articulated Assets via 3D LLM

Penghao Wang, Siyuan Xie, Hongyu Yan, et al.

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

Image Inpainting

Diffusion Model

Yichen Liu, Donghao Zhou, Jie Wang, et al.

RoboPocket: Improve Robot Policies Instantly with Your Phone

Reinforcement Learning

Supervised Fine-Tuning

Junjie Fang, Wendi Chen, Han Xue, et al.

ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

Video Generation

Songlin Yang, Zhe Wang, Xuyi Yang, et al.

Video-Based Reward Modeling for Computer-Use Agents

Video-Based Reward Modeling for Computer-Use Agents

Video Understanding

Linxin Song, Jieyu Zhang, Huanxin Sheng, et al.

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Yushi Bai, Qian Dong, Ting Jiang, et al.

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Intelligent Question Answering

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, et al.

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Video Understanding

Video Processing

Fangfu Liu, Diankun Wu, Jiawei Chi, et al.

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Jiyeon Kim, Hyunji Lee, Dylan Zhou, et al.

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

Supervised Fine-Tuning

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, et al.

In-Context Reinforcement Learning for Tool Use in Large Language Models

Reinforcement Learning

Yaoqi Ye, Yiran Zhao, Keyu Duan, et al.

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Visual Question Answering

Video Understanding

Kangsan Kim, Yanlai Yang, Suji Kim, et al.

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

Shuo Yang, Haocheng Xi, Yilong Zhao, et al.

OpenClaw-RL: Train Any Agent Simply by Talking

Reinforcement Learning

Yinjie Wang, Xuyang Chen, Xiaolong Jin, et al.

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Visual Question Answering

Yuchen Yang, Yuqing Shao, Duxiu Huang, et al.

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Changyao Tian, Danni Yang, Guanzhou Chen, et al.

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Visual Question Answering

Zongxia Li, Hongyang Du, Chengsong Huang, et al.

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Zorik Gekhman, Roee Aharoni, Eran Ofek, et al.

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Diffusion Model

Lijiang Li, Zuwei Long, Yunhang Shen, et al.

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

Diffusion Model

Jiyuan Wang, Chunyu Lin, Lei Sun, et al.

CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

Diffusion Model

Yucheng Wang, Zedong Wang, Yuetong Wu, et al.

Believe Your Model: Distribution-Guided Confidence Calibration

Xizhong Yang, Haotian Zhang, Huiming Wang, et al.

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

3D Machine Vision

Video Processing

Junyi Zhang, Charles Herrmann, Junhwa Hur, et al.

How Far Can Unsupervised RLVR Scale LLM Training?

Reinforcement Learning

Bingxiang He, Yuxin Zuo, Zeyuan Liu, et al.

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Video Understanding

Yuanyuan Gao, Hao Li, Yifei Liu, et al.

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Text Generation

Junjie Li, Xinrui Guo, Yuhao Wu, et al.

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, et al.

Real-Time AI Service Economy: A Framework for Agentic Computing Across the Continuum

Lauri Lovén, Alaa Saleh, Reza Farahani, et al.

NOTAI.AI: Explainable Detection of Machine-Generated Text via Curvature and Feature Attribution

Text Generation

Oleksandr Marchenko Breneur, Adelaide Danilov, Aria Nourbakhsh, et al.

Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs

Patrick Ahrend, Tobias Eder, Xiyang Yang, et al.

RACAS: Controlling Diverse Robots With a Single Agentic System

Dylan R. Ashley, Jan Przepióra, Yimeng Chen, et al.

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, et al.

ArtLLM: Generating Articulated Assets via 3D LLM

Penghao Wang, Siyuan Xie, Hongyu Yan, et al.

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

Image Inpainting

Diffusion Model

Yichen Liu, Donghao Zhou, Jie Wang, et al.

RoboPocket: Improve Robot Policies Instantly with Your Phone

Reinforcement Learning

Supervised Fine-Tuning

Junjie Fang, Wendi Chen, Han Xue, et al.

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

In-Context Reinforcement Learning for Tool Use in Large Language Models

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

OpenClaw-RL: Train Any Agent Simply by Talking

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

Believe Your Model: Distribution-Guided Confidence Calibration

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

How Far Can Unsupervised RLVR Scale LLM Training?

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

Real-Time AI Service Economy: A Framework for Agentic Computing Across the Continuum

NOTAI.AI: Explainable Detection of Machine-Generated Text via Curvature and Feature Attribution

Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs

RACAS: Controlling Diverse Robots With a Single Agentic System

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

ArtLLM: Generating Articulated Assets via 3D LLM

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

RoboPocket: Improve Robot Policies Instantly with Your Phone

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

In-Context Reinforcement Learning for Tool Use in Large Language Models

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

OpenClaw-RL: Train Any Agent Simply by Talking

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

Believe Your Model: Distribution-Guided Confidence Calibration

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

How Far Can Unsupervised RLVR Scale LLM Training?

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

Real-Time AI Service Economy: A Framework for Agentic Computing Across the Continuum

NOTAI.AI: Explainable Detection of Machine-Generated Text via Curvature and Feature Attribution

Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs

RACAS: Controlling Diverse Robots With a Single Agentic System

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

ArtLLM: Generating Articulated Assets via 3D LLM

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

RoboPocket: Improve Robot Policies Instantly with Your Phone