HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

MulTaBench: Benchmarking Multimodal Tabular Learning with Text and Image

MulTaBench: Benchmarking Multimodal Tabular Learning with Text and Image

Multimodal Representation

Alan Arazi, Eilam Shapira, Shoham Grunblat, et al.

Geometric Context Transformer for Streaming 3D Reconstruction

Geometric Context Transformer for Streaming 3D Reconstruction

3D Machine Vision

Video Processing

Lin-Zhuo Chen, Jian Gao, Yihang Chen, et al.

Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

Supervised Fine-Tuning

Zhuolin Yang, Zihan Liu, Yang Chen, et al.

MOSS-TTS Technical Report

Audio and Speech Processing

SII-OpenMOSS Team

StreakMind: AI detection and analysis of satellite streaks in astronomical images with automated database integration

Object Detection

Computer Vision

Rafael Carrillo, René Duffard, Pablo García-Martín, et al.

VibeServe: Can AI Agents Build Bespoke LLM Serving Systems?

Keisuke Kamahori, Shihang Li, Simon Peter, et al.

delta-mem: Efficient Online Memory for Large Language Models

Jingdi Lei, Di Zhang, Junxian Li, et al.

MCP-Cosmos: World Model-Augmented Agents for Complex Task Execution in MCP Environments

Giridhar Ganapavarapu, Dhaval Patel

Beyond Reasoning: Reinforcement Learning Unlocks Parametric Knowledge in LLMs

Reinforcement Learning

Wanli Yang, Hongyu Zang, Junwei Zhang, et al.

Debiased Model-based Representations for Sample-efficient Continuous Control

Reinforcement Learning

Jiafei Lyu, Zichuan Lin, Scott Fujimoto, et al.

Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs

Guinan Su, Yanwu Yang, Xueyan Li, et al.

Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States

Reinforcement Learning

Yunho Choi, Jongwon Lim, Woojin Ahn, et al.

Relit-LiVE: Relight Video by Jointly Learning Environment Video

Diffusion Model

Video Generation

Weiqing Xiao, Hong Li, Xiuyu Yang, et al.

Positive Alignment: Artificial Intelligence for Human Flourishing

Ruben Laukkonen, Seb Krier, Chloé Bakalar, et al.

LLaVA-UHD v4: What Makes Efficient Visual Encoding in MLLMs?

Multimodal Representation

Kechen Fang, Yihua Qin, Chongyi Wang, et al.

Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why

Mohammadreza Armandpour, Fatih Ilhan, David Harrison, et al.

A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models

Text Generation

Hamid Kazemi, Atoosa Chegini, Maria Safi

SlimQwen: Exploring the Pruning and Distillation in Large MoE Model Pre-training

Shengkun Tang, Zekun Wang, Bo Zheng, et al.

ELF: Embedded Language Flows

Diffusion Model

Text Generation

Keya Hu, Linlu Qiu, Yiyang Lu, et al.

PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents

Document Understanding

Bihui Yu, Xinglong Xu, Junjie Jiang, et al.

Rubric-based On-policy Distillation

Junfeng Fang, Zhepei Hong, Mao Zheng, et al.

CollabVR: Collaborative Video Reasoning with Vision-Language and Video Generation Models

Video Generation

Video Understanding

Joowon Kim, Seungho Shin, Joonhyung Park, et al.

TMAS: Scaling Test-Time Compute via Multi-Agent Synergy

George Wu, Nan Jing, Qing Yi, et al.

Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

Guijin Son, Seungone Kim, Catherine Arnett, et al.

Qwen-Image-2.0 Technical Report

Bing Zhao, Chenfei Wu, Deqing Li, et al.

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

Junbo Cui, Bokai Xu, Chongyi Wang, et al.

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

Reinforcement Learning

Yi Wang, Xincheng Li, Pengwei Xie, et al.

Fast Byte Latent Transformer

Text Generation

Diffusion Model

Julie Kallini, Artidoro Pagnoni, Tomasz Limisiewicz, et al.

AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

Daniel Zheng, Ingrid von Glehn, Yori Zwols, et al.

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

Retrieval-Augmented Generation

Guankai Li, Jiabin Chen, Yi Xu, et al.

Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers

Diffusion Model

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

Tong Zheng, Haolin Liu, Chengsong Huang, et al.

MulTaBench: Benchmarking Multimodal Tabular Learning with Text and Image

MulTaBench: Benchmarking Multimodal Tabular Learning with Text and Image

Multimodal Representation

Alan Arazi, Eilam Shapira, Shoham Grunblat, et al.

Geometric Context Transformer for Streaming 3D Reconstruction

Geometric Context Transformer for Streaming 3D Reconstruction

3D Machine Vision

Video Processing

Lin-Zhuo Chen, Jian Gao, Yihang Chen, et al.

Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

Supervised Fine-Tuning

Zhuolin Yang, Zihan Liu, Yang Chen, et al.

MOSS-TTS Technical Report

Audio and Speech Processing

SII-OpenMOSS Team

StreakMind: AI detection and analysis of satellite streaks in astronomical images with automated database integration

Object Detection

Computer Vision

Rafael Carrillo, René Duffard, Pablo García-Martín, et al.

VibeServe: Can AI Agents Build Bespoke LLM Serving Systems?

Keisuke Kamahori, Shihang Li, Simon Peter, et al.

delta-mem: Efficient Online Memory for Large Language Models

Jingdi Lei, Di Zhang, Junxian Li, et al.

MCP-Cosmos: World Model-Augmented Agents for Complex Task Execution in MCP Environments

Giridhar Ganapavarapu, Dhaval Patel

Beyond Reasoning: Reinforcement Learning Unlocks Parametric Knowledge in LLMs

Reinforcement Learning

Wanli Yang, Hongyu Zang, Junwei Zhang, et al.

Debiased Model-based Representations for Sample-efficient Continuous Control

Reinforcement Learning

Jiafei Lyu, Zichuan Lin, Scott Fujimoto, et al.

Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs

Guinan Su, Yanwu Yang, Xueyan Li, et al.

Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States

Reinforcement Learning

Yunho Choi, Jongwon Lim, Woojin Ahn, et al.

Relit-LiVE: Relight Video by Jointly Learning Environment Video

Diffusion Model

Video Generation

Weiqing Xiao, Hong Li, Xiuyu Yang, et al.

Positive Alignment: Artificial Intelligence for Human Flourishing

Ruben Laukkonen, Seb Krier, Chloé Bakalar, et al.

LLaVA-UHD v4: What Makes Efficient Visual Encoding in MLLMs?

Multimodal Representation

Kechen Fang, Yihua Qin, Chongyi Wang, et al.

Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why

Mohammadreza Armandpour, Fatih Ilhan, David Harrison, et al.

A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models

Text Generation

Hamid Kazemi, Atoosa Chegini, Maria Safi

SlimQwen: Exploring the Pruning and Distillation in Large MoE Model Pre-training

Shengkun Tang, Zekun Wang, Bo Zheng, et al.

ELF: Embedded Language Flows

Diffusion Model

Text Generation

Keya Hu, Linlu Qiu, Yiyang Lu, et al.

PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents

Document Understanding

Bihui Yu, Xinglong Xu, Junjie Jiang, et al.

Rubric-based On-policy Distillation

Junfeng Fang, Zhepei Hong, Mao Zheng, et al.

CollabVR: Collaborative Video Reasoning with Vision-Language and Video Generation Models

Video Generation

Video Understanding

Joowon Kim, Seungho Shin, Joonhyung Park, et al.

TMAS: Scaling Test-Time Compute via Multi-Agent Synergy

George Wu, Nan Jing, Qing Yi, et al.

Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

Guijin Son, Seungone Kim, Catherine Arnett, et al.

Qwen-Image-2.0 Technical Report

Bing Zhao, Chenfei Wu, Deqing Li, et al.

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

Junbo Cui, Bokai Xu, Chongyi Wang, et al.

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

Reinforcement Learning

Yi Wang, Xincheng Li, Pengwei Xie, et al.

Fast Byte Latent Transformer

Text Generation

Diffusion Model

Julie Kallini, Artidoro Pagnoni, Tomasz Limisiewicz, et al.

AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

Daniel Zheng, Ingrid von Glehn, Yori Zwols, et al.

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

Retrieval-Augmented Generation

Guankai Li, Jiabin Chen, Yi Xu, et al.

Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers

Diffusion Model

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

Tong Zheng, Haolin Liu, Chengsong Huang, et al.

Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

MOSS-TTS Technical Report

StreakMind: AI detection and analysis of satellite streaks in astronomical images with automated database integration

VibeServe: Can AI Agents Build Bespoke LLM Serving Systems?

delta-mem: Efficient Online Memory for Large Language Models

MCP-Cosmos: World Model-Augmented Agents for Complex Task Execution in MCP Environments

Beyond Reasoning: Reinforcement Learning Unlocks Parametric Knowledge in LLMs

Debiased Model-based Representations for Sample-efficient Continuous Control

Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs

Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States

Relit-LiVE: Relight Video by Jointly Learning Environment Video

Positive Alignment: Artificial Intelligence for Human Flourishing

LLaVA-UHD v4: What Makes Efficient Visual Encoding in MLLMs?

Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why

A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models

SlimQwen: Exploring the Pruning and Distillation in Large MoE Model Pre-training

ELF: Embedded Language Flows

PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents

Rubric-based On-policy Distillation

CollabVR: Collaborative Video Reasoning with Vision-Language and Video Generation Models

TMAS: Scaling Test-Time Compute via Multi-Agent Synergy

Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

Qwen-Image-2.0 Technical Report

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

Fast Byte Latent Transformer

AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

MOSS-TTS Technical Report

StreakMind: AI detection and analysis of satellite streaks in astronomical images with automated database integration

VibeServe: Can AI Agents Build Bespoke LLM Serving Systems?

delta-mem: Efficient Online Memory for Large Language Models

MCP-Cosmos: World Model-Augmented Agents for Complex Task Execution in MCP Environments

Beyond Reasoning: Reinforcement Learning Unlocks Parametric Knowledge in LLMs

Debiased Model-based Representations for Sample-efficient Continuous Control

Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs

Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States

Relit-LiVE: Relight Video by Jointly Learning Environment Video

Positive Alignment: Artificial Intelligence for Human Flourishing

LLaVA-UHD v4: What Makes Efficient Visual Encoding in MLLMs?

Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why

A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models

SlimQwen: Exploring the Pruning and Distillation in Large MoE Model Pre-training

ELF: Embedded Language Flows

PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents

Rubric-based On-policy Distillation

CollabVR: Collaborative Video Reasoning with Vision-Language and Video Generation Models

TMAS: Scaling Test-Time Compute via Multi-Agent Synergy

Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

Qwen-Image-2.0 Technical Report

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

Fast Byte Latent Transformer

AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling