HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Med-Banana-50K: A Cross-modality Large-Scale Dataset for Text-guided Medical Image Editing

Med-Banana-50K: A Cross-modality Large-Scale Dataset for Text-guided Medical Image Editing

Zhihui Chen, Mengling Feng

Kascade: A Practical Sparse Attention Method for Long-Context LLM Inference

Kascade: A Practical Sparse Attention Method for Long-Context LLM Inference

Dhruv Deshmukh, Saurabh Goyal, Nipun Kwatra, et al.

GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

Rang Li, Lei Li, Shuhuai Ren, et al.

Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

Diffusion Model

Shilong Zhang, He Zhang, Zhifei Zhang, et al.

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

Visual Question Answering

Multimodal Representation

Chiao-An Yang, Ryo Hachiuma, Sifei Liu, et al.

Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience

Code Generation

Jiangjie Chen, Wenxiang Chen, Jiacheng Du, et al.

When Reasoning Meets Its Laws

Junyu Zhang, Yifan Sun, Tianang Leng, et al.

Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

Wanghan Xu, Yuhao Zhou, Yifan Zhou, et al.

K2-V2: A 360-Open, Reasoning-Enhanced LLM

Supervised Fine-Tuning

Zhengzhong Liu, Liping Tang, Linghao Jin, et al.

VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

Human-Computer Interaction

Beitong Zhou, Zhexiao Huang, Yuan Guo, et al.

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

Sara Papi, Maike Züfle, Marco Gaido, et al.

NitroGen: An Open Foundation Model for Generalist Gaming Agents

Computer Vision

Video Understanding

Loic Magne, Anas Awadalla, Guanzhi Wang, et al.

H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs

Natural Language Processing

Cheng Gao, Huimin Chen, Chaojun Xiao, et al.

The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

Hanlin Wang, Hao Ouyang, Qiuyu Wang, et al.

Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

Diffusion Model

Kaixin Ding, Yang Zhou, Xi Chen, et al.

Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

Depth Estimation

3D Machine Vision

Xin Lin, Meixi Song, Dizhe Zhang, et al.

Generative Refocusing: Flexible Defocus Control from a Single Image

Depth Estimation

Chun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

Video Processing

Guibao Shen, Yihua Du, Wenhang Ge, et al.

Next-Embedding Prediction Makes Strong Vision Learners

Computer Vision

Sihan Xu, Ziqiao Ma, Wenhao Chai, et al.

Agent AI: Surveying the Horizons of Multimodal Interaction

Embodied Intelligence

Zane Durante, Qiuyuan Huang, Naoki Wake, et al.

AI Mathematician as a Partner in Advancing Mathematical Discovery -- A Case Study in Homogenization Theory

Artificial Intelligence

Yuanhang Liu, Beichen Wang, Peng Li, et al.

GenEval 2: Addressing Benchmark Drift in Text-to-Image Evaluation

Amita Kamath, Kai-Wei Chang, Ranjay Krishna, et al.

PrivateXR: Defending Privacy Attacks in Extended Reality Through Explainable AI-Guided Differential Privacy

Emotion Recognition

Ripan Kumar Kundu, Istiak Ahmed, Khaza Anuarul Hoque

Temporal Frictions and Judicial Outcomes: Analyzing the Impact of Time Delays on Criminal Sentencing in Cook County (2020-2024)

Meta-RL Induces Exploration in Language Agents

Reinforcement Learning

Yulun Jiang, Liangze Jiang, Damien Teney, et al.

LLMCache: Layer-Wise Caching Strategies for Accelerated Reuse in Transformer Inference

Harsh Vardhan Bansal

OPENTOUCH: Bringing Full-Hand Touch to Real-World Interaction

Video Understanding

Yuxin Ray Song, Jinzhou Li, Rao Fu, et al.

VideoRewardBench: Comprehensive Evaluation of Multimodal Reward Models for Video Understanding

Video Understanding

Visual Question Answering

Zhihong Zhang, Xiaojian Huang, Jin Xu, et al.

Soul: Breathe Life into Digital Human for High-fidelity Long-term Multimodal Animation

Jiangning Zhang, Junwei Zhu, Zhenye Gan, et al.

IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual

Visual Question Answering

Tao Zhang, Yuyang Hong, Yang Xia, et al.

RecGPT-V2 Technical Report

Chao Yi, Dian Chen, Gaoyang Guo, et al.

Med-Banana-50K: A Cross-modality Large-Scale Dataset for Text-guided Medical Image Editing

Med-Banana-50K: A Cross-modality Large-Scale Dataset for Text-guided Medical Image Editing

Zhihui Chen, Mengling Feng

Kascade: A Practical Sparse Attention Method for Long-Context LLM Inference

Kascade: A Practical Sparse Attention Method for Long-Context LLM Inference

Dhruv Deshmukh, Saurabh Goyal, Nipun Kwatra, et al.

GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

Rang Li, Lei Li, Shuhuai Ren, et al.

Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

Diffusion Model

Shilong Zhang, He Zhang, Zhifei Zhang, et al.

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

Visual Question Answering

Multimodal Representation

Chiao-An Yang, Ryo Hachiuma, Sifei Liu, et al.

Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience

Code Generation

Jiangjie Chen, Wenxiang Chen, Jiacheng Du, et al.

When Reasoning Meets Its Laws

Junyu Zhang, Yifan Sun, Tianang Leng, et al.

Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

Wanghan Xu, Yuhao Zhou, Yifan Zhou, et al.

K2-V2: A 360-Open, Reasoning-Enhanced LLM

Supervised Fine-Tuning

Zhengzhong Liu, Liping Tang, Linghao Jin, et al.

VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

Human-Computer Interaction

Beitong Zhou, Zhexiao Huang, Yuan Guo, et al.

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

Sara Papi, Maike Züfle, Marco Gaido, et al.

NitroGen: An Open Foundation Model for Generalist Gaming Agents

Computer Vision

Video Understanding

Loic Magne, Anas Awadalla, Guanzhi Wang, et al.

H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs

Natural Language Processing

Cheng Gao, Huimin Chen, Chaojun Xiao, et al.

The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

Hanlin Wang, Hao Ouyang, Qiuyu Wang, et al.

Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

Diffusion Model

Kaixin Ding, Yang Zhou, Xi Chen, et al.

Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

Depth Estimation

3D Machine Vision

Xin Lin, Meixi Song, Dizhe Zhang, et al.

Generative Refocusing: Flexible Defocus Control from a Single Image

Depth Estimation

Chun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

Video Processing

Guibao Shen, Yihua Du, Wenhang Ge, et al.

Next-Embedding Prediction Makes Strong Vision Learners

Computer Vision

Sihan Xu, Ziqiao Ma, Wenhao Chai, et al.

Agent AI: Surveying the Horizons of Multimodal Interaction

Embodied Intelligence

Zane Durante, Qiuyuan Huang, Naoki Wake, et al.

AI Mathematician as a Partner in Advancing Mathematical Discovery -- A Case Study in Homogenization Theory

Artificial Intelligence

Yuanhang Liu, Beichen Wang, Peng Li, et al.

GenEval 2: Addressing Benchmark Drift in Text-to-Image Evaluation

Amita Kamath, Kai-Wei Chang, Ranjay Krishna, et al.

PrivateXR: Defending Privacy Attacks in Extended Reality Through Explainable AI-Guided Differential Privacy

Emotion Recognition

Ripan Kumar Kundu, Istiak Ahmed, Khaza Anuarul Hoque

Temporal Frictions and Judicial Outcomes: Analyzing the Impact of Time Delays on Criminal Sentencing in Cook County (2020-2024)

Meta-RL Induces Exploration in Language Agents

Reinforcement Learning

Yulun Jiang, Liangze Jiang, Damien Teney, et al.

LLMCache: Layer-Wise Caching Strategies for Accelerated Reuse in Transformer Inference

Harsh Vardhan Bansal

OPENTOUCH: Bringing Full-Hand Touch to Real-World Interaction

Video Understanding

Yuxin Ray Song, Jinzhou Li, Rao Fu, et al.

VideoRewardBench: Comprehensive Evaluation of Multimodal Reward Models for Video Understanding

Video Understanding

Visual Question Answering

Zhihong Zhang, Xiaojian Huang, Jin Xu, et al.

Soul: Breathe Life into Digital Human for High-fidelity Long-term Multimodal Animation

Jiangning Zhang, Junwei Zhu, Zhenye Gan, et al.

IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual

Visual Question Answering

Tao Zhang, Yuyang Hong, Yang Xia, et al.

RecGPT-V2 Technical Report

Chao Yi, Dian Chen, Gaoyang Guo, et al.

GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience

When Reasoning Meets Its Laws

Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

K2-V2: A 360-Open, Reasoning-Enhanced LLM

VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

NitroGen: An Open Foundation Model for Generalist Gaming Agents

H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs

The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

Generative Refocusing: Flexible Defocus Control from a Single Image

StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

Next-Embedding Prediction Makes Strong Vision Learners

Agent AI: Surveying the Horizons of Multimodal Interaction

AI Mathematician as a Partner in Advancing Mathematical Discovery -- A Case Study in Homogenization Theory

GenEval 2: Addressing Benchmark Drift in Text-to-Image Evaluation

PrivateXR: Defending Privacy Attacks in Extended Reality Through Explainable AI-Guided Differential Privacy

Temporal Frictions and Judicial Outcomes: Analyzing the Impact of Time Delays on Criminal Sentencing in Cook County (2020-2024)

Meta-RL Induces Exploration in Language Agents

LLMCache: Layer-Wise Caching Strategies for Accelerated Reuse in Transformer Inference

OPENTOUCH: Bringing Full-Hand Touch to Real-World Interaction

VideoRewardBench: Comprehensive Evaluation of Multimodal Reward Models for Video Understanding

Soul: Breathe Life into Digital Human for High-fidelity Long-term Multimodal Animation

IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual

RecGPT-V2 Technical Report

GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience

When Reasoning Meets Its Laws

Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

K2-V2: A 360-Open, Reasoning-Enhanced LLM

VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

NitroGen: An Open Foundation Model for Generalist Gaming Agents

H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs

The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

Generative Refocusing: Flexible Defocus Control from a Single Image

StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

Next-Embedding Prediction Makes Strong Vision Learners

Agent AI: Surveying the Horizons of Multimodal Interaction

AI Mathematician as a Partner in Advancing Mathematical Discovery -- A Case Study in Homogenization Theory

GenEval 2: Addressing Benchmark Drift in Text-to-Image Evaluation

PrivateXR: Defending Privacy Attacks in Extended Reality Through Explainable AI-Guided Differential Privacy

Temporal Frictions and Judicial Outcomes: Analyzing the Impact of Time Delays on Criminal Sentencing in Cook County (2020-2024)

Meta-RL Induces Exploration in Language Agents

LLMCache: Layer-Wise Caching Strategies for Accelerated Reuse in Transformer Inference

OPENTOUCH: Bringing Full-Hand Touch to Real-World Interaction

VideoRewardBench: Comprehensive Evaluation of Multimodal Reward Models for Video Understanding

Soul: Breathe Life into Digital Human for High-fidelity Long-term Multimodal Animation

IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual

RecGPT-V2 Technical Report