HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Separating Intelligence from Execution: A Workflow Engine for the Model Context Protocol

Separating Intelligence from Execution: A Workflow Engine for the Model Context Protocol

Abhinav Singh Parmar

Understanding the Performance Plateau in Text-to-Video Retrieval: A Comprehensive Empirical and Linguistic Analysis

Understanding the Performance Plateau in Text-to-Video Retrieval: A Comprehensive Empirical and Linguistic Analysis

Maria-Eirini Pegia, Dimitrios Stefanopoulos, Björn Þór Jónsson, et al.

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

Retrieval-Augmented Generation

Siyuan Huang, Xiaoye Qu, Yafu Li, et al.

EnergAIzer: Fast and Accurate GPU Power Estimation Framework for AI Workloads

High-Performance Computing

Kyungmi Lee, Zhiye Song, Eun Kyung Lee, et al.

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Image Generation

Image Inpainting

Hanzhong Guo, Jie Wu, Jie Liu, et al.

Efficient Training on Multiple Consumer GPUs with RoundPipe

Yibin Luo, Shiwei Gao, Huichuan Zheng, et al.

ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control

Video Generation

Embodied Intelligence

Yanghao Zhou, Jingyu Ma, Yibo Peng, et al.

Co-Evolving Policy Distillation

Naibin Gu, Chenxu Yang, Qingyi Si, et al.

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Image Generation

Keming Wu, Zuhao Yang, Kaichen Zhang, et al.

Heterogeneous Scientific Foundation Model Collaboration

Zihao Li, Jiaru Zou, Feihao Fang, et al.

Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

Diffusion Model

Image Generation

Zhongjie Duan, Hong Zhang, Yingda Chen

RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

Multimodal Representation

3D Machine Vision

Zaid Nasser, Mikhail Iumanov, Tianhao Li, et al.

ClawGym: A Scalable Framework for Building Effective Claw Agents

Fei Bai, Huatong Song, Shuang Sun, et al.

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Diffusion Model

Gongbo Zhang, Wen Wang, Ye Tian, et al.

Large Language Models Explore by Latent Distilling

Text Generation

Yuanhao Zeng, Ao Lu, Lufei Li, et al.

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

V Team, Wenyi Hong, Xiaotao Gu, et al.

SWE-chat: Coding Agent Interactions From Real Users in the Wild

Code Generation

Joachim Baumann, Vishakh Padmakumar, Xiang Li, et al.

AdaExplore: Failure-Driven Adaptation and Diversity-Preserving Search for Efficient Kernel Generation

Code Generation

Weihua Du, Jingming Zhuo, Yixin Dong, et al.

Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models

Image Generation

Jiayi Guo, Linqing Wang, Jiangshan Wang, et al.

AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery

Lei Xiong, Kun Luo, Ziyi Xia, et al.

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

Image Understanding

Visual Question Answering

Shiyi Zhang, Yiji Cheng, Tiankai Hang, et al.

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Multimodal Representation

Jinxiang Meng, Shaoping Huang, Fangyu Lei, et al.

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

Supervised Fine-Tuning

Chenkai Pan, Xinglong Xu, Yuhang Xu, et al.

Recursive Multi-Agent Systems

Xiyuan Yang, Jiaru Zou, Rui Pan, et al.

Skill Retrieval Augmentation for Agentic AI

Retrieval-Augmented Generation

Weihang Su, Jianming Long, Qingyao Ai, et al.

SketchVLM: Vision language models can annotate images to explain thoughts and guide users

Visual Question Answering

Brandon Collins, Logan Bolton, Hung Huy Nguyen, et al.

RSRCC: A Remote Sensing Regional Change Comprehension Benchmark Constructed via Retrieval-Augmented Best-of-N Ranking

Visual Question Answering

Retrieval-Augmented Generation

Roie Kazoom, Yotam Gigi, George Leifman, et al.

LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech

Audio and Speech Processing

Fei Yang, Xuanfan Ni, Renyi Yang, et al.

ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

Fanqing Meng, Lingxiao Du, Zijian Wu, et al.

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

Image Generation

Zhiheng Liu, Weiming Ren, Xiaoke Huang, et al.

Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms

Qi Li, Bo Yin, Weiqi Huang, et al.

ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning

Visual Question Answering

Video Understanding

Yiming Zhang, Jiacheng Chen, Jiaqi Tan, et al.

Separating Intelligence from Execution: A Workflow Engine for the Model Context Protocol

Separating Intelligence from Execution: A Workflow Engine for the Model Context Protocol

Abhinav Singh Parmar

Understanding the Performance Plateau in Text-to-Video Retrieval: A Comprehensive Empirical and Linguistic Analysis

Understanding the Performance Plateau in Text-to-Video Retrieval: A Comprehensive Empirical and Linguistic Analysis

Maria-Eirini Pegia, Dimitrios Stefanopoulos, Björn Þór Jónsson, et al.

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

Retrieval-Augmented Generation

Siyuan Huang, Xiaoye Qu, Yafu Li, et al.

EnergAIzer: Fast and Accurate GPU Power Estimation Framework for AI Workloads

High-Performance Computing

Kyungmi Lee, Zhiye Song, Eun Kyung Lee, et al.

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Image Generation

Image Inpainting

Hanzhong Guo, Jie Wu, Jie Liu, et al.

Efficient Training on Multiple Consumer GPUs with RoundPipe

Yibin Luo, Shiwei Gao, Huichuan Zheng, et al.

ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control

Video Generation

Embodied Intelligence

Yanghao Zhou, Jingyu Ma, Yibo Peng, et al.

Co-Evolving Policy Distillation

Naibin Gu, Chenxu Yang, Qingyi Si, et al.

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Image Generation

Keming Wu, Zuhao Yang, Kaichen Zhang, et al.

Heterogeneous Scientific Foundation Model Collaboration

Zihao Li, Jiaru Zou, Feihao Fang, et al.

Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

Diffusion Model

Image Generation

Zhongjie Duan, Hong Zhang, Yingda Chen

RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

Multimodal Representation

3D Machine Vision

Zaid Nasser, Mikhail Iumanov, Tianhao Li, et al.

ClawGym: A Scalable Framework for Building Effective Claw Agents

Fei Bai, Huatong Song, Shuang Sun, et al.

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Diffusion Model

Gongbo Zhang, Wen Wang, Ye Tian, et al.

Large Language Models Explore by Latent Distilling

Text Generation

Yuanhao Zeng, Ao Lu, Lufei Li, et al.

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

V Team, Wenyi Hong, Xiaotao Gu, et al.

SWE-chat: Coding Agent Interactions From Real Users in the Wild

Code Generation

Joachim Baumann, Vishakh Padmakumar, Xiang Li, et al.

AdaExplore: Failure-Driven Adaptation and Diversity-Preserving Search for Efficient Kernel Generation

Code Generation

Weihua Du, Jingming Zhuo, Yixin Dong, et al.

Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models

Image Generation

Jiayi Guo, Linqing Wang, Jiangshan Wang, et al.

AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery

Lei Xiong, Kun Luo, Ziyi Xia, et al.

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

Image Understanding

Visual Question Answering

Shiyi Zhang, Yiji Cheng, Tiankai Hang, et al.

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Multimodal Representation

Jinxiang Meng, Shaoping Huang, Fangyu Lei, et al.

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

Supervised Fine-Tuning

Chenkai Pan, Xinglong Xu, Yuhang Xu, et al.

Recursive Multi-Agent Systems

Xiyuan Yang, Jiaru Zou, Rui Pan, et al.

Skill Retrieval Augmentation for Agentic AI

Retrieval-Augmented Generation

Weihang Su, Jianming Long, Qingyao Ai, et al.

SketchVLM: Vision language models can annotate images to explain thoughts and guide users

Visual Question Answering

Brandon Collins, Logan Bolton, Hung Huy Nguyen, et al.

RSRCC: A Remote Sensing Regional Change Comprehension Benchmark Constructed via Retrieval-Augmented Best-of-N Ranking

Visual Question Answering

Retrieval-Augmented Generation

Roie Kazoom, Yotam Gigi, George Leifman, et al.

LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech

Audio and Speech Processing

Fei Yang, Xuanfan Ni, Renyi Yang, et al.

ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

Fanqing Meng, Lingxiao Du, Zijian Wu, et al.

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

Image Generation

Zhiheng Liu, Weiming Ren, Xiaoke Huang, et al.

Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms

Qi Li, Bo Yin, Weiqi Huang, et al.

ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning

Visual Question Answering

Video Understanding

Yiming Zhang, Jiacheng Chen, Jiaqi Tan, et al.

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

EnergAIzer: Fast and Accurate GPU Power Estimation Framework for AI Workloads

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Efficient Training on Multiple Consumer GPUs with RoundPipe

ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control

Co-Evolving Policy Distillation

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Heterogeneous Scientific Foundation Model Collaboration

Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

ClawGym: A Scalable Framework for Building Effective Claw Agents

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Large Language Models Explore by Latent Distilling

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

SWE-chat: Coding Agent Interactions From Real Users in the Wild

AdaExplore: Failure-Driven Adaptation and Diversity-Preserving Search for Efficient Kernel Generation

Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models

AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

Recursive Multi-Agent Systems

Skill Retrieval Augmentation for Agentic AI

SketchVLM: Vision language models can annotate images to explain thoughts and guide users

RSRCC: A Remote Sensing Regional Change Comprehension Benchmark Constructed via Retrieval-Augmented Best-of-N Ranking

LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech

ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms

ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

EnergAIzer: Fast and Accurate GPU Power Estimation Framework for AI Workloads

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Efficient Training on Multiple Consumer GPUs with RoundPipe

ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control

Co-Evolving Policy Distillation

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Heterogeneous Scientific Foundation Model Collaboration

Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

ClawGym: A Scalable Framework for Building Effective Claw Agents

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Large Language Models Explore by Latent Distilling

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

SWE-chat: Coding Agent Interactions From Real Users in the Wild

AdaExplore: Failure-Driven Adaptation and Diversity-Preserving Search for Efficient Kernel Generation

Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models

AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

Recursive Multi-Agent Systems

Skill Retrieval Augmentation for Agentic AI

SketchVLM: Vision language models can annotate images to explain thoughts and guide users

RSRCC: A Remote Sensing Regional Change Comprehension Benchmark Constructed via Retrieval-Augmented Best-of-N Ranking

LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech

ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms

ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning