HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Qwen3-VL Technical Report

Qwen3-VL Technical Report

Multimodal Representation

Shuai Bai, Yuxuan Cai, Ruizhe Chen, et al.

G$^2$VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

G $^2$ VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

Multimodal Representation

Wenbo Hu, Jingli Lin, Yilin Long, et al.

Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

Tianyi Xiong, Yi Ge, Ming Li, et al.

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

Diffusion Model

Ziyun Zeng, Hang Hua, Jiebo Luo

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

Visual Question Answering

Embodied Intelligence

Qineng Wang, Wenlong Huang, Yu Zhou, et al.

Canvas-to-Image: Compositional Image Generation with Multimodal Controls

Diffusion Model

Image Generation

Yusuf Dalva, Guocheng Gordon Qian, Maya Goldenberg, et al.

Video Generation Models Are Good Latent Reward Models

Diffusion Model

Xiaoyue Mi, Wenqing Yu, Jiesong Lian, et al.

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

Zhihong Shao, Yuxiang Luo, Chengda Lu, et al.

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

Hongjin Su, Shizhe Diao, Ximing Lu, et al.

Think Visually, Reason Textually: Vision-Language Synergy in ARC

Beichen Zhang, Yuhang Zang, Xiaoyi Dong, et al.

Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

Diffusion Model

Teng Hu, Zhentao Yu, Guozhen Zhang, et al.

Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

Video Understanding

Inferix Team, Tianyu Feng, Yizeng Han, et al.

Latent Collaboration in Multi-Agent Systems

Jiaru Zou, Xiyuan Yang, Ruizhong Qiu, et al.

Multimodal Evaluation of Russian-language Architectures

Artem Chervyakov, Ulyana Isaeva, Anton Emelyanov, et al.

ROOT: Robust Orthogonalized Optimizer for Neural Network Training

Wei He, Kai Han, Hang Zhou, et al.

Superposition Yields Robust Neural Scaling

Machine Learning

Artificial Intelligence

Yizhou Liu, Ziming Liu, Jeff Gore

Optimal Mistake Bounds for Transductive Online Learning

Machine Learning

Artificial Intelligence

Zachary Chase, Steve Hanneke, Shay Moran, et al.

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Reinforcement Learning

Yang Yue, Zhiqi Chen, Rui Lu, et al.

Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training

Diffusion Model

Tony Bonnaire, Raphaël Urfin, Giulio Biroli, et al.

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities

Reinforcement Learning

Neural Networks

Kevin Wang, Ishaan Javali, Michał Bortkiewicz, et al.

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

Zihan Qiu, Zekun Wang, Bo Zheng, et al.

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

Liwei Jiang, Yuanjun Chai, Margaret Li, et al.

Evolution Strategies at the Hyperscale

Bidipta Sarkar, Mattie Fellows, Juan Agustin Duque, et al.

Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward

Yuwei Niu, Weiyang Jin, Jiaqi Liao, et al.

iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

Image Generation

Zhoujie Fu, Xianfang Zeng, Jinghong Lan, et al.

Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning

Jiaqi Liu, Kaiwen Xiong, Peng Xia, et al.

MedSAM3: Delving into Segment Anything with Medical Concepts

Image Segmentation

Anglin Liu, Rundong Xue, Xu R. Cao, et al.

SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation

Jiaming Zhang, Shengming Cao, Rui Li, et al.

GigaEvo: An Open Source Optimization Framework Powered By LLMs And Evolution Algorithms

Valentin Khrulkov, Andrey Galichin, Denis Bashkirov, et al.

Fidelity-Aware Recommendation Explanations via Stochastic Path Integration

Preference Modeling

Oren Barkan, Yahlly Schein, Yehonatan Elisha, et al.

Extracting Interaction-Aware Monosemantic Concepts in Recommender Systems

Neural Networks

Dor Arviv, Yehonatan Elisha, Oren Barkan, et al.

MSRNet: A Multi-Scale Recursive Network for Camouflaged Object Detection

Object Detection

Semantic Segmentation

Leena Alghamdi, Muhammad Usman, Hafeez Anwar, et al.

Qwen3-VL Technical Report

Qwen3-VL Technical Report

Multimodal Representation

Shuai Bai, Yuxuan Cai, Ruizhe Chen, et al.

G$^2$VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

G $^2$ VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

Multimodal Representation

Wenbo Hu, Jingli Lin, Yilin Long, et al.

Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

Tianyi Xiong, Yi Ge, Ming Li, et al.

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

Diffusion Model

Ziyun Zeng, Hang Hua, Jiebo Luo

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

Visual Question Answering

Embodied Intelligence

Qineng Wang, Wenlong Huang, Yu Zhou, et al.

Canvas-to-Image: Compositional Image Generation with Multimodal Controls

Diffusion Model

Image Generation

Yusuf Dalva, Guocheng Gordon Qian, Maya Goldenberg, et al.

Video Generation Models Are Good Latent Reward Models

Diffusion Model

Xiaoyue Mi, Wenqing Yu, Jiesong Lian, et al.

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

Zhihong Shao, Yuxiang Luo, Chengda Lu, et al.

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

Hongjin Su, Shizhe Diao, Ximing Lu, et al.

Think Visually, Reason Textually: Vision-Language Synergy in ARC

Beichen Zhang, Yuhang Zang, Xiaoyi Dong, et al.

Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

Diffusion Model

Teng Hu, Zhentao Yu, Guozhen Zhang, et al.

Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

Video Understanding

Inferix Team, Tianyu Feng, Yizeng Han, et al.

Latent Collaboration in Multi-Agent Systems

Jiaru Zou, Xiyuan Yang, Ruizhong Qiu, et al.

Multimodal Evaluation of Russian-language Architectures

Artem Chervyakov, Ulyana Isaeva, Anton Emelyanov, et al.

ROOT: Robust Orthogonalized Optimizer for Neural Network Training

Wei He, Kai Han, Hang Zhou, et al.

Superposition Yields Robust Neural Scaling

Machine Learning

Artificial Intelligence

Yizhou Liu, Ziming Liu, Jeff Gore

Optimal Mistake Bounds for Transductive Online Learning

Machine Learning

Artificial Intelligence

Zachary Chase, Steve Hanneke, Shay Moran, et al.

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Reinforcement Learning

Yang Yue, Zhiqi Chen, Rui Lu, et al.

Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training

Diffusion Model

Tony Bonnaire, Raphaël Urfin, Giulio Biroli, et al.

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities

Reinforcement Learning

Neural Networks

Kevin Wang, Ishaan Javali, Michał Bortkiewicz, et al.

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

Zihan Qiu, Zekun Wang, Bo Zheng, et al.

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

Liwei Jiang, Yuanjun Chai, Margaret Li, et al.

Evolution Strategies at the Hyperscale

Bidipta Sarkar, Mattie Fellows, Juan Agustin Duque, et al.

Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward

Yuwei Niu, Weiyang Jin, Jiaqi Liao, et al.

iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

Image Generation

Zhoujie Fu, Xianfang Zeng, Jinghong Lan, et al.

Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning

Jiaqi Liu, Kaiwen Xiong, Peng Xia, et al.

MedSAM3: Delving into Segment Anything with Medical Concepts

Image Segmentation

Anglin Liu, Rundong Xue, Xu R. Cao, et al.

SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation

Jiaming Zhang, Shengming Cao, Rui Li, et al.

GigaEvo: An Open Source Optimization Framework Powered By LLMs And Evolution Algorithms

Valentin Khrulkov, Andrey Galichin, Denis Bashkirov, et al.

Fidelity-Aware Recommendation Explanations via Stochastic Path Integration

Preference Modeling

Oren Barkan, Yahlly Schein, Yehonatan Elisha, et al.

Extracting Interaction-Aware Monosemantic Concepts in Recommender Systems

Neural Networks

Dor Arviv, Yehonatan Elisha, Oren Barkan, et al.

MSRNet: A Multi-Scale Recursive Network for Camouflaged Object Detection

Object Detection

Semantic Segmentation

Leena Alghamdi, Muhammad Usman, Hafeez Anwar, et al.

Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

Canvas-to-Image: Compositional Image Generation with Multimodal Controls

Video Generation Models Are Good Latent Reward Models

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

Think Visually, Reason Textually: Vision-Language Synergy in ARC

Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

Latent Collaboration in Multi-Agent Systems

Multimodal Evaluation of Russian-language Architectures

ROOT: Robust Orthogonalized Optimizer for Neural Network Training

Superposition Yields Robust Neural Scaling

Optimal Mistake Bounds for Transductive Online Learning

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

Evolution Strategies at the Hyperscale

Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward

iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning

MedSAM3: Delving into Segment Anything with Medical Concepts

SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation

GigaEvo: An Open Source Optimization Framework Powered By LLMs And Evolution Algorithms

Fidelity-Aware Recommendation Explanations via Stochastic Path Integration

Extracting Interaction-Aware Monosemantic Concepts in Recommender Systems

MSRNet: A Multi-Scale Recursive Network for Camouflaged Object Detection

Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

Canvas-to-Image: Compositional Image Generation with Multimodal Controls

Video Generation Models Are Good Latent Reward Models

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

Think Visually, Reason Textually: Vision-Language Synergy in ARC

Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

Latent Collaboration in Multi-Agent Systems

Multimodal Evaluation of Russian-language Architectures

ROOT: Robust Orthogonalized Optimizer for Neural Network Training

Superposition Yields Robust Neural Scaling

Optimal Mistake Bounds for Transductive Online Learning

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

Evolution Strategies at the Hyperscale

Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward

iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning

MedSAM3: Delving into Segment Anything with Medical Concepts

SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation

GigaEvo: An Open Source Optimization Framework Powered By LLMs And Evolution Algorithms

Fidelity-Aware Recommendation Explanations via Stochastic Path Integration

Extracting Interaction-Aware Monosemantic Concepts in Recommender Systems

MSRNet: A Multi-Scale Recursive Network for Camouflaged Object Detection