HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Towards Pixel-Level VLM Perception via Simple Points Prediction

Towards Pixel-Level VLM Perception via Simple Points Prediction

Image Segmentation

Multimodal Representation

Tianhui Song, Haoyu Lu, Hao Yang, et al.

Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

Multimodal Representation

Zhixiang Wei, Yi Li, Zhehan Kan, et al.

Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

Multimodal Representation

Intelligent Question Answering

Zichen Wen, Boxue Yang, Shuang Chen, et al.

Advancing Open-source World Models

Video Generation

Robbyant Team, Zelin Gao, Qiuyu Wang, et al.

Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

Reinforcement Learning

Yanqi Dai, Yuxiang Ji, Xiao Zhang, et al.

Short window attention enables long-term memorization

Loïc Cabannes, Maximilian Beck, Gergely Szilvasy, et al.

World Craft: Agentic Framework to Create Visualizable Worlds via Text

Jianwen Sun, Yukang Feng, Kaining Ying, et al.

Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

Jialong Wu, Xiaoying Zhang, Hongyi Yuan, et al.

Masked Depth Modeling for Spatial Perception

Depth Estimation

Bin Tan, Changjiang Sun, Xiage Qin, et al.

A Pragmatic VLA Foundation Model

Embodied Intelligence

Wei Wu, Fan Lu, Yunnan Wang, et al.

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

Mingyang Song, Haoyu Sun, Jiawei Gu, et al.

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

Dongrui Liu, Qihan Ren, Chen Qian, et al.

ARCEE TRINITY LARGE TECHNICAL REPORT

Varun Singh, Lucas Krauss, Sami Jaghouar, et al.

Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability

Reinforcement Learning

Shobhita Sundaram, John Quan, Ariel Kwiatkowski, et al.

ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality

Shayne Longpre, Sneha Kudugunta, Niklas Muennighoff, et al.

iFSQ: Improving FSQ for Image Generation with 1 Line of Code

Image Generation

Diffusion Model

Bin Lin, Zongjian Li, Yuwei Niu, et al.

Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers

Zecheng Tang, Quantong Qiu, Yi Yang, et al.

Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility

Diffusion Model

Honglin Lin, Chonghan Qin, Zheng Liu, et al.

The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation

Video Generation

Chenyu Mu, Xin He, Qu Yang, et al.

daVinci-Dev: Agent-native Mid-training for Software Engineering

Ji Zeng, Dayuan Fu, Tiantian Mi, et al.

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

Natural Language Processing

Wei Zhou, Jun Zhou, Haoyu Wang, et al.

DeepSeek-OCR 2: Visual Causal Flow

Document Understanding

Haoran Wei, Yaofeng Sun, Yukun Li

Learning to Discover at Test Time

Reinforcement Learning

Mert Yuksekgonul, Daniel Koceja, Xinhao Li, et al.

Eliciting Harmful Capabilities by Fine-Tuning On Safeguarded Outputs

Supervised Fine-Tuning

Jackson Kaunismaa, Avery Griffin, John Hughes, et al.

Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

Diffusion Model

Video Processing

Dohun Lee, Chun-Hao Paul Huang, Xuelin Chen, et al.

Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

Yuxuan Wan, Tianqing Fang, Zaitang Li, et al.

VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

Embodied Intelligence

Zirui Wang, Junyi Zhang, Jiaxin Ge, et al.

TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

Embodied Intelligence

Bin Yu, Shijie Lian, Xiaopeng Lin, et al.

SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

Code Generation

Yuhang Wang, Yuling Shi, Mo Yang, et al.

LongCat-Flash-Thinking-2601 Technical Report

Meituan LongCat Team, Anchun Gui, Bei Li, et al.

Can Language Models Discover Scaling Laws?

Haowei Lin, Haotian Ye, Wenzheng Feng, et al.

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

Video Generation

Moo Jin Kim, Yihuai Gao, Tsung-Yi Lin, et al.

Towards Pixel-Level VLM Perception via Simple Points Prediction

Towards Pixel-Level VLM Perception via Simple Points Prediction

Image Segmentation

Multimodal Representation

Tianhui Song, Haoyu Lu, Hao Yang, et al.

Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

Multimodal Representation

Zhixiang Wei, Yi Li, Zhehan Kan, et al.

Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

Multimodal Representation

Intelligent Question Answering

Zichen Wen, Boxue Yang, Shuang Chen, et al.

Advancing Open-source World Models

Video Generation

Robbyant Team, Zelin Gao, Qiuyu Wang, et al.

Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

Reinforcement Learning

Yanqi Dai, Yuxiang Ji, Xiao Zhang, et al.

Short window attention enables long-term memorization

Loïc Cabannes, Maximilian Beck, Gergely Szilvasy, et al.

World Craft: Agentic Framework to Create Visualizable Worlds via Text

Jianwen Sun, Yukang Feng, Kaining Ying, et al.

Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

Jialong Wu, Xiaoying Zhang, Hongyi Yuan, et al.

Masked Depth Modeling for Spatial Perception

Depth Estimation

Bin Tan, Changjiang Sun, Xiage Qin, et al.

A Pragmatic VLA Foundation Model

Embodied Intelligence

Wei Wu, Fan Lu, Yunnan Wang, et al.

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

Mingyang Song, Haoyu Sun, Jiawei Gu, et al.

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

Dongrui Liu, Qihan Ren, Chen Qian, et al.

ARCEE TRINITY LARGE TECHNICAL REPORT

Varun Singh, Lucas Krauss, Sami Jaghouar, et al.

Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability

Reinforcement Learning

Shobhita Sundaram, John Quan, Ariel Kwiatkowski, et al.

ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality

Shayne Longpre, Sneha Kudugunta, Niklas Muennighoff, et al.

iFSQ: Improving FSQ for Image Generation with 1 Line of Code

Image Generation

Diffusion Model

Bin Lin, Zongjian Li, Yuwei Niu, et al.

Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers

Zecheng Tang, Quantong Qiu, Yi Yang, et al.

Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility

Diffusion Model

Honglin Lin, Chonghan Qin, Zheng Liu, et al.

The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation

Video Generation

Chenyu Mu, Xin He, Qu Yang, et al.

daVinci-Dev: Agent-native Mid-training for Software Engineering

Ji Zeng, Dayuan Fu, Tiantian Mi, et al.

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

Natural Language Processing

Wei Zhou, Jun Zhou, Haoyu Wang, et al.

DeepSeek-OCR 2: Visual Causal Flow

Document Understanding

Haoran Wei, Yaofeng Sun, Yukun Li

Learning to Discover at Test Time

Reinforcement Learning

Mert Yuksekgonul, Daniel Koceja, Xinhao Li, et al.

Eliciting Harmful Capabilities by Fine-Tuning On Safeguarded Outputs

Supervised Fine-Tuning

Jackson Kaunismaa, Avery Griffin, John Hughes, et al.

Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

Diffusion Model

Video Processing

Dohun Lee, Chun-Hao Paul Huang, Xuelin Chen, et al.

Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

Yuxuan Wan, Tianqing Fang, Zaitang Li, et al.

VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

Embodied Intelligence

Zirui Wang, Junyi Zhang, Jiaxin Ge, et al.

TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

Embodied Intelligence

Bin Yu, Shijie Lian, Xiaopeng Lin, et al.

SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

Code Generation

Yuhang Wang, Yuling Shi, Mo Yang, et al.

LongCat-Flash-Thinking-2601 Technical Report

Meituan LongCat Team, Anchun Gui, Bei Li, et al.

Can Language Models Discover Scaling Laws?

Haowei Lin, Haotian Ye, Wenzheng Feng, et al.

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

Video Generation

Moo Jin Kim, Yihuai Gao, Tsung-Yi Lin, et al.

Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

Advancing Open-source World Models

Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

Short window attention enables long-term memorization

World Craft: Agentic Framework to Create Visualizable Worlds via Text

Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

Masked Depth Modeling for Spatial Perception

A Pragmatic VLA Foundation Model

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

ARCEE TRINITY LARGE TECHNICAL REPORT

Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability

ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality

iFSQ: Improving FSQ for Image Generation with 1 Line of Code

Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers

Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility

The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation

daVinci-Dev: Agent-native Mid-training for Software Engineering

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

DeepSeek-OCR 2: Visual Causal Flow

Learning to Discover at Test Time

Eliciting Harmful Capabilities by Fine-Tuning On Safeguarded Outputs

Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

LongCat-Flash-Thinking-2601 Technical Report

Can Language Models Discover Scaling Laws?

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

Advancing Open-source World Models

Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

Short window attention enables long-term memorization

World Craft: Agentic Framework to Create Visualizable Worlds via Text

Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

Masked Depth Modeling for Spatial Perception

A Pragmatic VLA Foundation Model

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

ARCEE TRINITY LARGE TECHNICAL REPORT

Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability

ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality

iFSQ: Improving FSQ for Image Generation with 1 Line of Code

Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers

Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility

The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation

daVinci-Dev: Agent-native Mid-training for Software Engineering

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

DeepSeek-OCR 2: Visual Causal Flow

Learning to Discover at Test Time

Eliciting Harmful Capabilities by Fine-Tuning On Safeguarded Outputs

Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

LongCat-Flash-Thinking-2601 Technical Report

Can Language Models Discover Scaling Laws?

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning