HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Measuring short-form factuality in large language models

Measuring short-form factuality in large language models

Intelligent Question Answering

Jason Wei, Nguyen Karina, Hyung Won Chung, et al.

DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

Nikita Gupta, Riju Chatterjee, Lukas Haas, et al.

MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents

Reinforcement Learning

Zijian Zhou, Ao Qu, Zhaoxuan Wu, et al.

AI-Trader: Benchmarking Autonomous Agents in Real-Time Financial Markets

Tianyu Fan, Yuhao Yang, Yangqin Jiang, et al.

Latent Implicit Visual Reasoning

Multimodal Representation

Kelvin Li, Chuyi Shang, Leonid Karlinsky, et al.

LLM Personas as a Substitute for Field Experiments in Method Benchmarking

Machine Learning

Enoch Hyunwook Kang

DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

Retrieval-Augmented Generation

Hao Liang, Xiaochen Ma, Zhou Liu, et al.

HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming

Video Generation

Diffusion Model

Haonan Qiu, Shikun Liu, Zijian Zhou, et al.

TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, et al.

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Supervised Fine-Tuning

NVIDIA, Aaron Blakeman, Aaron Grattafiori, et al.

Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models

Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, et al.

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

Video Generation

Jiawei Liu, Junqiao Li, Jiangfan Deng, et al.

T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

Zhe Cao, Tao Wang, Jiaming Wang, et al.

TongSIM: A General Platform for Simulating Intelligent Machines

Embodied Intelligence

Zhe Sun, Kunlun Wu, Chuanjian Fu, et al.

Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

Diffusion Model

Image Generation

Shengming Yin, Zekai Zhang, Zecheng Tang, et al.

RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic

Le Wang, Zonghao Ying, Xiao Yang, et al.

A Real-World Evaluation of LLM Medication Safety Reviews in NHS Primary Care

Natural Language Processing

Oliver Normand, Esther Borsi, Mitch Fruin, et al.

Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation

Natural Language Processing

Nilesh Jain, Seyi Adeyinka, Leor Roseman, et al.

Active Intelligence in Video Avatars via Closed-loop World Modeling

Embodied Intelligence

Reinforcement Learning

Xuanhua He, Tianyu Yang, Ke Cao, et al.

FaithLens: Detecting and Explaining Faithfulness Hallucination

Retrieval-Augmented Generation

Supervised Fine-Tuning

Shuzheng Si, Qingyi Wang, Haozhe Zhao, et al.

SAM Audio: Segment Anything in Audio

Bowen Shi, Andros Tjandra, John Hoffman, et al.

Step-DeepResearch Technical Report

Supervised Fine-Tuning

Chen Hu, Haikuo Du, Heng Wang, et al.

SpatialTree: How Spatial Abilities Branch Out in MLLMs

Yuxi Xiao, Longfei Li, Shen Yan, et al.

SemanticGen: Video Generation in Semantic Space

Video Generation

Jianhong Bai, Xiaoshi Wu, Xintao Wang, et al.

Automated stereotactic radiosurgery planning using a human-in-the-loop reasoning large language model agent

Humza Nusrat, Luke Francisco, Bing Luo, et al.

LongVideoAgent: Multi-Agent Reasoning with Long Videos

Visual Question Answering

Runtao Liu, Ziyi Liu, Jiaqi Tang, et al.

GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

Jiacheng Guo, Ling Yang, Peter Chen, et al.

WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion

Diffusion Model

Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, et al.

LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry

Embodied Intelligence

Depth Estimation

Jiaqi Peng, Wenzhe Cai, Yuqiang Yang, et al.

Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction

Ming Li, Han Chen, Yunze Xiao, et al.

QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

Retrieval-Augmented Generation

Intelligent Question Answering

Dehai Min, Kailin Zhang, Tongtong Wu, et al.

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

Multimodal Representation

Weichen Fan, Haiwen Diao, Quan Wang, et al.

Measuring short-form factuality in large language models

Measuring short-form factuality in large language models

Intelligent Question Answering

Jason Wei, Nguyen Karina, Hyung Won Chung, et al.

DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

Nikita Gupta, Riju Chatterjee, Lukas Haas, et al.

MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents

Reinforcement Learning

Zijian Zhou, Ao Qu, Zhaoxuan Wu, et al.

AI-Trader: Benchmarking Autonomous Agents in Real-Time Financial Markets

Tianyu Fan, Yuhao Yang, Yangqin Jiang, et al.

Latent Implicit Visual Reasoning

Multimodal Representation

Kelvin Li, Chuyi Shang, Leonid Karlinsky, et al.

LLM Personas as a Substitute for Field Experiments in Method Benchmarking

Machine Learning

Enoch Hyunwook Kang

DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

Retrieval-Augmented Generation

Hao Liang, Xiaochen Ma, Zhou Liu, et al.

HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming

Video Generation

Diffusion Model

Haonan Qiu, Shikun Liu, Zijian Zhou, et al.

TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, et al.

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Supervised Fine-Tuning

NVIDIA, Aaron Blakeman, Aaron Grattafiori, et al.

Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models

Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, et al.

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

Video Generation

Jiawei Liu, Junqiao Li, Jiangfan Deng, et al.

T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

Zhe Cao, Tao Wang, Jiaming Wang, et al.

TongSIM: A General Platform for Simulating Intelligent Machines

Embodied Intelligence

Zhe Sun, Kunlun Wu, Chuanjian Fu, et al.

Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

Diffusion Model

Image Generation

Shengming Yin, Zekai Zhang, Zecheng Tang, et al.

RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic

Le Wang, Zonghao Ying, Xiao Yang, et al.

A Real-World Evaluation of LLM Medication Safety Reviews in NHS Primary Care

Natural Language Processing

Oliver Normand, Esther Borsi, Mitch Fruin, et al.

Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation

Natural Language Processing

Nilesh Jain, Seyi Adeyinka, Leor Roseman, et al.

Active Intelligence in Video Avatars via Closed-loop World Modeling

Embodied Intelligence

Reinforcement Learning

Xuanhua He, Tianyu Yang, Ke Cao, et al.

FaithLens: Detecting and Explaining Faithfulness Hallucination

Retrieval-Augmented Generation

Supervised Fine-Tuning

Shuzheng Si, Qingyi Wang, Haozhe Zhao, et al.

SAM Audio: Segment Anything in Audio

Bowen Shi, Andros Tjandra, John Hoffman, et al.

Step-DeepResearch Technical Report

Supervised Fine-Tuning

Chen Hu, Haikuo Du, Heng Wang, et al.

SpatialTree: How Spatial Abilities Branch Out in MLLMs

Yuxi Xiao, Longfei Li, Shen Yan, et al.

SemanticGen: Video Generation in Semantic Space

Video Generation

Jianhong Bai, Xiaoshi Wu, Xintao Wang, et al.

Automated stereotactic radiosurgery planning using a human-in-the-loop reasoning large language model agent

Humza Nusrat, Luke Francisco, Bing Luo, et al.

LongVideoAgent: Multi-Agent Reasoning with Long Videos

Visual Question Answering

Runtao Liu, Ziyi Liu, Jiaqi Tang, et al.

GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

Jiacheng Guo, Ling Yang, Peter Chen, et al.

WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion

Diffusion Model

Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, et al.

LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry

Embodied Intelligence

Depth Estimation

Jiaqi Peng, Wenzhe Cai, Yuqiang Yang, et al.

Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction

Ming Li, Han Chen, Yunze Xiao, et al.

QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

Retrieval-Augmented Generation

Intelligent Question Answering

Dehai Min, Kailin Zhang, Tongtong Wu, et al.

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

Multimodal Representation

Weichen Fan, Haiwen Diao, Quan Wang, et al.

MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents

AI-Trader: Benchmarking Autonomous Agents in Real-Time Financial Markets

Latent Implicit Visual Reasoning

LLM Personas as a Substitute for Field Experiments in Method Benchmarking

DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming

TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

TongSIM: A General Platform for Simulating Intelligent Machines

Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic

A Real-World Evaluation of LLM Medication Safety Reviews in NHS Primary Care

Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation

Active Intelligence in Video Avatars via Closed-loop World Modeling

FaithLens: Detecting and Explaining Faithfulness Hallucination

SAM Audio: Segment Anything in Audio

Step-DeepResearch Technical Report

SpatialTree: How Spatial Abilities Branch Out in MLLMs

SemanticGen: Video Generation in Semantic Space

Automated stereotactic radiosurgery planning using a human-in-the-loop reasoning large language model agent

LongVideoAgent: Multi-Agent Reasoning with Long Videos

GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion

LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry

Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction

QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents

AI-Trader: Benchmarking Autonomous Agents in Real-Time Financial Markets

Latent Implicit Visual Reasoning

LLM Personas as a Substitute for Field Experiments in Method Benchmarking

DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming

TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

TongSIM: A General Platform for Simulating Intelligent Machines

Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic

A Real-World Evaluation of LLM Medication Safety Reviews in NHS Primary Care

Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation

Active Intelligence in Video Avatars via Closed-loop World Modeling

FaithLens: Detecting and Explaining Faithfulness Hallucination

SAM Audio: Segment Anything in Audio

Step-DeepResearch Technical Report

SpatialTree: How Spatial Abilities Branch Out in MLLMs

SemanticGen: Video Generation in Semantic Space

Automated stereotactic radiosurgery planning using a human-in-the-loop reasoning large language model agent

LongVideoAgent: Multi-Agent Reasoning with Long Videos

GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion

LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry

Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction

QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding