HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World

PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World

Diffusion Model

Yunhan Yang, Chunshi Wang, Junliang Ye, et al.

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

Autonomous Driving

Xin Zhou, Dingkang Liang, Xiwu Chen, et al.

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

Retrieval-Augmented Generation

Shuang Chen, Kaituo Feng, Hangting Chen, et al.

RLDX-1 Technical Report

3D Machine Vision

Dongyoung Kim, Huiwon Jang, Myungkyu Koo, et al.

Stream-T1: Test-Time Scaling for Streaming Video Generation

Diffusion Model

Video Generation

Yijing Tu, Shaojin Wu, Mengqi Huang, et al.

Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

Video Generation

Bin Wu, Mengqi Huang, Shaojin Wu, et al.

Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe

Retrieval-Augmented Generation

Wenjin Hou, Shangpin Peng, Weinong Wang, et al.

AGENTIC-IMODELS: Evolving agentic interpretability tools via autoresearch

Chandan Singh, Yan Shuo Tan, Weijia Xu, et al.

HEAVYSKILL: Heavy Thinking as the Inner Skill in Agentic Harness

Jianing Wang, Linsen Guo, Zhengyu Chen, et al.

WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments

Jinchao Li, Yunxin Li, Chenrui Zhao, et al.

Hallucinations Undermine Trust; Metacognition is a Way Forward

Intelligent Question Answering

Gal Yona, Mor Geva, Yossi Matias

X2SAM: Any Segmentation in Images and Videos

Image Segmentation

Hao Wang, Limeng Qiao, Chi Zhang, et al.

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

Yuwen Du, Rui Ye, Shuo Tang, et al.

PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

Supervised Fine-Tuning

Sudong Wang, Weiquan Huang, Xiaomin Yu, et al.

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

Ruofeng Yang, Yongcan Li, Shuai Li

ProgramBench: Can Language Models Rebuild Programs From Scratch?

Code Generation

John Yang, Kilian Lieret, Jeffrey Ma, et al.

Efficient Accelerated Graph Edit Distance Computation on GPU

Face Recognition

Adel Dabah, Andreas Herten

LLM-based uncertainty assessment of social media situational signals for crisis reporting

Text Generation

Timothy Douglas, Roben Delos Reyes, Asanobu Kitamoto

Canonical LST: A Protocol-Native Liquid Staking Solution for Tezos

Mathias Bourgoin, Arthur Breitman, Pierrick Couderc, et al.

Separating Intelligence from Execution: A Workflow Engine for the Model Context Protocol

Abhinav Singh Parmar

Understanding the Performance Plateau in Text-to-Video Retrieval: A Comprehensive Empirical and Linguistic Analysis

Maria-Eirini Pegia, Dimitrios Stefanopoulos, Björn Þór Jónsson, et al.

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

Retrieval-Augmented Generation

Siyuan Huang, Xiaoye Qu, Yafu Li, et al.

EnergAIzer: Fast and Accurate GPU Power Estimation Framework for AI Workloads

High-Performance Computing

Kyungmi Lee, Zhiye Song, Eun Kyung Lee, et al.

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Image Generation

Image Inpainting

Hanzhong Guo, Jie Wu, Jie Liu, et al.

Efficient Training on Multiple Consumer GPUs with RoundPipe

Yibin Luo, Shiwei Gao, Huichuan Zheng, et al.

ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control

Video Generation

Embodied Intelligence

Yanghao Zhou, Jingyu Ma, Yibo Peng, et al.

Co-Evolving Policy Distillation

Naibin Gu, Chenxu Yang, Qingyi Si, et al.

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Image Generation

Keming Wu, Zuhao Yang, Kaichen Zhang, et al.

Heterogeneous Scientific Foundation Model Collaboration

Zihao Li, Jiaru Zou, Feihao Fang, et al.

Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

Diffusion Model

Image Generation

Zhongjie Duan, Hong Zhang, Yingda Chen

RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

Multimodal Representation

3D Machine Vision

Zaid Nasser, Mikhail Iumanov, Tianhao Li, et al.

ClawGym: A Scalable Framework for Building Effective Claw Agents

Fei Bai, Huatong Song, Shuang Sun, et al.

PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World

PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World

Diffusion Model

Yunhan Yang, Chunshi Wang, Junliang Ye, et al.

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

Autonomous Driving

Xin Zhou, Dingkang Liang, Xiwu Chen, et al.

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

Retrieval-Augmented Generation

Shuang Chen, Kaituo Feng, Hangting Chen, et al.

RLDX-1 Technical Report

3D Machine Vision

Dongyoung Kim, Huiwon Jang, Myungkyu Koo, et al.

Stream-T1: Test-Time Scaling for Streaming Video Generation

Diffusion Model

Video Generation

Yijing Tu, Shaojin Wu, Mengqi Huang, et al.

Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

Video Generation

Bin Wu, Mengqi Huang, Shaojin Wu, et al.

Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe

Retrieval-Augmented Generation

Wenjin Hou, Shangpin Peng, Weinong Wang, et al.

AGENTIC-IMODELS: Evolving agentic interpretability tools via autoresearch

Chandan Singh, Yan Shuo Tan, Weijia Xu, et al.

HEAVYSKILL: Heavy Thinking as the Inner Skill in Agentic Harness

Jianing Wang, Linsen Guo, Zhengyu Chen, et al.

WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments

Jinchao Li, Yunxin Li, Chenrui Zhao, et al.

Hallucinations Undermine Trust; Metacognition is a Way Forward

Intelligent Question Answering

Gal Yona, Mor Geva, Yossi Matias

X2SAM: Any Segmentation in Images and Videos

Image Segmentation

Hao Wang, Limeng Qiao, Chi Zhang, et al.

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

Yuwen Du, Rui Ye, Shuo Tang, et al.

PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

Supervised Fine-Tuning

Sudong Wang, Weiquan Huang, Xiaomin Yu, et al.

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

Ruofeng Yang, Yongcan Li, Shuai Li

ProgramBench: Can Language Models Rebuild Programs From Scratch?

Code Generation

John Yang, Kilian Lieret, Jeffrey Ma, et al.

Efficient Accelerated Graph Edit Distance Computation on GPU

Face Recognition

Adel Dabah, Andreas Herten

LLM-based uncertainty assessment of social media situational signals for crisis reporting

Text Generation

Timothy Douglas, Roben Delos Reyes, Asanobu Kitamoto

Canonical LST: A Protocol-Native Liquid Staking Solution for Tezos

Mathias Bourgoin, Arthur Breitman, Pierrick Couderc, et al.

Separating Intelligence from Execution: A Workflow Engine for the Model Context Protocol

Abhinav Singh Parmar

Understanding the Performance Plateau in Text-to-Video Retrieval: A Comprehensive Empirical and Linguistic Analysis

Maria-Eirini Pegia, Dimitrios Stefanopoulos, Björn Þór Jónsson, et al.

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

Retrieval-Augmented Generation

Siyuan Huang, Xiaoye Qu, Yafu Li, et al.

EnergAIzer: Fast and Accurate GPU Power Estimation Framework for AI Workloads

High-Performance Computing

Kyungmi Lee, Zhiye Song, Eun Kyung Lee, et al.

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Image Generation

Image Inpainting

Hanzhong Guo, Jie Wu, Jie Liu, et al.

Efficient Training on Multiple Consumer GPUs with RoundPipe

Yibin Luo, Shiwei Gao, Huichuan Zheng, et al.

ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control

Video Generation

Embodied Intelligence

Yanghao Zhou, Jingyu Ma, Yibo Peng, et al.

Co-Evolving Policy Distillation

Naibin Gu, Chenxu Yang, Qingyi Si, et al.

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Image Generation

Keming Wu, Zuhao Yang, Kaichen Zhang, et al.

Heterogeneous Scientific Foundation Model Collaboration

Zihao Li, Jiaru Zou, Feihao Fang, et al.

Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

Diffusion Model

Image Generation

Zhongjie Duan, Hong Zhang, Yingda Chen

RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

Multimodal Representation

3D Machine Vision

Zaid Nasser, Mikhail Iumanov, Tianhao Li, et al.

ClawGym: A Scalable Framework for Building Effective Claw Agents

Fei Bai, Huatong Song, Shuang Sun, et al.

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

RLDX-1 Technical Report

Stream-T1: Test-Time Scaling for Streaming Video Generation

Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe

AGENTIC-IMODELS: Evolving agentic interpretability tools via autoresearch

HEAVYSKILL: Heavy Thinking as the Inner Skill in Agentic Harness

WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments

Hallucinations Undermine Trust; Metacognition is a Way Forward

X2SAM: Any Segmentation in Images and Videos

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

ProgramBench: Can Language Models Rebuild Programs From Scratch?

Efficient Accelerated Graph Edit Distance Computation on GPU

LLM-based uncertainty assessment of social media situational signals for crisis reporting

Canonical LST: A Protocol-Native Liquid Staking Solution for Tezos

Separating Intelligence from Execution: A Workflow Engine for the Model Context Protocol

Understanding the Performance Plateau in Text-to-Video Retrieval: A Comprehensive Empirical and Linguistic Analysis

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

EnergAIzer: Fast and Accurate GPU Power Estimation Framework for AI Workloads

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Efficient Training on Multiple Consumer GPUs with RoundPipe

ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control

Co-Evolving Policy Distillation

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Heterogeneous Scientific Foundation Model Collaboration

Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

ClawGym: A Scalable Framework for Building Effective Claw Agents

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

RLDX-1 Technical Report

Stream-T1: Test-Time Scaling for Streaming Video Generation

Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe

AGENTIC-IMODELS: Evolving agentic interpretability tools via autoresearch

HEAVYSKILL: Heavy Thinking as the Inner Skill in Agentic Harness

WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments

Hallucinations Undermine Trust; Metacognition is a Way Forward

X2SAM: Any Segmentation in Images and Videos

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

ProgramBench: Can Language Models Rebuild Programs From Scratch?

Efficient Accelerated Graph Edit Distance Computation on GPU

LLM-based uncertainty assessment of social media situational signals for crisis reporting

Canonical LST: A Protocol-Native Liquid Staking Solution for Tezos

Separating Intelligence from Execution: A Workflow Engine for the Model Context Protocol

Understanding the Performance Plateau in Text-to-Video Retrieval: A Comprehensive Empirical and Linguistic Analysis

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

EnergAIzer: Fast and Accurate GPU Power Estimation Framework for AI Workloads

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Efficient Training on Multiple Consumer GPUs with RoundPipe

ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control

Co-Evolving Policy Distillation

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Heterogeneous Scientific Foundation Model Collaboration

Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

ClawGym: A Scalable Framework for Building Effective Claw Agents