HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

MADrive: Memory-Augmented Driving Scene Modeling

MADrive: Memory-Augmented Driving Scene Modeling

Computer Vision

Autonomous Driving

Polina Karpikova, Daniil Selikhanovych, Kirill Struminsky, et al.

FaSTA^*: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient
Multi-turn Image Editing

FaSTA^*: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

Advait Gupta, Rishie Raj, Dang Nguyen, et al.

Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

Retrieval-Augmented Generation

Boyu Gou, Zanming Huang, Yuting Ning, et al.

WorldVLA: Towards Autoregressive Action World Model

Image Understanding

Jun Cen, Chaohui Yu, Hangjie Yuan, et al.

ReCode: Updating Code API Knowledge with Reinforcement Learning

Code Generation

Haoze Wu, Yunzhi Yao, Wenhao Yu, et al.

When Life Gives You Samples: The Benefits of Scaling up Inference
Compute for Multilingual LLMs

Multi-Task Learning

Ammar Khairi, Daniel Dsouza, Ye Shen, et al.

HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based
Diffusion Sampling

Diffusion Model

Image Generation

Tobias Vontobel, Seyedmorteza Sadat, Farnood Salehi, et al.

DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning

Embodied Intelligence

Li, Boyu, He, et al.

MMSearch-R1: Incentivizing LMMs to Search

Retrieval-Augmented Generation

Visual Question Answering

Jinming Wu, Zihao Deng, Wei Li, et al.

OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

Reinforcement Learning

Zengzhi Wang, Fan Zhou, Xuefeng Li, et al.

AlphaGenome: advancing regulatory variant effect prediction with a unified DNA sequence model

\u017diga Avsec, Natasha Latysheva, Jun Cheng, et al.

OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning

Autonomous Driving

Shihao Wang, Zhiding Yu, Xiaohui Jiang, et al.

EcoMapper: Generative Modeling for Climate-Aware Satellite Imagery

Image Generation

Muhammed Goktepe, Amir hossein Shamseddin, Erencan Uysal, et al.

JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

Computer Vision

Lin, Yunlong, Lin, et al.

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality
Debiasing

Image Captioning

Long Xing, Qidong Huang, Xiaoyi Dong, et al.

GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning

Reinforcement Learning

Chen, Yi, Ge, et al.

Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in
LLMs

Code Generation

Liang Zeng, Yongcong Li, Yuzhen Xiao, et al.

Matrix-Game: Interactive World Foundation Model

Video Generation

Yifan Zhang, Chunli Peng, Boyang Wang, et al.

AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion
Models

Diffusion Model

Zehuan Huang, Haoran Feng, Yangtian Sun, et al.

Learning Approach to Efficient Vision-based Active Tracking of a Flying Target by an Unmanned Aerial Vehicle

Object Tracking

Object Detection

Jagadeswara PKV Pothuri, Aditya Bhatt, Prajit KrisshnaKumar, et al.

TritonZ: A Remotely Operated Underwater Rover with Manipulator Arm for Exploration and Rescue Operations

Computer Vision

Kawser Ahmed, Mir Shahriar Fardin, Md Arif Faysal Nayem, et al.

ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought
Reasoning in LLMs

Supervised Fine-Tuning

Preference Modeling

Jiaru Zou, Ling Yang, Jingwen Gu, et al.

Phantom-Data : Towards a General Subject-Consistent Video Generation
Dataset

Zhuowei Chen, Bingchuan Li, Tianxiang Ma, et al.

RLPR: Extrapolating RLVR to General Domains without Verifiers

Tianyu Yu, Bo Ji, Shouli Wang, et al.

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement
Learning

Text Generation

Yuhao Wu, Yushi Bai, Zhiqiang Hu, et al.

Light of Normals: Unified Feature Representation for Universal
Photometric Stereo

Computer Vision

Image Understanding

Hong Li, Houyuan Chen, Chongjie Ye, et al.

Predicting cellular responses to perturbation across diverse contexts with State

Abhinav K. Adduri, Dhruv Gautam, Beatrice Bevilacqua, et al.

CodeDiffuser: Attention-Enhanced Diffusion Policy via VLM-Generated Code for Instruction Ambiguity

Code Generation

Guang Yin, Yitong Li, Yixuan Wang, et al.

Optimizing Multilingual Text-To-Speech with Accents & Emotions

Pawar, Pranav, Dwivedi, et al.

VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement
Learning

Embodied Intelligence

Reinforcement Learning

Kang, Li, Song, et al.

PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models

Video Processing

Zhao, Tianchen, Hong, et al.

Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding

Retrieval-Augmented Generation

Document Understanding

Tripathi, Vishesh, Odapally, et al.

MADrive: Memory-Augmented Driving Scene Modeling

MADrive: Memory-Augmented Driving Scene Modeling

Computer Vision

Autonomous Driving

Polina Karpikova, Daniil Selikhanovych, Kirill Struminsky, et al.

FaSTA^*: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient
Multi-turn Image Editing

FaSTA^*: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

Advait Gupta, Rishie Raj, Dang Nguyen, et al.

Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

Retrieval-Augmented Generation

Boyu Gou, Zanming Huang, Yuting Ning, et al.

WorldVLA: Towards Autoregressive Action World Model

Image Understanding

Jun Cen, Chaohui Yu, Hangjie Yuan, et al.

ReCode: Updating Code API Knowledge with Reinforcement Learning

Code Generation

Haoze Wu, Yunzhi Yao, Wenhao Yu, et al.

When Life Gives You Samples: The Benefits of Scaling up Inference
Compute for Multilingual LLMs

Multi-Task Learning

Ammar Khairi, Daniel Dsouza, Ye Shen, et al.

HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based
Diffusion Sampling

Diffusion Model

Image Generation

Tobias Vontobel, Seyedmorteza Sadat, Farnood Salehi, et al.

DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning

Embodied Intelligence

Li, Boyu, He, et al.

MMSearch-R1: Incentivizing LMMs to Search

Retrieval-Augmented Generation

Visual Question Answering

Jinming Wu, Zihao Deng, Wei Li, et al.

OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

Reinforcement Learning

Zengzhi Wang, Fan Zhou, Xuefeng Li, et al.

AlphaGenome: advancing regulatory variant effect prediction with a unified DNA sequence model

\u017diga Avsec, Natasha Latysheva, Jun Cheng, et al.

OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning

Autonomous Driving

Shihao Wang, Zhiding Yu, Xiaohui Jiang, et al.

EcoMapper: Generative Modeling for Climate-Aware Satellite Imagery

Image Generation

Muhammed Goktepe, Amir hossein Shamseddin, Erencan Uysal, et al.

JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

Computer Vision

Lin, Yunlong, Lin, et al.

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality
Debiasing

Image Captioning

Long Xing, Qidong Huang, Xiaoyi Dong, et al.

GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning

Reinforcement Learning

Chen, Yi, Ge, et al.

Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in
LLMs

Code Generation

Liang Zeng, Yongcong Li, Yuzhen Xiao, et al.

Matrix-Game: Interactive World Foundation Model

Video Generation

Yifan Zhang, Chunli Peng, Boyang Wang, et al.

AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion
Models

Diffusion Model

Zehuan Huang, Haoran Feng, Yangtian Sun, et al.

Learning Approach to Efficient Vision-based Active Tracking of a Flying Target by an Unmanned Aerial Vehicle

Object Tracking

Object Detection

Jagadeswara PKV Pothuri, Aditya Bhatt, Prajit KrisshnaKumar, et al.

TritonZ: A Remotely Operated Underwater Rover with Manipulator Arm for Exploration and Rescue Operations

Computer Vision

Kawser Ahmed, Mir Shahriar Fardin, Md Arif Faysal Nayem, et al.

ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought
Reasoning in LLMs

Supervised Fine-Tuning

Preference Modeling

Jiaru Zou, Ling Yang, Jingwen Gu, et al.

Phantom-Data : Towards a General Subject-Consistent Video Generation
Dataset

Zhuowei Chen, Bingchuan Li, Tianxiang Ma, et al.

RLPR: Extrapolating RLVR to General Domains without Verifiers

Tianyu Yu, Bo Ji, Shouli Wang, et al.

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement
Learning

Text Generation

Yuhao Wu, Yushi Bai, Zhiqiang Hu, et al.

Light of Normals: Unified Feature Representation for Universal
Photometric Stereo

Computer Vision

Image Understanding

Hong Li, Houyuan Chen, Chongjie Ye, et al.

Predicting cellular responses to perturbation across diverse contexts with State

Abhinav K. Adduri, Dhruv Gautam, Beatrice Bevilacqua, et al.

CodeDiffuser: Attention-Enhanced Diffusion Policy via VLM-Generated Code for Instruction Ambiguity

Code Generation

Guang Yin, Yitong Li, Yixuan Wang, et al.

Optimizing Multilingual Text-To-Speech with Accents & Emotions

Pawar, Pranav, Dwivedi, et al.

VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement
Learning

Embodied Intelligence

Reinforcement Learning

Kang, Li, Song, et al.

PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models

Video Processing

Zhao, Tianchen, Hong, et al.

Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding

Retrieval-Augmented Generation

Document Understanding

Tripathi, Vishesh, Odapally, et al.

Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

WorldVLA: Towards Autoregressive Action World Model

ReCode: Updating Code API Knowledge with Reinforcement Learning

When Life Gives You Samples: The Benefits of Scaling up Inference Compute for Multilingual LLMs

HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling

DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning

MMSearch-R1: Incentivizing LMMs to Search

OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

AlphaGenome: advancing regulatory variant effect prediction with a unified DNA sequence model

OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning

EcoMapper: Generative Modeling for Climate-Aware Satellite Imagery

JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning

Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs

Matrix-Game: Interactive World Foundation Model

AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models

Learning Approach to Efficient Vision-based Active Tracking of a Flying Target by an Unmanned Aerial Vehicle

TritonZ: A Remotely Operated Underwater Rover with Manipulator Arm for Exploration and Rescue Operations

ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs

Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset

RLPR: Extrapolating RLVR to General Domains without Verifiers

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Predicting cellular responses to perturbation across diverse contexts with State

CodeDiffuser: Attention-Enhanced Diffusion Policy via VLM-Generated Code for Instruction Ambiguity

Optimizing Multilingual Text-To-Speech with Accents & Emotions

VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models

Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding

Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

WorldVLA: Towards Autoregressive Action World Model

ReCode: Updating Code API Knowledge with Reinforcement Learning

When Life Gives You Samples: The Benefits of Scaling up Inference Compute for Multilingual LLMs

HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling

DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning

MMSearch-R1: Incentivizing LMMs to Search

OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

AlphaGenome: advancing regulatory variant effect prediction with a unified DNA sequence model

OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning

EcoMapper: Generative Modeling for Climate-Aware Satellite Imagery

JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning

Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs

Matrix-Game: Interactive World Foundation Model

AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models

Learning Approach to Efficient Vision-based Active Tracking of a Flying Target by an Unmanned Aerial Vehicle

TritonZ: A Remotely Operated Underwater Rover with Manipulator Arm for Exploration and Rescue Operations

ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs

Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset

RLPR: Extrapolating RLVR to General Domains without Verifiers

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Predicting cellular responses to perturbation across diverse contexts with State

CodeDiffuser: Attention-Enhanced Diffusion Policy via VLM-Generated Code for Instruction Ambiguity

Optimizing Multilingual Text-To-Speech with Accents & Emotions

VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models

Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding