HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Visual Question Answering

Zongxia Li, Hongyang Du, Chengsong Huang, et al.

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Zorik Gekhman, Roee Aharoni, Eran Ofek, et al.

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Diffusion Model

Lijiang Li, Zuwei Long, Yunhang Shen, et al.

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

Diffusion Model

Jiyuan Wang, Chunyu Lin, Lei Sun, et al.

CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

Diffusion Model

Yucheng Wang, Zedong Wang, Yuetong Wu, et al.

Believe Your Model: Distribution-Guided Confidence Calibration

Xizhong Yang, Haotian Zhang, Huiming Wang, et al.

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

3D Machine Vision

Video Processing

Junyi Zhang, Charles Herrmann, Junhwa Hur, et al.

How Far Can Unsupervised RLVR Scale LLM Training?

Reinforcement Learning

Bingxiang He, Yuxin Zuo, Zeyuan Liu, et al.

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Video Understanding

Yuanyuan Gao, Hao Li, Yifei Liu, et al.

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Text Generation

Junjie Li, Xinrui Guo, Yuhao Wu, et al.

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, et al.

Real-Time AI Service Economy: A Framework for Agentic Computing Across the Continuum

Lauri Lovén, Alaa Saleh, Reza Farahani, et al.

NOTAI.AI: Explainable Detection of Machine-Generated Text via Curvature and Feature Attribution

Text Generation

Oleksandr Marchenko Breneur, Adelaide Danilov, Aria Nourbakhsh, et al.

Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs

Patrick Ahrend, Tobias Eder, Xiyang Yang, et al.

RACAS: Controlling Diverse Robots With a Single Agentic System

Dylan R. Ashley, Jan Przepióra, Yimeng Chen, et al.

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, et al.

ArtLLM: Generating Articulated Assets via 3D LLM

Penghao Wang, Siyuan Xie, Hongyu Yan, et al.

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

Image Inpainting

Diffusion Model

Yichen Liu, Donghao Zhou, Jie Wang, et al.

RoboPocket: Improve Robot Policies Instantly with Your Phone

Reinforcement Learning

Supervised Fine-Tuning

Junjie Fang, Wendi Chen, Han Xue, et al.

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

Zhaochen Su, Jincheng Gao, Hangyu Guo, et al.

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Retrieval-Augmented Generation

Code Generation

Maojun Sun, Yue Wu, Yifei Xie, et al.

SkillNet: Create, Evaluate, and Connect AI Skills

Yuan Liang, Ruobin Zhong, Haoming Xu, et al.

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

Zonglin Yang, Lidong Bing

SURvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

Shahrriar Noroozizadeh, Xiaobin Shen, Jeremy C. Weiss, et al.

PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms

Diffusion Model

Yifei Xia, Shuchen Weng, Siqi Yang, et al.

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

Video Generation

Zihao Huang, Tianqi Liu, Zhaoxi Chen, et al.

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

Video Understanding

Weicai Yan, Yuhong Dai, Qi Ran, et al.

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

Document Understanding

Qinsi Wang, Hancheng Ye, Jinhee Kim, et al.

Heterogeneous Agent Collaborative Reinforcement Learning

Reinforcement Learning

Zhixia Zhang, Zixuan Huang, Xin Xia, et al.

Helios: Real Real-Time Long Video Generation Model

Video Generation

Shenghai Yuan, Yuanyang Yin, Zongjian Li, et al.

Valet: A Standardized Testbed of Traditional Imperfect-Information Card Games

Mark Goadrich, Achille Morenville, Éric Piette

Speculative Speculative Decoding

Text Generation

Tanishq Kumar, Tri Dao, Avner May

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Visual Question Answering

Zongxia Li, Hongyang Du, Chengsong Huang, et al.

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Zorik Gekhman, Roee Aharoni, Eran Ofek, et al.

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Diffusion Model

Lijiang Li, Zuwei Long, Yunhang Shen, et al.

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

Diffusion Model

Jiyuan Wang, Chunyu Lin, Lei Sun, et al.

CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

Diffusion Model

Yucheng Wang, Zedong Wang, Yuetong Wu, et al.

Believe Your Model: Distribution-Guided Confidence Calibration

Xizhong Yang, Haotian Zhang, Huiming Wang, et al.

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

3D Machine Vision

Video Processing

Junyi Zhang, Charles Herrmann, Junhwa Hur, et al.

How Far Can Unsupervised RLVR Scale LLM Training?

Reinforcement Learning

Bingxiang He, Yuxin Zuo, Zeyuan Liu, et al.

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Video Understanding

Yuanyuan Gao, Hao Li, Yifei Liu, et al.

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Text Generation

Junjie Li, Xinrui Guo, Yuhao Wu, et al.

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, et al.

Real-Time AI Service Economy: A Framework for Agentic Computing Across the Continuum

Lauri Lovén, Alaa Saleh, Reza Farahani, et al.

NOTAI.AI: Explainable Detection of Machine-Generated Text via Curvature and Feature Attribution

Text Generation

Oleksandr Marchenko Breneur, Adelaide Danilov, Aria Nourbakhsh, et al.

Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs

Patrick Ahrend, Tobias Eder, Xiyang Yang, et al.

RACAS: Controlling Diverse Robots With a Single Agentic System

Dylan R. Ashley, Jan Przepióra, Yimeng Chen, et al.

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, et al.

ArtLLM: Generating Articulated Assets via 3D LLM

Penghao Wang, Siyuan Xie, Hongyu Yan, et al.

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

Image Inpainting

Diffusion Model

Yichen Liu, Donghao Zhou, Jie Wang, et al.

RoboPocket: Improve Robot Policies Instantly with Your Phone

Reinforcement Learning

Supervised Fine-Tuning

Junjie Fang, Wendi Chen, Han Xue, et al.

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

Zhaochen Su, Jincheng Gao, Hangyu Guo, et al.

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Retrieval-Augmented Generation

Code Generation

Maojun Sun, Yue Wu, Yifei Xie, et al.

SkillNet: Create, Evaluate, and Connect AI Skills

Yuan Liang, Ruobin Zhong, Haoming Xu, et al.

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

Zonglin Yang, Lidong Bing

SURvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

Shahrriar Noroozizadeh, Xiaobin Shen, Jeremy C. Weiss, et al.

PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms

Diffusion Model

Yifei Xia, Shuchen Weng, Siqi Yang, et al.

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

Video Generation

Zihao Huang, Tianqi Liu, Zhaoxi Chen, et al.

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

Video Understanding

Weicai Yan, Yuhong Dai, Qi Ran, et al.

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

Document Understanding

Qinsi Wang, Hancheng Ye, Jinhee Kim, et al.

Heterogeneous Agent Collaborative Reinforcement Learning

Reinforcement Learning

Zhixia Zhang, Zixuan Huang, Xin Xia, et al.

Helios: Real Real-Time Long Video Generation Model

Video Generation

Shenghai Yuan, Yuanyang Yin, Zongjian Li, et al.

Valet: A Standardized Testbed of Traditional Imperfect-Information Card Games

Mark Goadrich, Achille Morenville, Éric Piette

Speculative Speculative Decoding

Text Generation

Tanishq Kumar, Tri Dao, Avner May

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

Believe Your Model: Distribution-Guided Confidence Calibration

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

How Far Can Unsupervised RLVR Scale LLM Training?

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

Real-Time AI Service Economy: A Framework for Agentic Computing Across the Continuum

NOTAI.AI: Explainable Detection of Machine-Generated Text via Curvature and Feature Attribution

Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs

RACAS: Controlling Diverse Robots With a Single Agentic System

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

ArtLLM: Generating Articulated Assets via 3D LLM

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

RoboPocket: Improve Robot Policies Instantly with Your Phone

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

SkillNet: Create, Evaluate, and Connect AI Skills

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

SURvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

Heterogeneous Agent Collaborative Reinforcement Learning

Helios: Real Real-Time Long Video Generation Model

Valet: A Standardized Testbed of Traditional Imperfect-Information Card Games

Speculative Speculative Decoding

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

Believe Your Model: Distribution-Guided Confidence Calibration

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

How Far Can Unsupervised RLVR Scale LLM Training?

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

Real-Time AI Service Economy: A Framework for Agentic Computing Across the Continuum

NOTAI.AI: Explainable Detection of Machine-Generated Text via Curvature and Feature Attribution

Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs

RACAS: Controlling Diverse Robots With a Single Agentic System

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

ArtLLM: Generating Articulated Assets via 3D LLM

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

RoboPocket: Improve Robot Policies Instantly with Your Phone

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

SkillNet: Create, Evaluate, and Connect AI Skills

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

SURvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

Heterogeneous Agent Collaborative Reinforcement Learning

Helios: Real Real-Time Long Video Generation Model

Valet: A Standardized Testbed of Traditional Imperfect-Information Card Games

Speculative Speculative Decoding