HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Native and Compact Structured Latents for 3D Generation

Native and Compact Structured Latents for 3D Generation

Diffusion Model

Jianfeng Xiang, Xiaoxue Chen, Sicheng Xu, et al.

Continuous Audio Language Models

Continuous Audio Language Models

Simon Rouard, Manu Orsini, Axel Roebel, et al.

Evolving Interactive Diagnostic Agents in a Virtual Clinical Environment

Pengcheng Qiu, Chaoyi Wu, Junwei Liu, et al.

WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference

Diffusion Model

Aiwei Liu, Minghua He, Shaoxun Zeng, et al.

TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times

Diffusion Model

Video Generation

Jintao Zhang, Kaiwen Zheng, Kai Jiang, et al.

HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation

Video Generation

Sizhe Shan, Qiulin Li, Yutao Cui, et al.

Fara-7B: An Efficient Agentic Model for Computer Use

Ahmed Awadallah, Yash Lara, Raghav Magazine, et al.

Fun-ASR Technical Report

Audio Recognition

Keyu An, Yanni Chen, Zhigao Chen, et al.

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, et al.

Scaling Small Agents Through Strategy Auctions

Lisa Alazraki, William F. Shen, Yoram Bachrach, et al.

Vibe AIGC: A New Paradigm for Content Generation via Agentic Orchestration

Jiaheng Liu, Yuanxing Zhang, Shihao Li, et al.

PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR

Retrieval-Augmented Generation

James Burgess, Jan N. Hansen, Duo Peng, et al.

EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

Visual Question Answering

Yu Bai, MingMing Yu, Chaojie Li, et al.

A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

Retrieval-Augmented Generation

Mingxuan Du, Benfeng Xu, Chiwei Zhu, et al.

Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization

Video Generation

Diffusion Model

Haocheng Xi, Shuo Yang, Yilong Zhao, et al.

SoMA: A Real-to-Sim Neural Simulator for Robotic Soft-body Manipulation

Depth Estimation

Mu Huang, Hui Wang, Kerui Ren, et al.

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

Video Generation

Zhixue Fang, Xu He, Songlin Tang, et al.

daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

Supervised Fine-Tuning

Mohan Jiang, Dayuan Fu, Junhao Shi, et al.

Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks

Embodied Intelligence

Bohan Zeng, Kaixin Zhu, Daili Hua, et al.

AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration

Intelligent Question Answering

Jianhao Ruan, Zhihao Xu, Yiran Peng, et al.

No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs

Liyan Xu, Mo Yu, Fandong Meng, et al.

CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding

Yuling Shi, Chaoxiang Xie, Zhensu Sun, et al.

DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

Yinger Zhang, Shutong Jiang, Renhao Li, et al.

CL-bench: A Benchmark for Context Learning

Intelligent Question Answering

Shihan Dou, Ming Zhang, Zhangyue Yin, et al.

Reinforcement Learning via Self-Distillation

Reinforcement Learning

Retrieval-Augmented Generation

Jonas Hübotter, Frederike Lübeck, Lejs Behric, et al.

Chatbots as social companions: How people perceive consciousness, human likeness, and social health benefits in machines

Human-Computer Interaction

Rose E. Guingrich, Michael S. A. Graziano

POPE: Learning to Reason on Hard Problems via Privileged On-Policy Exploration

Reinforcement Learning

Yuxiao Qu, Amrith Setlur, Virginia Smith, et al.

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Dianyi Wang, Chaofan Ma, Feng Han, et al.

Closing the Loop: Universal Repository Representation with RPG-Encoder

Code Generation

Multimodal Representation

Jane Luo, Chengyu Yin, Xin Zhang, et al.

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Visual Question Answering

Yu Zeng, Wenxuan Huang, Zhen Fang, et al.

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Retrieval-Augmented Generation

Visual Question Answering

Wenxuan Huang, Yu Zeng, Qiuchen Wang, et al.

Kimi K2.5: Visual Agentic Intelligence

Multimodal Representation

Kimi Team, Tongtong Bai, Yifan Bai, et al.

Native and Compact Structured Latents for 3D Generation

Native and Compact Structured Latents for 3D Generation

Diffusion Model

Jianfeng Xiang, Xiaoxue Chen, Sicheng Xu, et al.

Continuous Audio Language Models

Continuous Audio Language Models

Simon Rouard, Manu Orsini, Axel Roebel, et al.

Evolving Interactive Diagnostic Agents in a Virtual Clinical Environment

Pengcheng Qiu, Chaoyi Wu, Junwei Liu, et al.

WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference

Diffusion Model

Aiwei Liu, Minghua He, Shaoxun Zeng, et al.

TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times

Diffusion Model

Video Generation

Jintao Zhang, Kaiwen Zheng, Kai Jiang, et al.

HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation

Video Generation

Sizhe Shan, Qiulin Li, Yutao Cui, et al.

Fara-7B: An Efficient Agentic Model for Computer Use

Ahmed Awadallah, Yash Lara, Raghav Magazine, et al.

Fun-ASR Technical Report

Audio Recognition

Keyu An, Yanni Chen, Zhigao Chen, et al.

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, et al.

Scaling Small Agents Through Strategy Auctions

Lisa Alazraki, William F. Shen, Yoram Bachrach, et al.

Vibe AIGC: A New Paradigm for Content Generation via Agentic Orchestration

Jiaheng Liu, Yuanxing Zhang, Shihao Li, et al.

PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR

Retrieval-Augmented Generation

James Burgess, Jan N. Hansen, Duo Peng, et al.

EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

Visual Question Answering

Yu Bai, MingMing Yu, Chaojie Li, et al.

A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

Retrieval-Augmented Generation

Mingxuan Du, Benfeng Xu, Chiwei Zhu, et al.

Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization

Video Generation

Diffusion Model

Haocheng Xi, Shuo Yang, Yilong Zhao, et al.

SoMA: A Real-to-Sim Neural Simulator for Robotic Soft-body Manipulation

Depth Estimation

Mu Huang, Hui Wang, Kerui Ren, et al.

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

Video Generation

Zhixue Fang, Xu He, Songlin Tang, et al.

daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

Supervised Fine-Tuning

Mohan Jiang, Dayuan Fu, Junhao Shi, et al.

Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks

Embodied Intelligence

Bohan Zeng, Kaixin Zhu, Daili Hua, et al.

AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration

Intelligent Question Answering

Jianhao Ruan, Zhihao Xu, Yiran Peng, et al.

No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs

Liyan Xu, Mo Yu, Fandong Meng, et al.

CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding

Yuling Shi, Chaoxiang Xie, Zhensu Sun, et al.

DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

Yinger Zhang, Shutong Jiang, Renhao Li, et al.

CL-bench: A Benchmark for Context Learning

Intelligent Question Answering

Shihan Dou, Ming Zhang, Zhangyue Yin, et al.

Reinforcement Learning via Self-Distillation

Reinforcement Learning

Retrieval-Augmented Generation

Jonas Hübotter, Frederike Lübeck, Lejs Behric, et al.

Chatbots as social companions: How people perceive consciousness, human likeness, and social health benefits in machines

Human-Computer Interaction

Rose E. Guingrich, Michael S. A. Graziano

POPE: Learning to Reason on Hard Problems via Privileged On-Policy Exploration

Reinforcement Learning

Yuxiao Qu, Amrith Setlur, Virginia Smith, et al.

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Dianyi Wang, Chaofan Ma, Feng Han, et al.

Closing the Loop: Universal Repository Representation with RPG-Encoder

Code Generation

Multimodal Representation

Jane Luo, Chengyu Yin, Xin Zhang, et al.

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Visual Question Answering

Yu Zeng, Wenxuan Huang, Zhen Fang, et al.

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Retrieval-Augmented Generation

Visual Question Answering

Wenxuan Huang, Yu Zeng, Qiuchen Wang, et al.

Kimi K2.5: Visual Agentic Intelligence

Multimodal Representation

Kimi Team, Tongtong Bai, Yifan Bai, et al.

Evolving Interactive Diagnostic Agents in a Virtual Clinical Environment

WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference

TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times

HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation

Fara-7B: An Efficient Agentic Model for Computer Use

Fun-ASR Technical Report

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Scaling Small Agents Through Strategy Auctions

Vibe AIGC: A New Paradigm for Content Generation via Agentic Orchestration

PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR

EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization

SoMA: A Real-to-Sim Neural Simulator for Robotic Soft-body Manipulation

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks

AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration

No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs

CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding

DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

CL-bench: A Benchmark for Context Learning

Reinforcement Learning via Self-Distillation

Chatbots as social companions: How people perceive consciousness, human likeness, and social health benefits in machines

POPE: Learning to Reason on Hard Problems via Privileged On-Policy Exploration

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Closing the Loop: Universal Repository Representation with RPG-Encoder

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Kimi K2.5: Visual Agentic Intelligence

Evolving Interactive Diagnostic Agents in a Virtual Clinical Environment

WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference

TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times

HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation

Fara-7B: An Efficient Agentic Model for Computer Use

Fun-ASR Technical Report

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Scaling Small Agents Through Strategy Auctions

Vibe AIGC: A New Paradigm for Content Generation via Agentic Orchestration

PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR

EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization

SoMA: A Real-to-Sim Neural Simulator for Robotic Soft-body Manipulation

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks

AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration

No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs

CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding

DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

CL-bench: A Benchmark for Context Learning

Reinforcement Learning via Self-Distillation

Chatbots as social companions: How people perceive consciousness, human likeness, and social health benefits in machines

POPE: Learning to Reason on Hard Problems via Privileged On-Policy Exploration

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Closing the Loop: Universal Repository Representation with RPG-Encoder

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Kimi K2.5: Visual Agentic Intelligence