HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

LongVie 2: Multimodal Controllable Ultra-Long Video World Model

LongVie 2: Multimodal Controllable Ultra-Long Video World Model

Video Generation

Jianxiong Gao, Zhaoxi Chen, Xian Liu, et al.

FirstAidQA: A Synthetic Dataset for First Aid and Emergency Response in Low-Connectivity Settings

FirstAidQA: A Synthetic Dataset for First Aid and Emergency Response in Low-Connectivity Settings

Supervised Fine-Tuning

Saiyma Sittul Muna, Rezwan Islam Salvi, Mushfiqur Rahman Mushfique, et al.

CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

High-Performance Computing

Songqiao Su, Xiaofei Sun, Xiaoya Li, et al.

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

Jinliang Zheng, Jianxiong Li, Zhihao Wang, et al.

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Supervised Fine-Tuning

Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation

Video Generation

Diffusion Model

Yang Fei, George Stoica, Jingyuan Liu, et al.

Exploring MLLM-Diffusion Information Transfer with MetaCanvas

Diffusion Model

Image Generation

Han Lin, Xichen Pan, Ziqi Huang, et al.

PersonaLive! Expressive Portrait Image Animation for Live Streaming

Diffusion Model

Zhiyuan Li, Chi-Man Pun, Chen Fang, et al.

V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

Video Generation

Video Processing

Ye Fang, Tong Wu, Valentin Deschaintre, et al.

SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

Diffusion Model

Minglei Shi, Haolin Wang, Borui Zhang, et al.

DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry

Visual Question Answering

Multimodal Representation

Zhenyang Cai, Jiaming Zhang, Junjie Zhao, et al.

SSRB: Direct Natural Language Querying to Massive Heterogeneous Semi-Structured Data

Retrieval-Augmented Generation

Natural Language Processing

Xin Zhang, Mingxin Li, Yanzhao Zhang, et al.

MUVR: A Multi-Modal Untrimmed Video Retrieval Benchmark with Multi-Level Visual Correspondence

Visual Question Answering

Multimodal Representation

Yue Feng, Jinwei Hu, Qijia Lu, et al.

Evaluating Gemini Robotics Policies in a Veo World Simulator

Video Understanding

Coline Devin, Yilun Du, Debidatta Dwibedi, et al.

MotionEdit: Benchmarking and Learning Motion-Centric Image Editing

Video Generation

Yixin Wan, Lei Ke, Wenhao Yu, et al.

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

Visual Question Answering

Haiteng Zhao, Junhao Shen, Yiming Zhang, et al.

OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification

Zijian Wu, Lingkai Kong, Wenwei Zhang, et al.

Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

Reinforcement Learning

Yiwen Tang, Zoey Guo, Kaixin Zhu, et al.

Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving

Songyang Gao, Yuzhe Gu, Zijian Wu, et al.

T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground

Dmitrii Stoianov, Danil Taranets, Olga Tsymboi, et al.

AutoGLM: Autonomous Foundation Agents for GUIs

Xiao Liu, Bo Qin, Dongzhu Liang, et al.

OpenGU: A Comprehensive Benchmark for Graph Unlearning

Machine Learning

Bowen Fan, Yuming Ai, Xunkai Li, et al.

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

Reinforcement Learning

Charlie Zhang, Graham Neubig, Xiang Yue

DeepCode: Open Agentic Coding

Code Generation

Retrieval-Augmented Generation

Zongwei Li, Zhonghang Li, Zirui Guo, et al.

InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models

Hongyuan Tao, Bencheng Liao, Shaoyu Chen, et al.

OmniPSD: Layered PSD Generation with Diffusion Transformer

Diffusion Model

Image Generation

Cheng Liu, Yiren Song, Haofan Wang, et al.

HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models

Minghui Lin, Pengxiang Ding, Shu Wang, et al.

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Monishwaran Maheswaran, Rishabh Tiwari, Yuezhou Hu, et al.

Composing Concepts from Images and Videos via Concept-prompt Binding

Xianghao Kong, Zeyu Zhang, Yuwei Guo, et al.

StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation

Video Generation

Ke Xing, Longfei Li, Yuyang Yin, et al.

Urania: Differentially Private Insights into AI Use

Daogao Liu, Edith Cohen, Badih Ghazi, et al.

Training LLMs for Honesty via Confessions

Supervised Fine-Tuning

Manas Joglekar, Jeremy Chen, Gabriel Wu, et al.

LongVie 2: Multimodal Controllable Ultra-Long Video World Model

LongVie 2: Multimodal Controllable Ultra-Long Video World Model

Video Generation

Jianxiong Gao, Zhaoxi Chen, Xian Liu, et al.

FirstAidQA: A Synthetic Dataset for First Aid and Emergency Response in Low-Connectivity Settings

FirstAidQA: A Synthetic Dataset for First Aid and Emergency Response in Low-Connectivity Settings

Supervised Fine-Tuning

Saiyma Sittul Muna, Rezwan Islam Salvi, Mushfiqur Rahman Mushfique, et al.

CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

High-Performance Computing

Songqiao Su, Xiaofei Sun, Xiaoya Li, et al.

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

Jinliang Zheng, Jianxiong Li, Zhihao Wang, et al.

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Supervised Fine-Tuning

Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation

Video Generation

Diffusion Model

Yang Fei, George Stoica, Jingyuan Liu, et al.

Exploring MLLM-Diffusion Information Transfer with MetaCanvas

Diffusion Model

Image Generation

Han Lin, Xichen Pan, Ziqi Huang, et al.

PersonaLive! Expressive Portrait Image Animation for Live Streaming

Diffusion Model

Zhiyuan Li, Chi-Man Pun, Chen Fang, et al.

V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

Video Generation

Video Processing

Ye Fang, Tong Wu, Valentin Deschaintre, et al.

SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

Diffusion Model

Minglei Shi, Haolin Wang, Borui Zhang, et al.

DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry

Visual Question Answering

Multimodal Representation

Zhenyang Cai, Jiaming Zhang, Junjie Zhao, et al.

SSRB: Direct Natural Language Querying to Massive Heterogeneous Semi-Structured Data

Retrieval-Augmented Generation

Natural Language Processing

Xin Zhang, Mingxin Li, Yanzhao Zhang, et al.

MUVR: A Multi-Modal Untrimmed Video Retrieval Benchmark with Multi-Level Visual Correspondence

Visual Question Answering

Multimodal Representation

Yue Feng, Jinwei Hu, Qijia Lu, et al.

Evaluating Gemini Robotics Policies in a Veo World Simulator

Video Understanding

Coline Devin, Yilun Du, Debidatta Dwibedi, et al.

MotionEdit: Benchmarking and Learning Motion-Centric Image Editing

Video Generation

Yixin Wan, Lei Ke, Wenhao Yu, et al.

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

Visual Question Answering

Haiteng Zhao, Junhao Shen, Yiming Zhang, et al.

OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification

Zijian Wu, Lingkai Kong, Wenwei Zhang, et al.

Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

Reinforcement Learning

Yiwen Tang, Zoey Guo, Kaixin Zhu, et al.

Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving

Songyang Gao, Yuzhe Gu, Zijian Wu, et al.

T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground

Dmitrii Stoianov, Danil Taranets, Olga Tsymboi, et al.

AutoGLM: Autonomous Foundation Agents for GUIs

Xiao Liu, Bo Qin, Dongzhu Liang, et al.

OpenGU: A Comprehensive Benchmark for Graph Unlearning

Machine Learning

Bowen Fan, Yuming Ai, Xunkai Li, et al.

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

Reinforcement Learning

Charlie Zhang, Graham Neubig, Xiang Yue

DeepCode: Open Agentic Coding

Code Generation

Retrieval-Augmented Generation

Zongwei Li, Zhonghang Li, Zirui Guo, et al.

InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models

Hongyuan Tao, Bencheng Liao, Shaoyu Chen, et al.

OmniPSD: Layered PSD Generation with Diffusion Transformer

Diffusion Model

Image Generation

Cheng Liu, Yiren Song, Haofan Wang, et al.

HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models

Minghui Lin, Pengxiang Ding, Shu Wang, et al.

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Monishwaran Maheswaran, Rishabh Tiwari, Yuezhou Hu, et al.

Composing Concepts from Images and Videos via Concept-prompt Binding

Xianghao Kong, Zeyu Zhang, Yuwei Guo, et al.

StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation

Video Generation

Ke Xing, Longfei Li, Yuyang Yin, et al.

Urania: Differentially Private Insights into AI Use

Daogao Liu, Edith Cohen, Badih Ghazi, et al.

Training LLMs for Honesty via Confessions

Supervised Fine-Tuning

Manas Joglekar, Jeremy Chen, Gabriel Wu, et al.

CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation

Exploring MLLM-Diffusion Information Transfer with MetaCanvas

PersonaLive! Expressive Portrait Image Animation for Live Streaming

V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry

SSRB: Direct Natural Language Querying to Massive Heterogeneous Semi-Structured Data

MUVR: A Multi-Modal Untrimmed Video Retrieval Benchmark with Multi-Level Visual Correspondence

Evaluating Gemini Robotics Policies in a Veo World Simulator

MotionEdit: Benchmarking and Learning Motion-Centric Image Editing

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification

Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving

T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground

AutoGLM: Autonomous Foundation Agents for GUIs

OpenGU: A Comprehensive Benchmark for Graph Unlearning

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

DeepCode: Open Agentic Coding

InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models

OmniPSD: Layered PSD Generation with Diffusion Transformer

HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Composing Concepts from Images and Videos via Concept-prompt Binding

StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation

Urania: Differentially Private Insights into AI Use

Training LLMs for Honesty via Confessions

CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation

Exploring MLLM-Diffusion Information Transfer with MetaCanvas

PersonaLive! Expressive Portrait Image Animation for Live Streaming

V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry

SSRB: Direct Natural Language Querying to Massive Heterogeneous Semi-Structured Data

MUVR: A Multi-Modal Untrimmed Video Retrieval Benchmark with Multi-Level Visual Correspondence

Evaluating Gemini Robotics Policies in a Veo World Simulator

MotionEdit: Benchmarking and Learning Motion-Centric Image Editing

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification

Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving

T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground

AutoGLM: Autonomous Foundation Agents for GUIs

OpenGU: A Comprehensive Benchmark for Graph Unlearning

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

DeepCode: Open Agentic Coding

InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models

OmniPSD: Layered PSD Generation with Diffusion Transformer

HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Composing Concepts from Images and Videos via Concept-prompt Binding

StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation

Urania: Differentially Private Insights into AI Use

Training LLMs for Honesty via Confessions