HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Diffusion Model

Video Generation

Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, et al.

Demystifing Video Reasoning

Demystifing Video Reasoning

Video Generation

Diffusion Model

Ruisi Wang, Zhongang Cai, Fanyi Pu, et al.

Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

Embodied Intelligence

Video Generation

Mutian Xu, Tianbao Zhang, Tianqi Liu, et al.

Qianfan-OCR: A Unified End-to-End Model for Document Intelligence

Document Understanding

Daxiang Dong, Mingming Zheng, Dong Xu, et al.

InCoder-32B: Code Foundation Model for Industrial Scenarios

Code Generation

Jian Yang, Wei Zhang, Jiajun Wu, et al.

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

MiroMind Team, S. Bai, L. Bing, et al.

HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

3D Machine Vision

Yukang Cao, Haozhe Xie, Fangzhou Hong, et al.

Mixture-of-Depths Attention

Lianghui Zhu, Yuxin Fang, Bencheng Liao, et al.

Attention Residuals

Kimi Team, Guangyu Chen, Yu Zhang, et al.

Grounding World Simulation Models in a Real-World Metropolis

Video Generation

Junyoung Seo, Hyunwook Choi, Minkyung Kwon, et al.

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Yuwen Du, Rui Ye, Shuo Tang, et al.

AI Can Learn Scientific Taste

Preference Modeling

Jingqi Tong, Mingzhe Li, Hangcheng Li, et al.

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Visual Question Answering

Haozhan Shen, Shilin Yan, Hongwei Xue, et al.

Can Vision-Language Models Solve the Shell Game?

Object Tracking

Video Understanding

Tiedong Liu, Wee Sun Lee

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

Diffusion Model

Yaofeng Su, Yuming Li, Zeyue Xue, et al.

daVinci-Env: Open SWE Environment Synthesis at Scale

Code Generation

Dayuan Fu, Shenyu Wu, Yunze Wu, et al.

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

Yichen Zhang, Da Peng, Zonghao Guo, et al.

LMEB: Long-horizon Memory Embedding Benchmark

Retrieval-Augmented Generation

Xinping Zhao, Xinshuo Hu, Jiaxin Xu, et al.

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

Video Generation

Yujie Wei, Xinyu Liu, Shiwei Zhang, et al.

ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

Video Generation

Songlin Yang, Zhe Wang, Xuyi Yang, et al.

Video-Based Reward Modeling for Computer-Use Agents

Video Understanding

Linxin Song, Jieyu Zhang, Huanxin Sheng, et al.

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Yushi Bai, Qian Dong, Ting Jiang, et al.

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Intelligent Question Answering

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, et al.

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Video Understanding

Video Processing

Fangfu Liu, Diankun Wu, Jiawei Chi, et al.

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Jiyeon Kim, Hyunji Lee, Dylan Zhou, et al.

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

Supervised Fine-Tuning

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, et al.

In-Context Reinforcement Learning for Tool Use in Large Language Models

Reinforcement Learning

Yaoqi Ye, Yiran Zhao, Keyu Duan, et al.

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Visual Question Answering

Video Understanding

Kangsan Kim, Yanlai Yang, Suji Kim, et al.

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

Shuo Yang, Haocheng Xi, Yilong Zhao, et al.

OpenClaw-RL: Train Any Agent Simply by Talking

Reinforcement Learning

Yinjie Wang, Xuyang Chen, Xiaolong Jin, et al.

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Visual Question Answering

Yuchen Yang, Yuqing Shao, Duxiu Huang, et al.

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Changyao Tian, Danni Yang, Guanzhou Chen, et al.

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Diffusion Model

Video Generation

Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, et al.

Demystifing Video Reasoning

Demystifing Video Reasoning

Video Generation

Diffusion Model

Ruisi Wang, Zhongang Cai, Fanyi Pu, et al.

Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

Embodied Intelligence

Video Generation

Mutian Xu, Tianbao Zhang, Tianqi Liu, et al.

Qianfan-OCR: A Unified End-to-End Model for Document Intelligence

Document Understanding

Daxiang Dong, Mingming Zheng, Dong Xu, et al.

InCoder-32B: Code Foundation Model for Industrial Scenarios

Code Generation

Jian Yang, Wei Zhang, Jiajun Wu, et al.

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

MiroMind Team, S. Bai, L. Bing, et al.

HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

3D Machine Vision

Yukang Cao, Haozhe Xie, Fangzhou Hong, et al.

Mixture-of-Depths Attention

Lianghui Zhu, Yuxin Fang, Bencheng Liao, et al.

Attention Residuals

Kimi Team, Guangyu Chen, Yu Zhang, et al.

Grounding World Simulation Models in a Real-World Metropolis

Video Generation

Junyoung Seo, Hyunwook Choi, Minkyung Kwon, et al.

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Yuwen Du, Rui Ye, Shuo Tang, et al.

AI Can Learn Scientific Taste

Preference Modeling

Jingqi Tong, Mingzhe Li, Hangcheng Li, et al.

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Visual Question Answering

Haozhan Shen, Shilin Yan, Hongwei Xue, et al.

Can Vision-Language Models Solve the Shell Game?

Object Tracking

Video Understanding

Tiedong Liu, Wee Sun Lee

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

Diffusion Model

Yaofeng Su, Yuming Li, Zeyue Xue, et al.

daVinci-Env: Open SWE Environment Synthesis at Scale

Code Generation

Dayuan Fu, Shenyu Wu, Yunze Wu, et al.

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

Yichen Zhang, Da Peng, Zonghao Guo, et al.

LMEB: Long-horizon Memory Embedding Benchmark

Retrieval-Augmented Generation

Xinping Zhao, Xinshuo Hu, Jiaxin Xu, et al.

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

Video Generation

Yujie Wei, Xinyu Liu, Shiwei Zhang, et al.

ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

Video Generation

Songlin Yang, Zhe Wang, Xuyi Yang, et al.

Video-Based Reward Modeling for Computer-Use Agents

Video Understanding

Linxin Song, Jieyu Zhang, Huanxin Sheng, et al.

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Yushi Bai, Qian Dong, Ting Jiang, et al.

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Intelligent Question Answering

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, et al.

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Video Understanding

Video Processing

Fangfu Liu, Diankun Wu, Jiawei Chi, et al.

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Jiyeon Kim, Hyunji Lee, Dylan Zhou, et al.

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

Supervised Fine-Tuning

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, et al.

In-Context Reinforcement Learning for Tool Use in Large Language Models

Reinforcement Learning

Yaoqi Ye, Yiran Zhao, Keyu Duan, et al.

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Visual Question Answering

Video Understanding

Kangsan Kim, Yanlai Yang, Suji Kim, et al.

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

Shuo Yang, Haocheng Xi, Yilong Zhao, et al.

OpenClaw-RL: Train Any Agent Simply by Talking

Reinforcement Learning

Yinjie Wang, Xuyang Chen, Xiaolong Jin, et al.

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Visual Question Answering

Yuchen Yang, Yuqing Shao, Duxiu Huang, et al.

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Changyao Tian, Danni Yang, Guanzhou Chen, et al.

Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

Qianfan-OCR: A Unified End-to-End Model for Document Intelligence

InCoder-32B: Code Foundation Model for Industrial Scenarios

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

Mixture-of-Depths Attention

Attention Residuals

Grounding World Simulation Models in a Real-World Metropolis

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

AI Can Learn Scientific Taste

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Can Vision-Language Models Solve the Shell Game?

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

daVinci-Env: Open SWE Environment Synthesis at Scale

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

LMEB: Long-horizon Memory Embedding Benchmark

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

Video-Based Reward Modeling for Computer-Use Agents

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

In-Context Reinforcement Learning for Tool Use in Large Language Models

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

OpenClaw-RL: Train Any Agent Simply by Talking

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

Qianfan-OCR: A Unified End-to-End Model for Document Intelligence

InCoder-32B: Code Foundation Model for Industrial Scenarios

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

Mixture-of-Depths Attention

Attention Residuals

Grounding World Simulation Models in a Real-World Metropolis

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

AI Can Learn Scientific Taste

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Can Vision-Language Models Solve the Shell Game?

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

daVinci-Env: Open SWE Environment Synthesis at Scale

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

LMEB: Long-horizon Memory Embedding Benchmark

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

Video-Based Reward Modeling for Computer-Use Agents

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

In-Context Reinforcement Learning for Tool Use in Large Language Models

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

OpenClaw-RL: Train Any Agent Simply by Talking

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing