HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

Video Generation

Action Recognition

Zhen Li, Zian Meng, Shuwei Shi, et al.

MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

Diffusion Model

Hejun Dong, Junbo Niu, Bin Wang, et al.

PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

Supervised Fine-Tuning

Reinforcement Learning

Junkeun Yi, Damon Mosk-Aoyama, Baihe Huang, et al.

F4Splat: Feed-Forward Predictive Densification for Feed-Forward 3D Gaussian Splatting

Injae Kim, Chaehyeon Kim, Minseong Bae, et al.

SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning

Multimodal Representation

Byungwoo Jeon, Dongyoung Kim, Huiwon Jang, et al.

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

Video Understanding

Visual Question Answering

Ruoliu Yang, Chu Wu, Caifeng Shan, et al.

LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning

Jianing Wang, Jianfei Zhang, Qi Guo, et al.

Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model

SII-GAIR, Sand. ai, Ethan Chern, et al.

Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

Video Generation

Meiqi Wu, Zhixin Cai, Fufangchen Zhao, et al.

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

Huadai Liu, Kaicheng Luo, Wen Wang, et al.

LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

Multimodal Representation

Lucas Maes, Quentin Le Lidec, Damien Scieur, et al.

FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

Zhifei Yang, Guangyao Zhai, Keyang Lu, et al.

LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

Diffusion Model

Jiazheng Xing, Fei Du, Hangjie Yuan, et al.

The Y-Combinator for LLMs: Solving Long-Context Rot with λ-Calculus

Text Generation

Amartya Roy, Rasul Tutunov, Xiaotong Ji, et al.

ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

Visual Question Answering

Thomas De Min, Subhankar Roy, Stéphane Lathuilière, et al.

TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Visual Question Answering

Yan Shu, Bin Ren, Zhitong Xiong, et al.

Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Video Generation

Songchun Zhang, Zeyue Xue, Siming Fu, et al.

HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Visual Question Answering

Shenzhi Wang, Shixuan Liu, Jing Zhou, et al.

Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

Diffusion Model

Video Generation

Chenyang Gu, Mingyuan Zhang, Haozhe Xie, et al.

FASTER: Rethinking Real-Time Flow VLAs

Diffusion Model

Yuxiang Lu, Zhe Liu, Xianzhe Fan, et al.

3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

Hyun-kyu Ko, Jihyeon Park, Younghyun Kim, et al.

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

Video Generation

Diffusion Model

Xinyao Zhang, Wenkai Dong, Yuxin Song, et al.

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Video Generation

Xianjin Wu, Dingkang Liang, Tianrui Feng, et al.

Efficient Reasoning with Balanced Thinking

Yulin Li, Tengyao Tu, Li Ding, et al.

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Multimodal Representation

Yulin Luo, Hao Chen, Zhuangzhe Wu, et al.

Complementary Reinforcement Learning

Reinforcement Learning

Dilxat Muhtar, Jiashun Liu, Wei Gao, et al.

Alignment Makes Language Models Normative, Not Descriptive

Preference Modeling

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

Video Generation

Diffusion Model

Wei Yu, Runjia Qian, Yumeng Li, et al.

MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

Peng Xia, Jianwen Chen, Xinyu Yang, et al.

Video-CoE: Reinforcing Video Event Prediction via Chain of Events

Video Understanding

Qile Su, Jing Tang, Rui Chen, et al.

FunCineForge: A Unified Dataset Toolkit and Model for Zero-Shot Movie Dubbing in Diverse Cinematic Scenes

Jiaxuan Liu, Yang Xiang, Han Zhao, et al.

In-Context Watermarks for Large Language Models

Text Generation

Yepeng Liu, Xuandong Zhao, Christopher Kruegel, et al.

WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

Video Generation

Action Recognition

Zhen Li, Zian Meng, Shuwei Shi, et al.

MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

Diffusion Model

Hejun Dong, Junbo Niu, Bin Wang, et al.

PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

Supervised Fine-Tuning

Reinforcement Learning

Junkeun Yi, Damon Mosk-Aoyama, Baihe Huang, et al.

F4Splat: Feed-Forward Predictive Densification for Feed-Forward 3D Gaussian Splatting

Injae Kim, Chaehyeon Kim, Minseong Bae, et al.

SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning

Multimodal Representation

Byungwoo Jeon, Dongyoung Kim, Huiwon Jang, et al.

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

Video Understanding

Visual Question Answering

Ruoliu Yang, Chu Wu, Caifeng Shan, et al.

LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning

Jianing Wang, Jianfei Zhang, Qi Guo, et al.

Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model

SII-GAIR, Sand. ai, Ethan Chern, et al.

Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

Video Generation

Meiqi Wu, Zhixin Cai, Fufangchen Zhao, et al.

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

Huadai Liu, Kaicheng Luo, Wen Wang, et al.

LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

Multimodal Representation

Lucas Maes, Quentin Le Lidec, Damien Scieur, et al.

FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

Zhifei Yang, Guangyao Zhai, Keyang Lu, et al.

LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

Diffusion Model

Jiazheng Xing, Fei Du, Hangjie Yuan, et al.

The Y-Combinator for LLMs: Solving Long-Context Rot with λ-Calculus

Text Generation

Amartya Roy, Rasul Tutunov, Xiaotong Ji, et al.

ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

Visual Question Answering

Thomas De Min, Subhankar Roy, Stéphane Lathuilière, et al.

TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Visual Question Answering

Yan Shu, Bin Ren, Zhitong Xiong, et al.

Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Video Generation

Songchun Zhang, Zeyue Xue, Siming Fu, et al.

HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Visual Question Answering

Shenzhi Wang, Shixuan Liu, Jing Zhou, et al.

Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

Diffusion Model

Video Generation

Chenyang Gu, Mingyuan Zhang, Haozhe Xie, et al.

FASTER: Rethinking Real-Time Flow VLAs

Diffusion Model

Yuxiang Lu, Zhe Liu, Xianzhe Fan, et al.

3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

Hyun-kyu Ko, Jihyeon Park, Younghyun Kim, et al.

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

Video Generation

Diffusion Model

Xinyao Zhang, Wenkai Dong, Yuxin Song, et al.

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Video Generation

Xianjin Wu, Dingkang Liang, Tianrui Feng, et al.

Efficient Reasoning with Balanced Thinking

Yulin Li, Tengyao Tu, Li Ding, et al.

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Multimodal Representation

Yulin Luo, Hao Chen, Zhuangzhe Wu, et al.

Complementary Reinforcement Learning

Reinforcement Learning

Dilxat Muhtar, Jiashun Liu, Wei Gao, et al.

Alignment Makes Language Models Normative, Not Descriptive

Preference Modeling

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

Video Generation

Diffusion Model

Wei Yu, Runjia Qian, Yumeng Li, et al.

MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

Peng Xia, Jianwen Chen, Xinyu Yang, et al.

Video-CoE: Reinforcing Video Event Prediction via Chain of Events

Video Understanding

Qile Su, Jing Tang, Rui Chen, et al.

FunCineForge: A Unified Dataset Toolkit and Model for Zero-Shot Movie Dubbing in Diverse Cinematic Scenes

Jiaxuan Liu, Yang Xiang, Han Zhao, et al.

In-Context Watermarks for Large Language Models

Text Generation

Yepeng Liu, Xuandong Zhao, Christopher Kruegel, et al.

PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

F4Splat: Feed-Forward Predictive Densification for Feed-Forward 3D Gaussian Splatting

SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning

Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model

Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

The Y-Combinator for LLMs: Solving Long-Context Rot with λ-Calculus

ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

FASTER: Rethinking Real-Time Flow VLAs

3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Efficient Reasoning with Balanced Thinking

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Complementary Reinforcement Learning

Alignment Makes Language Models Normative, Not Descriptive

MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

Video-CoE: Reinforcing Video Event Prediction via Chain of Events

FunCineForge: A Unified Dataset Toolkit and Model for Zero-Shot Movie Dubbing in Diverse Cinematic Scenes

In-Context Watermarks for Large Language Models

PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

F4Splat: Feed-Forward Predictive Densification for Feed-Forward 3D Gaussian Splatting

SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning

Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model

Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

The Y-Combinator for LLMs: Solving Long-Context Rot with λ-Calculus

ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

FASTER: Rethinking Real-Time Flow VLAs

3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Efficient Reasoning with Balanced Thinking

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Complementary Reinforcement Learning

Alignment Makes Language Models Normative, Not Descriptive

MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

Video-CoE: Reinforcing Video Event Prediction via Chain of Events

FunCineForge: A Unified Dataset Toolkit and Model for Zero-Shot Movie Dubbing in Diverse Cinematic Scenes

In-Context Watermarks for Large Language Models