HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

DoPE: Denoising Rotary Position Embedding

DoPE: Denoising Rotary Position Embedding

Jing Xiong, Liyang Fan, Hui Shen, et al.

BRFL: A Blockchain-based Byzantine-Robust Federated Learning Model

BRFL: A Blockchain-based Byzantine-Robust Federated Learning Model

Yang Li, Chunhe Xia, Chang Li, et al.

Multi-Granularity Distribution Modeling for Video Watch Time Prediction via Exponential-Gaussian Mixture Network

Video Understanding

Video Processing

Xu Zhao, Ruibo Ma, Jiaqi Chen, et al.

SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling

Reinforcement Learning

Yixian Zhang, Shu'ang Yu, Tonghe Zhang, et al.

Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

Multimodal Representation

Xiaojun Jia, Sensen Gao, Simeng Qin, et al.

Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO

Reinforcement Learning

Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen

Black-Box On-Policy Distillation of Large Language Models

Preference Modeling

Tianzhu Ye, Li Dong, Zewen Chi, et al.

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

Video Understanding

Zhengyang Liang, Daoan Zhang, Huichi Zhou, et al.

PAN: A World Model for General, Interactable, and Long-Horizon World Simulation

Video Generation

PAN Team Institute of Foundation Models, Jiannan Xiang, Yi Gu, et al.

One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models

Diffusion Model

Image Generation

Aleksandr Razin, Danil Kazantsev, Ilya Makarov

YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception

Object Detection

Object Tracking

Mengqi Lei, Siqi Li, Yihong Wu, et al.

MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm

Document Understanding

Adam Tauman Kalai, Yael Tauman Kalai, Or Zamir

Consensus Sampling for Safer Generative AI

Adam Tauman Kalai, Yael Tauman Kalai, Or Zamir

Argus: Resilience-Oriented Safety Assurance Framework for End-to-End ADSs

Autonomous Driving

Dingji Wang, You Lu, Bihuan Chen, et al.

WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

Reinforcement Learning

Fangqi Zhu, Zhengyang Yan, Zicong Hong, et al.

LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls

Kangning Zhang, Wenxiang Jiao, Kounianhua Du, et al.

Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces

Retrieval-Augmented Generation

Shreyas Rajesh, Pavan Holur, Chenda Duan, et al.

TiDAR: Think in Diffusion, Talk in Autoregression

Diffusion Model

Jingyu Liu, Xin Dong, Zhifan Ye, et al.

Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising

Diffusion Model

Assaf Singer, Noam Rotstein, Amir Mann, et al.

Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

Weihao Tan, Xiangyang Li, Yunhao Fang, et al.

Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

Image Generation

Eyal Gutflaish, Eliran Kachlon, Hezi Zisman, et al.

KLASS: KL-Guided Fast Inference in Masked Diffusion Models

Diffusion Model

Natural Language Processing

Seo Hyun Kim, Sunwoo Hong, Hojung Jung, et al.

Grounding Computer Use Agents on Human Demonstrations

Document Understanding

Aarash Feizi, Shravan Nayak, Xiangru Jian, et al.

Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora

Khalil Hennara, Ahmad Bastati, Muhammad Hreden, et al.

Adaptive Multi-Agent Response Refinement in Conversational Systems

Soyeong Jeong, Aparna Elangovan, Emine Yilmaz, et al.

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

Object Detection

3D Machine Vision

Yifan Wang, Yian Zhao, Fanqi Pu, et al.

Efficient Approximation of Volterra Series for High-Dimensional Systems

Machine Learning

Navin Khoshnan, Claudia K Petritsch, Bryce-Allen Bagley

SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via
Gumbel-Reparameterized Soft-Thinking Policy Optimization

Reinforcement Learning

Zhi Zheng, Wee Sun Lee

RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social
Networking Services

Supervised Fine-Tuning

Fei Zhao, Chonggang Lu, Haofu Qian, et al.

The Station: An Open-World Environment for AI-Driven Discovery

Stephen Chung, Wenyu Du

DRIVE: Data Curation Best Practices for Reinforcement Learning with
Verifiable Reward in Competitive Code Generation

Supervised Fine-Tuning

Reinforcement Learning

Speed Zhu, Jianwei Cai, Guang Chen, et al.

IterResearch: Rethinking Long-Horizon Agents via Markovian State
Reconstruction

Reinforcement Learning

Guoxin Chen, Zile Qiao, Xuanzhong Chen, et al.

DoPE: Denoising Rotary Position Embedding

DoPE: Denoising Rotary Position Embedding

Jing Xiong, Liyang Fan, Hui Shen, et al.

BRFL: A Blockchain-based Byzantine-Robust Federated Learning Model

BRFL: A Blockchain-based Byzantine-Robust Federated Learning Model

Yang Li, Chunhe Xia, Chang Li, et al.

Multi-Granularity Distribution Modeling for Video Watch Time Prediction via Exponential-Gaussian Mixture Network

Video Understanding

Video Processing

Xu Zhao, Ruibo Ma, Jiaqi Chen, et al.

SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling

Reinforcement Learning

Yixian Zhang, Shu'ang Yu, Tonghe Zhang, et al.

Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

Multimodal Representation

Xiaojun Jia, Sensen Gao, Simeng Qin, et al.

Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO

Reinforcement Learning

Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen

Black-Box On-Policy Distillation of Large Language Models

Preference Modeling

Tianzhu Ye, Li Dong, Zewen Chi, et al.

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

Video Understanding

Zhengyang Liang, Daoan Zhang, Huichi Zhou, et al.

PAN: A World Model for General, Interactable, and Long-Horizon World Simulation

Video Generation

PAN Team Institute of Foundation Models, Jiannan Xiang, Yi Gu, et al.

One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models

Diffusion Model

Image Generation

Aleksandr Razin, Danil Kazantsev, Ilya Makarov

YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception

Object Detection

Object Tracking

Mengqi Lei, Siqi Li, Yihong Wu, et al.

MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm

Document Understanding

Adam Tauman Kalai, Yael Tauman Kalai, Or Zamir

Consensus Sampling for Safer Generative AI

Adam Tauman Kalai, Yael Tauman Kalai, Or Zamir

Argus: Resilience-Oriented Safety Assurance Framework for End-to-End ADSs

Autonomous Driving

Dingji Wang, You Lu, Bihuan Chen, et al.

WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

Reinforcement Learning

Fangqi Zhu, Zhengyang Yan, Zicong Hong, et al.

LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls

Kangning Zhang, Wenxiang Jiao, Kounianhua Du, et al.

Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces

Retrieval-Augmented Generation

Shreyas Rajesh, Pavan Holur, Chenda Duan, et al.

TiDAR: Think in Diffusion, Talk in Autoregression

Diffusion Model

Jingyu Liu, Xin Dong, Zhifan Ye, et al.

Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising

Diffusion Model

Assaf Singer, Noam Rotstein, Amir Mann, et al.

Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

Weihao Tan, Xiangyang Li, Yunhao Fang, et al.

Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

Image Generation

Eyal Gutflaish, Eliran Kachlon, Hezi Zisman, et al.

KLASS: KL-Guided Fast Inference in Masked Diffusion Models

Diffusion Model

Natural Language Processing

Seo Hyun Kim, Sunwoo Hong, Hojung Jung, et al.

Grounding Computer Use Agents on Human Demonstrations

Document Understanding

Aarash Feizi, Shravan Nayak, Xiangru Jian, et al.

Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora

Khalil Hennara, Ahmad Bastati, Muhammad Hreden, et al.

Adaptive Multi-Agent Response Refinement in Conversational Systems

Soyeong Jeong, Aparna Elangovan, Emine Yilmaz, et al.

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

Object Detection

3D Machine Vision

Yifan Wang, Yian Zhao, Fanqi Pu, et al.

Efficient Approximation of Volterra Series for High-Dimensional Systems

Machine Learning

Navin Khoshnan, Claudia K Petritsch, Bryce-Allen Bagley

SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via
Gumbel-Reparameterized Soft-Thinking Policy Optimization

Reinforcement Learning

Zhi Zheng, Wee Sun Lee

RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social
Networking Services

Supervised Fine-Tuning

Fei Zhao, Chonggang Lu, Haofu Qian, et al.

The Station: An Open-World Environment for AI-Driven Discovery

Stephen Chung, Wenyu Du

DRIVE: Data Curation Best Practices for Reinforcement Learning with
Verifiable Reward in Competitive Code Generation

Supervised Fine-Tuning

Reinforcement Learning

Speed Zhu, Jianwei Cai, Guang Chen, et al.

IterResearch: Rethinking Long-Horizon Agents via Markovian State
Reconstruction

Reinforcement Learning

Guoxin Chen, Zile Qiao, Xuanzhong Chen, et al.

Multi-Granularity Distribution Modeling for Video Watch Time Prediction via Exponential-Gaussian Mixture Network

SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling

Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO

Black-Box On-Policy Distillation of Large Language Models

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

PAN: A World Model for General, Interactable, and Long-Horizon World Simulation

One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models

YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception

MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm

Consensus Sampling for Safer Generative AI

Argus: Resilience-Oriented Safety Assurance Framework for End-to-End ADSs

WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls

Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces

TiDAR: Think in Diffusion, Talk in Autoregression

Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising

Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

KLASS: KL-Guided Fast Inference in Masked Diffusion Models

Grounding Computer Use Agents on Human Demonstrations

Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora

Adaptive Multi-Agent Response Refinement in Conversational Systems

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

Efficient Approximation of Volterra Series for High-Dimensional Systems

SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services

The Station: An Open-World Environment for AI-Driven Discovery

DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

Multi-Granularity Distribution Modeling for Video Watch Time Prediction via Exponential-Gaussian Mixture Network

SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling

Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO

Black-Box On-Policy Distillation of Large Language Models

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

PAN: A World Model for General, Interactable, and Long-Horizon World Simulation

One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models

YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception

MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm

Consensus Sampling for Safer Generative AI

Argus: Resilience-Oriented Safety Assurance Framework for End-to-End ADSs

WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls

Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces

TiDAR: Think in Diffusion, Talk in Autoregression

Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising

Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

KLASS: KL-Guided Fast Inference in Masked Diffusion Models

Grounding Computer Use Agents on Human Demonstrations

Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora

Adaptive Multi-Agent Response Refinement in Conversational Systems

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

Efficient Approximation of Volterra Series for High-Dimensional Systems

SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services

The Station: An Open-World Environment for AI-Driven Discovery

DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction