HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Measuring Agents in Production

Measuring Agents in Production

Melissa Z. Pan, Negar Arabzadeh, Riccardo Cogo, et al.

PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts

PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts

Yiming Wang, Pei Zhang, Jialong Tang, et al.

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

Long Lian, Sida Wang, Felix Juefei-Xu, et al.

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Reinforcement Learning

Supervised Fine-Tuning

Salman Rahman, Sruthi Gorantla, Arpit Gupta, et al.

OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory

Video Generation

Zhaochong An, Menglin Jia, Haonan Qiu, et al.

Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

Video Processing

Computer Vision

Zekai Luo, Zongze Du, Zhouhang Zhu, et al.

Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform

Yuning Gong, Yifei Liu, Yifan Zhan, et al.

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

Video Generation

Ruihang Chu, Yefei He, Zhekai Chen, et al.

Soft Adaptive Policy Optimization

Reinforcement Learning

Chang Gao, Chujie Zheng, Xiong-Hui Chen, et al.

Scaling Zero-Shot Reference-to-Video Generation

Video Generation

Zijian Zhou, Shikun Liu, Haozhe Liu, et al.

Voxify3D: Pixel Art Meets Volumetric Rendering

Yi-Chuan Huang, Jiewen Chan, Hao-Jen Chien, et al.

DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems

Ming Ma, Jue Zhang, Fangkai Yang, et al.

Unified Video Editing with Temporal Reasoner

Video Generation

Video Processing

Xiangpeng Yang, Ji Xie, Yiyuan Yang, et al.

Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs

Xiaoran Liu, Yuerong Song, Zhigeng Liu, et al.

Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

Tong Wu, Yang Liu, Jun Bai, et al.

iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification

Zixun Xiong, Gaoyi Wu, Qingyang Yu, et al.

DAVSP: Safety Alignment for Large Vision-Language Models via Deep Aligned Visual Safety Prompt

Supervised Fine-Tuning

Yitong Zhang, Jia Li, Liyi Cai, et al.

WorldGen: From Text to Traversable and Interactive 3D Worlds

Diffusion Model

Dilin Wang, Hyunyoung Jung, Tom Monnier, et al.

Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

Shalini Maiti, Amar Budhiraja, Bhavul Gauri, et al.

DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching

Zicheng Xu, Guanchu Wang, Yu-Neng Chuang, et al.

Adaptive Kernel Design for Bayesian Optimization Is a Piece of CAKE with LLMs

Richard Cornelius Suwandi, Feng Yin, Juntao Wang, et al.

DePass: Unified Feature Attributing by Simple Decomposed Forward Pass

Natural Language Processing

Xiangyu Hong, Che Jiang, Kai Tian, et al.

COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence

Multi-Task Learning

Zefeng Zhang, Xiangzhao Hao, Hengzhu Tang, et al.

From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

Reinforcement Learning

Changpeng Yang, Jinyang Wu, Yuchen Liu, et al.

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling

Reinforcement Learning

Bowen Ping, Chengyou Jia, Minnan Luo, et al.

EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture

Multi-Task Learning

Xin He, Longhui Wei, Jianbo Ouyang, et al.

EditThinker: Unlocking Iterative Reasoning for Any Image Editor

Image Generation

Hongyu Li, Manyuan Zhang, Dian Zheng, et al.

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

Diffusion Model

Zhenglin Cheng, Peng Sun, Jianguo Li, et al.

CARE-PD: A Multi-Site Anonymized Clinical Dataset for Parkinson's Disease Gait Assessment

Video Understanding

Vida Adeli, Ivan Klabucar, Javad Rajabi, et al.

WenetSpeech-Chuan: A Large-Scale Sichuanese Corpus with Rich Annotation for Dialectal Speech Processing

Audio and Speech Processing

Yuhang Dai, Ziyu Zhang, Shuai Wang, et al.

PolypSense3D: A Multi-Source Benchmark Dataset for Depth-Aware Polyp Size Measurement in Endoscopy

Depth Estimation

Semantic Segmentation

Ruyu Liu, Lin Wang, Zhou Mingming, et al.

PhysDrive: A Multimodal Remote Physiological Measurement Dataset for In-vehicle Driver Monitoring

Computer Vision

Jiyao Wang, Xiao Yang, Qingyong Hu, et al.

Measuring Agents in Production

Measuring Agents in Production

Melissa Z. Pan, Negar Arabzadeh, Riccardo Cogo, et al.

PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts

PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts

Yiming Wang, Pei Zhang, Jialong Tang, et al.

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

Long Lian, Sida Wang, Felix Juefei-Xu, et al.

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Reinforcement Learning

Supervised Fine-Tuning

Salman Rahman, Sruthi Gorantla, Arpit Gupta, et al.

OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory

Video Generation

Zhaochong An, Menglin Jia, Haonan Qiu, et al.

Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

Video Processing

Computer Vision

Zekai Luo, Zongze Du, Zhouhang Zhu, et al.

Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform

Yuning Gong, Yifei Liu, Yifan Zhan, et al.

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

Video Generation

Ruihang Chu, Yefei He, Zhekai Chen, et al.

Soft Adaptive Policy Optimization

Reinforcement Learning

Chang Gao, Chujie Zheng, Xiong-Hui Chen, et al.

Scaling Zero-Shot Reference-to-Video Generation

Video Generation

Zijian Zhou, Shikun Liu, Haozhe Liu, et al.

Voxify3D: Pixel Art Meets Volumetric Rendering

Yi-Chuan Huang, Jiewen Chan, Hao-Jen Chien, et al.

DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems

Ming Ma, Jue Zhang, Fangkai Yang, et al.

Unified Video Editing with Temporal Reasoner

Video Generation

Video Processing

Xiangpeng Yang, Ji Xie, Yiyuan Yang, et al.

Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs

Xiaoran Liu, Yuerong Song, Zhigeng Liu, et al.

Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

Tong Wu, Yang Liu, Jun Bai, et al.

iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification

Zixun Xiong, Gaoyi Wu, Qingyang Yu, et al.

DAVSP: Safety Alignment for Large Vision-Language Models via Deep Aligned Visual Safety Prompt

Supervised Fine-Tuning

Yitong Zhang, Jia Li, Liyi Cai, et al.

WorldGen: From Text to Traversable and Interactive 3D Worlds

Diffusion Model

Dilin Wang, Hyunyoung Jung, Tom Monnier, et al.

Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

Shalini Maiti, Amar Budhiraja, Bhavul Gauri, et al.

DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching

Zicheng Xu, Guanchu Wang, Yu-Neng Chuang, et al.

Adaptive Kernel Design for Bayesian Optimization Is a Piece of CAKE with LLMs

Richard Cornelius Suwandi, Feng Yin, Juntao Wang, et al.

DePass: Unified Feature Attributing by Simple Decomposed Forward Pass

Natural Language Processing

Xiangyu Hong, Che Jiang, Kai Tian, et al.

COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence

Multi-Task Learning

Zefeng Zhang, Xiangzhao Hao, Hengzhu Tang, et al.

From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

Reinforcement Learning

Changpeng Yang, Jinyang Wu, Yuchen Liu, et al.

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling

Reinforcement Learning

Bowen Ping, Chengyou Jia, Minnan Luo, et al.

EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture

Multi-Task Learning

Xin He, Longhui Wei, Jianbo Ouyang, et al.

EditThinker: Unlocking Iterative Reasoning for Any Image Editor

Image Generation

Hongyu Li, Manyuan Zhang, Dian Zheng, et al.

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

Diffusion Model

Zhenglin Cheng, Peng Sun, Jianguo Li, et al.

CARE-PD: A Multi-Site Anonymized Clinical Dataset for Parkinson's Disease Gait Assessment

Video Understanding

Vida Adeli, Ivan Klabucar, Javad Rajabi, et al.

WenetSpeech-Chuan: A Large-Scale Sichuanese Corpus with Rich Annotation for Dialectal Speech Processing

Audio and Speech Processing

Yuhang Dai, Ziyu Zhang, Shuai Wang, et al.

PolypSense3D: A Multi-Source Benchmark Dataset for Depth-Aware Polyp Size Measurement in Endoscopy

Depth Estimation

Semantic Segmentation

Ruyu Liu, Lin Wang, Zhou Mingming, et al.

PhysDrive: A Multimodal Remote Physiological Measurement Dataset for In-vehicle Driver Monitoring

Computer Vision

Jiyao Wang, Xiao Yang, Qingyong Hu, et al.

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory

Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

Soft Adaptive Policy Optimization

Scaling Zero-Shot Reference-to-Video Generation

Voxify3D: Pixel Art Meets Volumetric Rendering

DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems

Unified Video Editing with Temporal Reasoner

Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs

Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification

DAVSP: Safety Alignment for Large Vision-Language Models via Deep Aligned Visual Safety Prompt

WorldGen: From Text to Traversable and Interactive 3D Worlds

Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching

Adaptive Kernel Design for Bayesian Optimization Is a Piece of CAKE with LLMs

DePass: Unified Feature Attributing by Simple Decomposed Forward Pass

COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence

From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling

EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture

EditThinker: Unlocking Iterative Reasoning for Any Image Editor

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

CARE-PD: A Multi-Site Anonymized Clinical Dataset for Parkinson's Disease Gait Assessment

WenetSpeech-Chuan: A Large-Scale Sichuanese Corpus with Rich Annotation for Dialectal Speech Processing

PolypSense3D: A Multi-Source Benchmark Dataset for Depth-Aware Polyp Size Measurement in Endoscopy

PhysDrive: A Multimodal Remote Physiological Measurement Dataset for In-vehicle Driver Monitoring

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory

Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

Soft Adaptive Policy Optimization

Scaling Zero-Shot Reference-to-Video Generation

Voxify3D: Pixel Art Meets Volumetric Rendering

DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems

Unified Video Editing with Temporal Reasoner

Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs

Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification

DAVSP: Safety Alignment for Large Vision-Language Models via Deep Aligned Visual Safety Prompt

WorldGen: From Text to Traversable and Interactive 3D Worlds

Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching

Adaptive Kernel Design for Bayesian Optimization Is a Piece of CAKE with LLMs

DePass: Unified Feature Attributing by Simple Decomposed Forward Pass

COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence

From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling

EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture

EditThinker: Unlocking Iterative Reasoning for Any Image Editor

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

CARE-PD: A Multi-Site Anonymized Clinical Dataset for Parkinson's Disease Gait Assessment

WenetSpeech-Chuan: A Large-Scale Sichuanese Corpus with Rich Annotation for Dialectal Speech Processing

PolypSense3D: A Multi-Source Benchmark Dataset for Depth-Aware Polyp Size Measurement in Endoscopy

PhysDrive: A Multimodal Remote Physiological Measurement Dataset for In-vehicle Driver Monitoring