HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Evaluating Parameter Efficient Methods for RLVR

Evaluating Parameter Efficient Methods for RLVR

Reinforcement Learning

Supervised Fine-Tuning

Qingyu Yin, Yulun Wu, Zhennan Shen, et al.

End-to-End Test-Time Training for Long Context

End-to-End Test-Time Training for Long Context

Natural Language Processing

Arnuv Tandon, Karan Dalal, Xinhao Li, et al.

DreamOmni3: Scribble-based Editing and Generation

Image Generation

Image Inpainting

Bin Xia, Bohao Peng, Jiyang Liu, et al.

UltraShape 1.0: High-Fidelity 3D Shape Generation via Scalable Geometric Refinement

Diffusion Model

Tanghui Jia, Dongyu Yan, Dehao Hao, et al.

mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs

Embodied Intelligence

Jonas Pai, Liam Achenbach, Victoriano Montesinos, et al.

HY-Motion 1.0: Scaling Flow Matching Models for Text-To-Motion Generation

Diffusion Model

Yuxin Wen, Qing Shuai, Di Kang, et al.

SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling

Embodied Intelligence

Yufan He, Pengfei Guo, Mengya Xu, et al.

SpotEdit: Selective Region Editing in Diffusion Transformers

Diffusion Model

Image Processing

Zhibin Qin, Zhenxiong Tan, Zeqing Wang, et al.

Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation

Depth Estimation

Diffusion Model

Shaocong Xu, Songlin Wei, Qizhe Wei, et al.

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

Reinforcement Learning

Shaofei Cai, Yulei Qin, Haojia Lin, et al.

Yume-1.5: A Text-Controlled Interactive World Generation Model

Diffusion Model

Xiaofeng Mao, Zhen Li, Chuanhao Li, et al.

LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation

Diffusion Model

Video Generation

Ethan Chern, Zhulin Hu, Bohao Tang, et al.

Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss

Ang Lv, Jin Ma, Yiyuan Ma, et al.

LongFly: Long-Horizon UAV Vision-and-Language Navigation with Spatiotemporal Context Integration

Video Understanding

Wen Jiang, Li Wang, Kangyao Huang, et al.

Attention Is Not What You Need

SlideTailor: Personalized Presentation Slide Generation for Scientific Papers

Text Generation

Human-Computer Interaction

Wenzheng Zeng, Mingyu Ouyang, Langyuan Cui, et al.

InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

Multimodal Representation

Kaican Li, Lewei Yao, Jiannan Wu, et al.

InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

Diffusion Model

Video Processing

Hoiyeong Jin, Hyojin Jang, Jeongho Kim, et al.

Mindscape-Aware Retrieval Augmented Generation for Improved Long Context Understanding

Retrieval-Augmented Generation

Yuqing Li, Jiangnan Li, Zheng Lin, et al.

Measuring short-form factuality in large language models

Intelligent Question Answering

Jason Wei, Nguyen Karina, Hyung Won Chung, et al.

DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

Nikita Gupta, Riju Chatterjee, Lukas Haas, et al.

MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents

Reinforcement Learning

Zijian Zhou, Ao Qu, Zhaoxuan Wu, et al.

AI-Trader: Benchmarking Autonomous Agents in Real-Time Financial Markets

Tianyu Fan, Yuhao Yang, Yangqin Jiang, et al.

Latent Implicit Visual Reasoning

Multimodal Representation

Kelvin Li, Chuyi Shang, Leonid Karlinsky, et al.

LLM Personas as a Substitute for Field Experiments in Method Benchmarking

Machine Learning

Enoch Hyunwook Kang

DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

Retrieval-Augmented Generation

Hao Liang, Xiaochen Ma, Zhou Liu, et al.

HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming

Video Generation

Diffusion Model

Haonan Qiu, Shikun Liu, Zijian Zhou, et al.

TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, et al.

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Supervised Fine-Tuning

NVIDIA, Aaron Blakeman, Aaron Grattafiori, et al.

Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models

Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, et al.

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

Video Generation

Jiawei Liu, Junqiao Li, Jiangfan Deng, et al.

T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

Zhe Cao, Tao Wang, Jiaming Wang, et al.

Evaluating Parameter Efficient Methods for RLVR

Evaluating Parameter Efficient Methods for RLVR

Reinforcement Learning

Supervised Fine-Tuning

Qingyu Yin, Yulun Wu, Zhennan Shen, et al.

End-to-End Test-Time Training for Long Context

End-to-End Test-Time Training for Long Context

Natural Language Processing

Arnuv Tandon, Karan Dalal, Xinhao Li, et al.

DreamOmni3: Scribble-based Editing and Generation

Image Generation

Image Inpainting

Bin Xia, Bohao Peng, Jiyang Liu, et al.

UltraShape 1.0: High-Fidelity 3D Shape Generation via Scalable Geometric Refinement

Diffusion Model

Tanghui Jia, Dongyu Yan, Dehao Hao, et al.

mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs

Embodied Intelligence

Jonas Pai, Liam Achenbach, Victoriano Montesinos, et al.

HY-Motion 1.0: Scaling Flow Matching Models for Text-To-Motion Generation

Diffusion Model

Yuxin Wen, Qing Shuai, Di Kang, et al.

SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling

Embodied Intelligence

Yufan He, Pengfei Guo, Mengya Xu, et al.

SpotEdit: Selective Region Editing in Diffusion Transformers

Diffusion Model

Image Processing

Zhibin Qin, Zhenxiong Tan, Zeqing Wang, et al.

Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation

Depth Estimation

Diffusion Model

Shaocong Xu, Songlin Wei, Qizhe Wei, et al.

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

Reinforcement Learning

Shaofei Cai, Yulei Qin, Haojia Lin, et al.

Yume-1.5: A Text-Controlled Interactive World Generation Model

Diffusion Model

Xiaofeng Mao, Zhen Li, Chuanhao Li, et al.

LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation

Diffusion Model

Video Generation

Ethan Chern, Zhulin Hu, Bohao Tang, et al.

Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss

Ang Lv, Jin Ma, Yiyuan Ma, et al.

LongFly: Long-Horizon UAV Vision-and-Language Navigation with Spatiotemporal Context Integration

Video Understanding

Wen Jiang, Li Wang, Kangyao Huang, et al.

Attention Is Not What You Need

SlideTailor: Personalized Presentation Slide Generation for Scientific Papers

Text Generation

Human-Computer Interaction

Wenzheng Zeng, Mingyu Ouyang, Langyuan Cui, et al.

InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

Multimodal Representation

Kaican Li, Lewei Yao, Jiannan Wu, et al.

InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

Diffusion Model

Video Processing

Hoiyeong Jin, Hyojin Jang, Jeongho Kim, et al.

Mindscape-Aware Retrieval Augmented Generation for Improved Long Context Understanding

Retrieval-Augmented Generation

Yuqing Li, Jiangnan Li, Zheng Lin, et al.

Measuring short-form factuality in large language models

Intelligent Question Answering

Jason Wei, Nguyen Karina, Hyung Won Chung, et al.

DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

Nikita Gupta, Riju Chatterjee, Lukas Haas, et al.

MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents

Reinforcement Learning

Zijian Zhou, Ao Qu, Zhaoxuan Wu, et al.

AI-Trader: Benchmarking Autonomous Agents in Real-Time Financial Markets

Tianyu Fan, Yuhao Yang, Yangqin Jiang, et al.

Latent Implicit Visual Reasoning

Multimodal Representation

Kelvin Li, Chuyi Shang, Leonid Karlinsky, et al.

LLM Personas as a Substitute for Field Experiments in Method Benchmarking

Machine Learning

Enoch Hyunwook Kang

DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

Retrieval-Augmented Generation

Hao Liang, Xiaochen Ma, Zhou Liu, et al.

HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming

Video Generation

Diffusion Model

Haonan Qiu, Shikun Liu, Zijian Zhou, et al.

TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, et al.

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Supervised Fine-Tuning

NVIDIA, Aaron Blakeman, Aaron Grattafiori, et al.

Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models

Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, et al.

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

Video Generation

Jiawei Liu, Junqiao Li, Jiangfan Deng, et al.

T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

Zhe Cao, Tao Wang, Jiaming Wang, et al.

DreamOmni3: Scribble-based Editing and Generation

UltraShape 1.0: High-Fidelity 3D Shape Generation via Scalable Geometric Refinement

mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs

HY-Motion 1.0: Scaling Flow Matching Models for Text-To-Motion Generation

SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling

SpotEdit: Selective Region Editing in Diffusion Transformers

Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

Yume-1.5: A Text-Controlled Interactive World Generation Model

LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation

Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss

LongFly: Long-Horizon UAV Vision-and-Language Navigation with Spatiotemporal Context Integration

Attention Is Not What You Need

SlideTailor: Personalized Presentation Slide Generation for Scientific Papers

InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

Mindscape-Aware Retrieval Augmented Generation for Improved Long Context Understanding

Measuring short-form factuality in large language models

DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents

AI-Trader: Benchmarking Autonomous Agents in Real-Time Financial Markets

Latent Implicit Visual Reasoning

LLM Personas as a Substitute for Field Experiments in Method Benchmarking

DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming

TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

DreamOmni3: Scribble-based Editing and Generation

UltraShape 1.0: High-Fidelity 3D Shape Generation via Scalable Geometric Refinement

mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs

HY-Motion 1.0: Scaling Flow Matching Models for Text-To-Motion Generation

SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling

SpotEdit: Selective Region Editing in Diffusion Transformers

Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

Yume-1.5: A Text-Controlled Interactive World Generation Model

LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation

Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss

LongFly: Long-Horizon UAV Vision-and-Language Navigation with Spatiotemporal Context Integration

Attention Is Not What You Need

SlideTailor: Personalized Presentation Slide Generation for Scientific Papers

InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

Mindscape-Aware Retrieval Augmented Generation for Improved Long Context Understanding

Measuring short-form factuality in large language models

DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents

AI-Trader: Benchmarking Autonomous Agents in Real-Time Financial Markets

Latent Implicit Visual Reasoning

LLM Personas as a Substitute for Field Experiments in Method Benchmarking

DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming

TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation