HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Multiplayer Nash Preference Optimization

Multiplayer Nash Preference Optimization

Preference Modeling

Reinforcement Learning

Fang Wu, Xu Huang, Weihao Xuan, et al.

StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

Audio and Speech Processing

Yuhan Song, Linhao Zhang, Chuhan Wu, et al.

SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable
Sparse-Linear Attention

Diffusion Model

Jintao Zhang, Haoxu Wang, Kai Jiang, et al.

SimpleFold: Folding Proteins is Simpler than You Think

Yuyang Wang, Jiarui Lu, Navdeep Jaitly, et al.

POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion

Document Understanding

Yuan Liu, Zhongyin Zhao, Le Tian, et al.

Generalizable Geometric Image Caption Synthesis

Image Captioning

Yue Xin, Wenyuan Wang, Rui Pan, et al.

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Reinforcement Learning

Supervised Fine-Tuning

Siwei Wang, Yifei Shen, Haoran Sun, et al.

Estimating the Empowerment of Language Model Agents

Jinyeop Song, Jeff Gore, Max Kleiman-Weiner

Language Models Can Learn from Verbal Feedback Without Scalar Rewards

Reinforcement Learning

Renjie Luo, Zichen Liu, Xiangyan Liu, et al.

Variational Reasoning for Language Models

Xiangxin Zhou, Zichen Liu, Haonan Wang, et al.

EPO: Entropy-regularized Policy Optimization for LLM Agents
Reinforcement Learning

Reinforcement Learning

Xu Wujiang, Wentian Zhao, Zhenting Wang, et al.

MinerU2.5: A Decoupled Vision-Language Model for Efficient
High-Resolution Document Parsing

Document Understanding

Junbo Niu, Zheng Liu, Zhuangcheng Gu, et al.

Quantile Advantage Estimation for Entropy-Safe Reasoning

Reinforcement Learning

Junkang Wu, Kexin Huang, Jiancan Wu, et al.

LongLive: Real-time Interactive Long Video Generation

Video Generation

Shuai Yang, Wei Huang, Ruihang Chu, et al.

Combinatorial Creativity: A New Frontier in Generalization Abilities

Samuel Schapiro, Sumuk Shashidhar, Alexi Gladstone, et al.

Causal Spatio-Temporal Prediction: An Effective and Efficient Multi-Modal Approach

Yuting Huang, Ziquan Fang, Zhihao Zeng, et al.

Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D
Assets

Team Hunyuan3D, Bowen Zhang, Chunchao Guo, et al.

Seedream 4.0: Toward Next-generation Multimodal Image Generation

Diffusion Model

Team Seedream, Yunpeng Chen, Yu Gao, et al.

Tree Search for LLM Agent Reinforcement Learning

Reinforcement Learning

Yuxiang Ji, Ziyu Ma, Yong Wang, et al.

SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

Yizhou Wang, Chen Tang, Han Deng, et al.

MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and
Open Resources

Sicong Leng, Jing Wang, Jiaxi Li, et al.

VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

Reinforcement Learning

Guochao Jiang, Wenfeng Feng, Guofeng Quan, et al.

MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks

Mingsong Li, Lin Liu, Hongjun Wang, et al.

BRISC: Annotated Dataset for Brain Tumor Segmentation and Classification with Swin-HAFNet

Semantic Segmentation

Image Classification

Amirreza Fateh, Yasin Rezvani, Sara Moayedi, et al.

EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models

Emotion Recognition

He Hu, Yucheng Zhou, Lianzhong You, et al.

FDABench: A Benchmark for Data Agents on Analytical Queries over Heterogeneous Data

Ziting Wang, Shize Zhang, Haitao Yuan, et al.

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

Ouxiang Li, Yuan Wang, Xinting Hu, et al.

UniVerse-1: Unified Audio-Video Generation via Stitching of Experts

Video Generation

Duomin Wang, Wei Zuo, Aojie Li, et al.

How Good are Foundation Models in Step-by-Step Embodied Reasoning?

Embodied Intelligence

Dinura Dissanayake, Ahmed Heakl, Omkar Thawakar, et al.

SpikingBrain Technical Report: Spiking Brain-inspired Large Models

Yuqi Pan, Yupeng Feng, Jinghao Zhuang, et al.

SAGE: A Realistic Benchmark for Semantic Understanding

Samarth Goel, Reagan J. Lee, Kannan Ramchandran

WAVECLIP: Wavelet Tokenization for Adaptive-Resolution CLIP

Image Classification

Moshe Kimhi, Erez Koifman, Ehud Rivlin, et al.

Multiplayer Nash Preference Optimization

Multiplayer Nash Preference Optimization

Preference Modeling

Reinforcement Learning

Fang Wu, Xu Huang, Weihao Xuan, et al.

StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

Audio and Speech Processing

Yuhan Song, Linhao Zhang, Chuhan Wu, et al.

SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable
Sparse-Linear Attention

Diffusion Model

Jintao Zhang, Haoxu Wang, Kai Jiang, et al.

SimpleFold: Folding Proteins is Simpler than You Think

Yuyang Wang, Jiarui Lu, Navdeep Jaitly, et al.

POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion

Document Understanding

Yuan Liu, Zhongyin Zhao, Le Tian, et al.

Generalizable Geometric Image Caption Synthesis

Image Captioning

Yue Xin, Wenyuan Wang, Rui Pan, et al.

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Reinforcement Learning

Supervised Fine-Tuning

Siwei Wang, Yifei Shen, Haoran Sun, et al.

Estimating the Empowerment of Language Model Agents

Jinyeop Song, Jeff Gore, Max Kleiman-Weiner

Language Models Can Learn from Verbal Feedback Without Scalar Rewards

Reinforcement Learning

Renjie Luo, Zichen Liu, Xiangyan Liu, et al.

Variational Reasoning for Language Models

Xiangxin Zhou, Zichen Liu, Haonan Wang, et al.

EPO: Entropy-regularized Policy Optimization for LLM Agents
Reinforcement Learning

Reinforcement Learning

Xu Wujiang, Wentian Zhao, Zhenting Wang, et al.

MinerU2.5: A Decoupled Vision-Language Model for Efficient
High-Resolution Document Parsing

Document Understanding

Junbo Niu, Zheng Liu, Zhuangcheng Gu, et al.

Quantile Advantage Estimation for Entropy-Safe Reasoning

Reinforcement Learning

Junkang Wu, Kexin Huang, Jiancan Wu, et al.

LongLive: Real-time Interactive Long Video Generation

Video Generation

Shuai Yang, Wei Huang, Ruihang Chu, et al.

Combinatorial Creativity: A New Frontier in Generalization Abilities

Samuel Schapiro, Sumuk Shashidhar, Alexi Gladstone, et al.

Causal Spatio-Temporal Prediction: An Effective and Efficient Multi-Modal Approach

Yuting Huang, Ziquan Fang, Zhihao Zeng, et al.

Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D
Assets

Team Hunyuan3D, Bowen Zhang, Chunchao Guo, et al.

Seedream 4.0: Toward Next-generation Multimodal Image Generation

Diffusion Model

Team Seedream, Yunpeng Chen, Yu Gao, et al.

Tree Search for LLM Agent Reinforcement Learning

Reinforcement Learning

Yuxiang Ji, Ziyu Ma, Yong Wang, et al.

SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

Yizhou Wang, Chen Tang, Han Deng, et al.

MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and
Open Resources

Sicong Leng, Jing Wang, Jiaxi Li, et al.

VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

Reinforcement Learning

Guochao Jiang, Wenfeng Feng, Guofeng Quan, et al.

MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks

Mingsong Li, Lin Liu, Hongjun Wang, et al.

BRISC: Annotated Dataset for Brain Tumor Segmentation and Classification with Swin-HAFNet

Semantic Segmentation

Image Classification

Amirreza Fateh, Yasin Rezvani, Sara Moayedi, et al.

EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models

Emotion Recognition

He Hu, Yucheng Zhou, Lianzhong You, et al.

FDABench: A Benchmark for Data Agents on Analytical Queries over Heterogeneous Data

Ziting Wang, Shize Zhang, Haitao Yuan, et al.

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

Ouxiang Li, Yuan Wang, Xinting Hu, et al.

UniVerse-1: Unified Audio-Video Generation via Stitching of Experts

Video Generation

Duomin Wang, Wei Zuo, Aojie Li, et al.

How Good are Foundation Models in Step-by-Step Embodied Reasoning?

Embodied Intelligence

Dinura Dissanayake, Ahmed Heakl, Omkar Thawakar, et al.

SpikingBrain Technical Report: Spiking Brain-inspired Large Models

Yuqi Pan, Yupeng Feng, Jinghao Zhuang, et al.

SAGE: A Realistic Benchmark for Semantic Understanding

Samarth Goel, Reagan J. Lee, Kannan Ramchandran

WAVECLIP: Wavelet Tokenization for Adaptive-Resolution CLIP

Image Classification

Moshe Kimhi, Erez Koifman, Ehud Rivlin, et al.

SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention

SimpleFold: Folding Proteins is Simpler than You Think

POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion

Generalizable Geometric Image Caption Synthesis

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Estimating the Empowerment of Language Model Agents

Language Models Can Learn from Verbal Feedback Without Scalar Rewards

Variational Reasoning for Language Models

EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing

Quantile Advantage Estimation for Entropy-Safe Reasoning

LongLive: Real-time Interactive Long Video Generation

Combinatorial Creativity: A New Frontier in Generalization Abilities

Causal Spatio-Temporal Prediction: An Effective and Efficient Multi-Modal Approach

Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets

Seedream 4.0: Toward Next-generation Multimodal Image Generation

Tree Search for LLM Agent Reinforcement Learning

SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources

VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks

BRISC: Annotated Dataset for Brain Tumor Segmentation and Classification with Swin-HAFNet

EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models

FDABench: A Benchmark for Data Agents on Analytical Queries over Heterogeneous Data

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

UniVerse-1: Unified Audio-Video Generation via Stitching of Experts

How Good are Foundation Models in Step-by-Step Embodied Reasoning?

SpikingBrain Technical Report: Spiking Brain-inspired Large Models

SAGE: A Realistic Benchmark for Semantic Understanding

WAVECLIP: Wavelet Tokenization for Adaptive-Resolution CLIP

SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention

SimpleFold: Folding Proteins is Simpler than You Think

POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion

Generalizable Geometric Image Caption Synthesis

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Estimating the Empowerment of Language Model Agents

Language Models Can Learn from Verbal Feedback Without Scalar Rewards

Variational Reasoning for Language Models

EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing

Quantile Advantage Estimation for Entropy-Safe Reasoning

LongLive: Real-time Interactive Long Video Generation

Combinatorial Creativity: A New Frontier in Generalization Abilities

Causal Spatio-Temporal Prediction: An Effective and Efficient Multi-Modal Approach

Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets

Seedream 4.0: Toward Next-generation Multimodal Image Generation

Tree Search for LLM Agent Reinforcement Learning

SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources

VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks

BRISC: Annotated Dataset for Brain Tumor Segmentation and Classification with Swin-HAFNet

EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models

FDABench: A Benchmark for Data Agents on Analytical Queries over Heterogeneous Data

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

UniVerse-1: Unified Audio-Video Generation via Stitching of Experts

How Good are Foundation Models in Step-by-Step Embodied Reasoning?

SpikingBrain Technical Report: Spiking Brain-inspired Large Models

SAGE: A Realistic Benchmark for Semantic Understanding

WAVECLIP: Wavelet Tokenization for Adaptive-Resolution CLIP