HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

VIDEOP2R: Video Understanding from Perception to Reasoning

VIDEOP2R: Video Understanding from Perception to Reasoning

Video Understanding

Multimodal Representation

Yifan Jiang, Yueying Wang, Rui Zhao, et al.

Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

Vladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, et al.

JAM-2: Fully computational design of drug-like antibodies with high success rates

PathMind: A Retrieve-Prioritize-Reason Framework for Knowledge Graph Reasoning with Large Language Models

Retrieval-Augmented Generation

Yu Liu, Xixun Lin, Yanmin Shang, et al.

REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

Video Understanding

Jiaze Li, Hao Yin, Wenhui Tan, et al.

MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs

Visual Question Answering

Huiyi Chen, Jiawei Peng, Dehai Min, et al.

Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

Video Generation

Xinxin Liu, Zhaopan Xu, Kai Wang, et al.

A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space

Diffusion Model

Huijie Liu, Shuhao Cui, Haoxiang Cao, et al.

AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models

Mohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, et al.

Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models

Tianyu Fu, Yichen You, Zekai Chen, et al.

HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs

Zheng Qin, Ruobing Zheng, Yabing Wang, et al.

CamCloneMaster: Enabling Reference-based Camera Control for Video Generation

Video Generation

Yawen Luo, Jianhong Bai, Xiaoyu Shi, et al.

EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

Reinforcement Learning

Preference Modeling

Xin Luo, Jiahao Wang, Chenyuan Wu, et al.

InteractMove: Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects

Embodied Intelligence

Xinhao Cai, Minghang Zheng, Xin Jin, et al.

WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance

Genglin Liu, Shijie Geng, Sha Li, et al.

Learning to Trust: Bayesian Adaptation to Varying Suggester Reliability in Sequential Decision Making

Reinforcement Learning

Dylan M. Asmar, Mykel J. Kochenderfer

GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning

Retrieval-Augmented Generation

Duolin Sun, Meixiu Long, Dan Yang, et al.

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

Diffusion Model

Ye Tian, Ling Yang, Jiongfan Yang, et al.

TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

Video Generation

Harold Haodong Chen, Disen Lan, Wen-Jie Shu, et al.

Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

Chunshi Wang, Junliang Ye, Yunhan Yang, et al.

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

Yunxin Li, Xinyu Chen, Shenyuan Jiang, et al.

P1: Mastering Physics Olympiads with Reinforcement Learning

Jiacheng Chen, Qianjia Cheng, Fangchen Yu, et al.

Lancelot: Towards Efficient and Privacy-Preserving Byzantine-Robust Federated Learning within Fully Homomorphic Encryption

Computer Vision

Neural Networks

Siyang Jiang, Hao Yang, Qipeng Xie, et al.

Latent Diffusion Model without Variational Autoencoder

Diffusion Model

Image Generation

Minglei Shi, Haolin Wang, Wenzhao Zheng, et al.

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

Visual Question Answering

Reinforcement Learning

Sicheng Feng, Kaiwen Tuo, Song Wang, et al.

ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

Reinforcement Learning

Diffusion Model

Tonghe Zhang, Chao Yu, Sichang Su, et al.

Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

Audio and Speech Processing

Yueqian Lin, Zhengmian Hu, Qinsi Wang, et al.

MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

Reinforcement Learning

Shulin Liu, Dong Du, Tao Yang, et al.

Virtual Width Networks

Seed, Baisheng Li, Banggu Wu, et al.

AIonopedia: an LLM agent orchestrating multimodal learning for ionic liquid discovery

Yuqi Yin, Yibo Fu, Siyuan Wang, et al.

UI2CodeN: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

Code Generation

Zhen Yang, Wenyi Hong, Mingde Xu, et al.

GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models

Jingxuan Wei, Caijun Jia, Xi Bai, et al.

VIDEOP2R: Video Understanding from Perception to Reasoning

VIDEOP2R: Video Understanding from Perception to Reasoning

Video Understanding

Multimodal Representation

Yifan Jiang, Yueying Wang, Rui Zhao, et al.

Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

Vladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, et al.

JAM-2: Fully computational design of drug-like antibodies with high success rates

PathMind: A Retrieve-Prioritize-Reason Framework for Knowledge Graph Reasoning with Large Language Models

Retrieval-Augmented Generation

Yu Liu, Xixun Lin, Yanmin Shang, et al.

REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

Video Understanding

Jiaze Li, Hao Yin, Wenhui Tan, et al.

MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs

Visual Question Answering

Huiyi Chen, Jiawei Peng, Dehai Min, et al.

Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

Video Generation

Xinxin Liu, Zhaopan Xu, Kai Wang, et al.

A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space

Diffusion Model

Huijie Liu, Shuhao Cui, Haoxiang Cao, et al.

AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models

Mohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, et al.

Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models

Tianyu Fu, Yichen You, Zekai Chen, et al.

HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs

Zheng Qin, Ruobing Zheng, Yabing Wang, et al.

CamCloneMaster: Enabling Reference-based Camera Control for Video Generation

Video Generation

Yawen Luo, Jianhong Bai, Xiaoyu Shi, et al.

EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

Reinforcement Learning

Preference Modeling

Xin Luo, Jiahao Wang, Chenyuan Wu, et al.

InteractMove: Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects

Embodied Intelligence

Xinhao Cai, Minghang Zheng, Xin Jin, et al.

WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance

Genglin Liu, Shijie Geng, Sha Li, et al.

Learning to Trust: Bayesian Adaptation to Varying Suggester Reliability in Sequential Decision Making

Reinforcement Learning

Dylan M. Asmar, Mykel J. Kochenderfer

GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning

Retrieval-Augmented Generation

Duolin Sun, Meixiu Long, Dan Yang, et al.

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

Diffusion Model

Ye Tian, Ling Yang, Jiongfan Yang, et al.

TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

Video Generation

Harold Haodong Chen, Disen Lan, Wen-Jie Shu, et al.

Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

Chunshi Wang, Junliang Ye, Yunhan Yang, et al.

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

Yunxin Li, Xinyu Chen, Shenyuan Jiang, et al.

P1: Mastering Physics Olympiads with Reinforcement Learning

Jiacheng Chen, Qianjia Cheng, Fangchen Yu, et al.

Lancelot: Towards Efficient and Privacy-Preserving Byzantine-Robust Federated Learning within Fully Homomorphic Encryption

Computer Vision

Neural Networks

Siyang Jiang, Hao Yang, Qipeng Xie, et al.

Latent Diffusion Model without Variational Autoencoder

Diffusion Model

Image Generation

Minglei Shi, Haolin Wang, Wenzhao Zheng, et al.

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

Visual Question Answering

Reinforcement Learning

Sicheng Feng, Kaiwen Tuo, Song Wang, et al.

ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

Reinforcement Learning

Diffusion Model

Tonghe Zhang, Chao Yu, Sichang Su, et al.

Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

Audio and Speech Processing

Yueqian Lin, Zhengmian Hu, Qinsi Wang, et al.

MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

Reinforcement Learning

Shulin Liu, Dong Du, Tao Yang, et al.

Virtual Width Networks

Seed, Baisheng Li, Banggu Wu, et al.

AIonopedia: an LLM agent orchestrating multimodal learning for ionic liquid discovery

Yuqi Yin, Yibo Fu, Siyuan Wang, et al.

UI2CodeN: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

Code Generation

Zhen Yang, Wenyi Hong, Mingde Xu, et al.

GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models

Jingxuan Wei, Caijun Jia, Xi Bai, et al.

JAM-2: Fully computational design of drug-like antibodies with high success rates

PathMind: A Retrieve-Prioritize-Reason Framework for Knowledge Graph Reasoning with Large Language Models

REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs

Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space

AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models

Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models

HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs

CamCloneMaster: Enabling Reference-based Camera Control for Video Generation

EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

InteractMove: Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects

WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance

Learning to Trust: Bayesian Adaptation to Varying Suggester Reliability in Sequential Decision Making

GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

P1: Mastering Physics Olympiads with Reinforcement Learning

Lancelot: Towards Efficient and Privacy-Preserving Byzantine-Robust Federated Learning within Fully Homomorphic Encryption

Latent Diffusion Model without Variational Autoencoder

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

Virtual Width Networks

AIonopedia: an LLM agent orchestrating multimodal learning for ionic liquid discovery

UI2CodeN: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models

JAM-2: Fully computational design of drug-like antibodies with high success rates

PathMind: A Retrieve-Prioritize-Reason Framework for Knowledge Graph Reasoning with Large Language Models

REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs

Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space

AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models

Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models

HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs

CamCloneMaster: Enabling Reference-based Camera Control for Video Generation

EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

InteractMove: Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects

WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance

Learning to Trust: Bayesian Adaptation to Varying Suggester Reliability in Sequential Decision Making

GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

P1: Mastering Physics Olympiads with Reinforcement Learning

Lancelot: Towards Efficient and Privacy-Preserving Byzantine-Robust Federated Learning within Fully Homomorphic Encryption

Latent Diffusion Model without Variational Autoencoder

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

Virtual Width Networks

AIonopedia: an LLM agent orchestrating multimodal learning for ionic liquid discovery

UI2CodeN: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models