HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Xiyang Wu, Zongxia Li, Guangyao Shi, et al.

StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition

StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition

Face Recognition

Image Recognition

Kwan Yun, Changmin Lee, Ayeong Jeong, et al.

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

Multimodal Representation

Video Generation

Boyu Chen, Yi Chen, Lu Qiu, et al.

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

Video Generation

Xiaojie Xu, Zhengyuan Lin, Kang He, et al.

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

Yueyang Ding, HaoPeng Zhang, Rui Dai, et al.

Image Generators are Generalist Vision Learners

Image Generation

Image Understanding

Valentin Gabeur, Shangbang Long, Songyou Peng, et al.

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

Multimodal Representation

Meituan LongCat Team

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Reinforcement Learning

Qwen Pilot Team

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Reinforcement Learning

Lei Huang, Xiang Cheng, Chenxiao Zhao, et al.

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Tianyu Xie, Jina Huang, Yuexiao Ma, et al.

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

Exploring Spatial Intelligence from a Generative Perspective

Image Generation

Muzhi Zhu, Shunyao Jiang, Huanyi Zheng, et al.

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

Video Generation

Hyeonwoo Kim, Jeonghwan Kim, Kyungwon Cho, et al.

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

Xiaohua Wang, Muzhao Tian, Yuqi Zeng, et al.

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Supervised Fine-Tuning

Venus Team, Sunhao Dai, Yong Deng, et al.

Near-Future Policy Optimization

Reinforcement Learning

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

Diffusion Model

Inclusion AI, Tiwei Bie, Haoxing Chen, et al.

BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing

Supervised Fine-Tuning

Hieu Tran, Zhichao Yang, Zonghai Yao, et al.

Logics-Parsing-Omni Technical Report

Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models

Ron Vainshtein, Zohar Rimon, Shie Mannor, et al.

面向盲人与低视力用户的可解释人工智能：Agent 时代的信任、模态与可解释性探索

Artificial Intelligence

PlayCoder: Making LLM-Generated GUI Code Playable

Code Generation

Zhiyuan Peng, Wei Tao, Xin Yin, et al.

TEMPO: Scaling Test-time Training for Large Reasoning Models

Qingyang Zhang, Xinke Kong, Haitao Wu, et al.

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Diffusion Model

3D Machine Vision

Yutian Chen, Shi Guo, Renbiao Jin, et al.

AgentSPEX: An Agent SPecification and EXecution Language

Pengcheng Wang, Jerry Huang, Jiarui Yao, et al.

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

Video Generation

Xiangyang Luo, Xiaozhe Xin, Tao Feng, et al.

Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items

Image Generation

Mengting Chen, Zhengrui Chen, Yongchao Du, et al.

Fast NF4 Dequantization Kernels for Large Language Model Inference

Xiangbo Qi, Chaoyi Jiang, Murali Annavaram

EasyVideoR1: Easier RL for Video Understanding

Video Understanding

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

MultiWorld: Scalable Multi-Agent Multi-View Video World Models

Haoyu Wu, Jiwen Yu, Yingtian Zou, et al.

OpenGame: Open Agentic Coding for Games

Code Generation

Yilei Jiang, Jinyuan Hu, Qianyin Xiao, et al.

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

Guanting Dong, Junting Lu, Junjie Huang, et al.

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Xiyang Wu, Zongxia Li, Guangyao Shi, et al.

StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition

StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition

Face Recognition

Image Recognition

Kwan Yun, Changmin Lee, Ayeong Jeong, et al.

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

Multimodal Representation

Video Generation

Boyu Chen, Yi Chen, Lu Qiu, et al.

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

Video Generation

Xiaojie Xu, Zhengyuan Lin, Kang He, et al.

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

Yueyang Ding, HaoPeng Zhang, Rui Dai, et al.

Image Generators are Generalist Vision Learners

Image Generation

Image Understanding

Valentin Gabeur, Shangbang Long, Songyou Peng, et al.

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

Multimodal Representation

Meituan LongCat Team

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Reinforcement Learning

Qwen Pilot Team

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Reinforcement Learning

Lei Huang, Xiang Cheng, Chenxiao Zhao, et al.

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Tianyu Xie, Jina Huang, Yuexiao Ma, et al.

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

Exploring Spatial Intelligence from a Generative Perspective

Image Generation

Muzhi Zhu, Shunyao Jiang, Huanyi Zheng, et al.

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

Video Generation

Hyeonwoo Kim, Jeonghwan Kim, Kyungwon Cho, et al.

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

Xiaohua Wang, Muzhao Tian, Yuqi Zeng, et al.

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Supervised Fine-Tuning

Venus Team, Sunhao Dai, Yong Deng, et al.

Near-Future Policy Optimization

Reinforcement Learning

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

Diffusion Model

Inclusion AI, Tiwei Bie, Haoxing Chen, et al.

BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing

Supervised Fine-Tuning

Hieu Tran, Zhichao Yang, Zonghai Yao, et al.

Logics-Parsing-Omni Technical Report

Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models

Ron Vainshtein, Zohar Rimon, Shie Mannor, et al.

面向盲人与低视力用户的可解释人工智能：Agent 时代的信任、模态与可解释性探索

Artificial Intelligence

PlayCoder: Making LLM-Generated GUI Code Playable

Code Generation

Zhiyuan Peng, Wei Tao, Xin Yin, et al.

TEMPO: Scaling Test-time Training for Large Reasoning Models

Qingyang Zhang, Xinke Kong, Haitao Wu, et al.

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Diffusion Model

3D Machine Vision

Yutian Chen, Shi Guo, Renbiao Jin, et al.

AgentSPEX: An Agent SPecification and EXecution Language

Pengcheng Wang, Jerry Huang, Jiarui Yao, et al.

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

Video Generation

Xiangyang Luo, Xiaozhe Xin, Tao Feng, et al.

Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items

Image Generation

Mengting Chen, Zhengrui Chen, Yongchao Du, et al.

Fast NF4 Dequantization Kernels for Large Language Model Inference

Xiangbo Qi, Chaoyi Jiang, Murali Annavaram

EasyVideoR1: Easier RL for Video Understanding

Video Understanding

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

MultiWorld: Scalable Multi-Agent Multi-View Video World Models

Haoyu Wu, Jiwen Yu, Yingtian Zou, et al.

OpenGame: Open Agentic Coding for Games

Code Generation

Yilei Jiang, Jinyuan Hu, Qianyin Xiao, et al.

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

Guanting Dong, Junting Lu, Junjie Huang, et al.

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

Image Generators are Generalist Vision Learners

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

Exploring Spatial Intelligence from a Generative Perspective

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Near-Future Policy Optimization

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing

Logics-Parsing-Omni Technical Report

Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models

面向盲人与低视力用户的可解释人工智能：Agent 时代的信任、模态与可解释性探索

PlayCoder: Making LLM-Generated GUI Code Playable

TEMPO: Scaling Test-time Training for Large Reasoning Models

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

AgentSPEX: An Agent SPecification and EXecution Language

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items

Fast NF4 Dequantization Kernels for Large Language Model Inference

EasyVideoR1: Easier RL for Video Understanding

MultiWorld: Scalable Multi-Agent Multi-View Video World Models

OpenGame: Open Agentic Coding for Games

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

Image Generators are Generalist Vision Learners

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

Exploring Spatial Intelligence from a Generative Perspective

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Near-Future Policy Optimization

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing

Logics-Parsing-Omni Technical Report

Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models

面向盲人与低视力用户的可解释人工智能：Agent 时代的信任、模态与可解释性探索

PlayCoder: Making LLM-Generated GUI Code Playable

TEMPO: Scaling Test-time Training for Large Reasoning Models

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

AgentSPEX: An Agent SPecification and EXecution Language

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items

Fast NF4 Dequantization Kernels for Large Language Model Inference

EasyVideoR1: Easier RL for Video Understanding

MultiWorld: Scalable Multi-Agent Multi-View Video World Models

OpenGame: Open Agentic Coding for Games

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence