HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Retrieval-Augmented Generation

Visual Question Answering

Wenxuan Huang, Yu Zeng, Qiuchen Wang, et al.

Kimi K2.5: Visual Agentic Intelligence

Kimi K2.5: Visual Agentic Intelligence

Multimodal Representation

Kimi Team, Tongtong Bai, Yifan Bai, et al.

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

I. Apanasevich, M. Artemyev, R. Babakyan, et al.

PaperBanana: Automating Academic Illustration for AI Scientists

Dawei Zhu, Rui Meng, Yale Song, et al.

Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems

Tony Feng, Trieu Trinh, Garrett Bingham, et al.

Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

Jiecong Wang, Hao Peng, Chunyang Liu

Real-Time Aligned Reward Model beyond Semantics

Reinforcement Learning

Zixuan Huang, Xin Xia, Yuxi Ren, et al.

DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

Diffusion Model

Supervised Fine-Tuning

Haoyou Deng, Keyu Yan, Chaojie Mao, et al.

DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

Video Generation

Mingshuang Luo, Shuang Liang, Zhengkun Rong, et al.

TTCS: Test-Time Curriculum Synthesis for Self-Evolving

Chengyi Yang, Zhishang Xiang, Yunbo Tang, et al.

ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

Reinforcement Learning

Xiaoyu Tian, Haotian Wang, Shuaiting Chen, et al.

Self-Distillation Enables Continual Learning

Reinforcement Learning

Supervised Fine-Tuning

Idan Shenfeld, Mehul Damani, Jonas Hübotter, et al.

Towards Execution-Grounded Automated AI Research

Chenglei Si, Zitong Yang, Yejin Choi, et al.

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

Embodied Intelligence

Haozhe Xie, Beichen Wen, Jiarui Zheng, et al.

MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods

Honglin Lin, Zheng Liu, Yun Zhu, et al.

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Document Understanding

Yufeng Zhong, Lei Chen, Xuanle Zhao, et al.

Scaling Embeddings Outperforms Scaling Experts in Language Models

Retrieval-Augmented Generation

Hong Liu, Jiaqi Zhang, Chao Wang, et al.

Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific Narratives

Tengyue Xu, Zhuoyang Qian, Gaoge Liu, et al.

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

Diffusion Model

Zengbin Wang, Xuecai Hu, Yong Wang, et al.

Qwen3-ASR Technical Report

Audio and Speech Processing

Xian Shi, Xiong Wang, Zhifang Guo, et al.

Insight Agents: An LLM-Based Multi-Agent System for Data Insights

Intelligent Question Answering

Jincheng Bai, Zhenyu Zhang, Jennifer Zhang, et al.

Towards Pixel-Level VLM Perception via Simple Points Prediction

Image Segmentation

Multimodal Representation

Tianhui Song, Haoyu Lu, Hao Yang, et al.

Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

Multimodal Representation

Zhixiang Wei, Yi Li, Zhehan Kan, et al.

Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

Multimodal Representation

Intelligent Question Answering

Zichen Wen, Boxue Yang, Shuang Chen, et al.

Advancing Open-source World Models

Video Generation

Robbyant Team, Zelin Gao, Qiuyu Wang, et al.

Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

Reinforcement Learning

Yanqi Dai, Yuxiang Ji, Xiao Zhang, et al.

Short window attention enables long-term memorization

Loïc Cabannes, Maximilian Beck, Gergely Szilvasy, et al.

World Craft: Agentic Framework to Create Visualizable Worlds via Text

Jianwen Sun, Yukang Feng, Kaining Ying, et al.

Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

Jialong Wu, Xiaoying Zhang, Hongyi Yuan, et al.

Masked Depth Modeling for Spatial Perception

Depth Estimation

Bin Tan, Changjiang Sun, Xiage Qin, et al.

A Pragmatic VLA Foundation Model

Embodied Intelligence

Wei Wu, Fan Lu, Yunnan Wang, et al.

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

Mingyang Song, Haoyu Sun, Jiawei Gu, et al.

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Retrieval-Augmented Generation

Visual Question Answering

Wenxuan Huang, Yu Zeng, Qiuchen Wang, et al.

Kimi K2.5: Visual Agentic Intelligence

Kimi K2.5: Visual Agentic Intelligence

Multimodal Representation

Kimi Team, Tongtong Bai, Yifan Bai, et al.

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

I. Apanasevich, M. Artemyev, R. Babakyan, et al.

PaperBanana: Automating Academic Illustration for AI Scientists

Dawei Zhu, Rui Meng, Yale Song, et al.

Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems

Tony Feng, Trieu Trinh, Garrett Bingham, et al.

Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

Jiecong Wang, Hao Peng, Chunyang Liu

Real-Time Aligned Reward Model beyond Semantics

Reinforcement Learning

Zixuan Huang, Xin Xia, Yuxi Ren, et al.

DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

Diffusion Model

Supervised Fine-Tuning

Haoyou Deng, Keyu Yan, Chaojie Mao, et al.

DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

Video Generation

Mingshuang Luo, Shuang Liang, Zhengkun Rong, et al.

TTCS: Test-Time Curriculum Synthesis for Self-Evolving

Chengyi Yang, Zhishang Xiang, Yunbo Tang, et al.

ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

Reinforcement Learning

Xiaoyu Tian, Haotian Wang, Shuaiting Chen, et al.

Self-Distillation Enables Continual Learning

Reinforcement Learning

Supervised Fine-Tuning

Idan Shenfeld, Mehul Damani, Jonas Hübotter, et al.

Towards Execution-Grounded Automated AI Research

Chenglei Si, Zitong Yang, Yejin Choi, et al.

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

Embodied Intelligence

Haozhe Xie, Beichen Wen, Jiarui Zheng, et al.

MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods

Honglin Lin, Zheng Liu, Yun Zhu, et al.

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Document Understanding

Yufeng Zhong, Lei Chen, Xuanle Zhao, et al.

Scaling Embeddings Outperforms Scaling Experts in Language Models

Retrieval-Augmented Generation

Hong Liu, Jiaqi Zhang, Chao Wang, et al.

Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific Narratives

Tengyue Xu, Zhuoyang Qian, Gaoge Liu, et al.

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

Diffusion Model

Zengbin Wang, Xuecai Hu, Yong Wang, et al.

Qwen3-ASR Technical Report

Audio and Speech Processing

Xian Shi, Xiong Wang, Zhifang Guo, et al.

Insight Agents: An LLM-Based Multi-Agent System for Data Insights

Intelligent Question Answering

Jincheng Bai, Zhenyu Zhang, Jennifer Zhang, et al.

Towards Pixel-Level VLM Perception via Simple Points Prediction

Image Segmentation

Multimodal Representation

Tianhui Song, Haoyu Lu, Hao Yang, et al.

Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

Multimodal Representation

Zhixiang Wei, Yi Li, Zhehan Kan, et al.

Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

Multimodal Representation

Intelligent Question Answering

Zichen Wen, Boxue Yang, Shuang Chen, et al.

Advancing Open-source World Models

Video Generation

Robbyant Team, Zelin Gao, Qiuyu Wang, et al.

Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

Reinforcement Learning

Yanqi Dai, Yuxiang Ji, Xiao Zhang, et al.

Short window attention enables long-term memorization

Loïc Cabannes, Maximilian Beck, Gergely Szilvasy, et al.

World Craft: Agentic Framework to Create Visualizable Worlds via Text

Jianwen Sun, Yukang Feng, Kaining Ying, et al.

Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

Jialong Wu, Xiaoying Zhang, Hongyi Yuan, et al.

Masked Depth Modeling for Spatial Perception

Depth Estimation

Bin Tan, Changjiang Sun, Xiage Qin, et al.

A Pragmatic VLA Foundation Model

Embodied Intelligence

Wei Wu, Fan Lu, Yunnan Wang, et al.

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

Mingyang Song, Haoyu Sun, Jiawei Gu, et al.

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

PaperBanana: Automating Academic Illustration for AI Scientists

Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems

Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

Real-Time Aligned Reward Model beyond Semantics

DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

TTCS: Test-Time Curriculum Synthesis for Self-Evolving

ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

Self-Distillation Enables Continual Learning

Towards Execution-Grounded Automated AI Research

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Scaling Embeddings Outperforms Scaling Experts in Language Models

Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific Narratives

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

Qwen3-ASR Technical Report

Insight Agents: An LLM-Based Multi-Agent System for Data Insights

Towards Pixel-Level VLM Perception via Simple Points Prediction

Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

Advancing Open-source World Models

Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

Short window attention enables long-term memorization

World Craft: Agentic Framework to Create Visualizable Worlds via Text

Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

Masked Depth Modeling for Spatial Perception

A Pragmatic VLA Foundation Model

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

PaperBanana: Automating Academic Illustration for AI Scientists

Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems

Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

Real-Time Aligned Reward Model beyond Semantics

DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

TTCS: Test-Time Curriculum Synthesis for Self-Evolving

ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

Self-Distillation Enables Continual Learning

Towards Execution-Grounded Automated AI Research

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Scaling Embeddings Outperforms Scaling Experts in Language Models

Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific Narratives

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

Qwen3-ASR Technical Report

Insight Agents: An LLM-Based Multi-Agent System for Data Insights

Towards Pixel-Level VLM Perception via Simple Points Prediction

Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

Advancing Open-source World Models

Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

Short window attention enables long-term memorization

World Craft: Agentic Framework to Create Visualizable Worlds via Text

Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

Masked Depth Modeling for Spatial Perception

A Pragmatic VLA Foundation Model

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning