HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Docling: An Efficient Open-Source Toolkit for AI-driven Document Conversion

Docling: An Efficient Open-Source Toolkit for AI-driven Document Conversion

Nikolaos Livathinos, Christoph Auer, Maksym Lysak, et al.

HunyuanOCR Technical Report

HunyuanOCR Technical Report

Visual Question Answering

Tencent Hunyuan Vision Team, Jie Jiang, Linus, et al.

PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

Visual Question Answering

Zixin Zhang, Kanghao Chen, Xingwang Lin, et al.

Huxley-Gödel Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine

Artificial Intelligence

Wenyi Wang, Piotr Piękos, Li Nanbo, et al.

Solving Spatial Supersensing Without Spatial Supersensing

Video Understanding

Computer Vision

Vishaal Udandarao, Shyamgopal Karthik, Surabhi S. Nath, et al.

Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs

Yusuf Çelebi, Mahmoud El Hussieni, Özay Ezerceli

O-Mem: Omni Memory System for Personalized, Long Horizon Self-Evolving Agents

Wangchunshu Zhou

Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story

Natural Language Processing

Vladislav Pedashenko, Laida Kushnareva, Yana Khassan Nibal, et al.

SAM 3: Segment Anything with Concepts

Computer Vision

Semantic Segmentation

Nicolas Carion, Laura Gustafson, Yuan-Ting Hu, et al.

GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

Retrieval-Augmented Generation

Yikun Wang, Zuyan Liu, Ziyi Wang, et al.

OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

Supervised Fine-Tuning

Kaichen Zhang, Keming Wu, Zuhao Yang, et al.

HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs

Reinforcement Learning

Ken Deng, Zizheng Zhan, Wen Xiang, et al.

SERES: Semantic-Aware Neural Reconstruction from Sparse Views

Computer Vision

Bo Xu, Yuhu Guo, Yuchao Wang, et al.

SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation

Diffusion Model

Shuang Cheng, Yihan Bian, Dawei Liu, et al.

MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts

Code Generation

Qing Wang, Xue Han, Jiahui Wang, et al.

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

Image Captioning

Visual Question Answering

Long Xing, Xiaoyi Dong, Yuhang Zang, et al.

Ultra-Fast Language Generation via Discrete Diffusion Divergence Instruct

Diffusion Model

Text Generation

Haoyang Zheng, Xinyang Liu, Cindy Xiangrui Kong, et al.

DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization

Reinforcement Learning

Gang Li, Ming Lin, Tomer Galanti, et al.

QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models

Visual Question Answering

Yutong Wang, Haiyu Wang, Sai Qian Zhang

Nested Learning: The Illusion of Deep Learning Architectures

Natural Language Processing

Ali Behrouz, Meisam Razaviyayn, Peiling Zhong, et al.

SAM 3D: 3Dfy Anything in Images

SAM 3D Team, Xingyu Chen, Fu-Jen Chu, et al.

Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

Video Generation

Junhao Cheng, Liang Hou, Xin Tao, et al.

First Frame Is the Place to Go for Video Content Customization

Video Generation

Jingxi Chen, Zongxia Li, Zhichao Liu, et al.

Scaling Spatial Intelligence with Multimodal Foundation Models

Multimodal Representation

Zhongang Cai, Ruisi Wang, Chenyang Gu, et al.

Step-Audio-R1 Technical Report

Fei Tian, Xiangyu Tony Zhang, Yuxin Zhang, et al.

V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

Visual Question Answering

Yang Luo, Xuanlei Zhao, Baijiong Lin, et al.

Olmo 3

Code Generation

Allyson Ettinger, Amanda Bertsch, Bailey Kuehl, et al.

Early science acceleration experiments with GPT-5

Sébastien Bubeck, Christian Coester, Ronen Eldan, et al.

Towards objective and systematic evaluation of bias in artificial intelligence for medical imaging

Medical Imaging

Image Classification

Emma A.M. Stanley, Raissa Souza, Anthony J. Winder, et al.

What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity

Alexis Audran-Reiss, Jordi Armengol Estapé, Karen Hambardzumyan, et al.

Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset

Semantic Segmentation

Geon Choi, Hangyul Yoon, Hyunju Shin, et al.

VisPlay: Self-Evolving Vision-Language Models from Images

Reinforcement Learning

Yicheng He, Chengsong Huang, Zongxia Li, et al.

Docling: An Efficient Open-Source Toolkit for AI-driven Document Conversion

Docling: An Efficient Open-Source Toolkit for AI-driven Document Conversion

Nikolaos Livathinos, Christoph Auer, Maksym Lysak, et al.

HunyuanOCR Technical Report

HunyuanOCR Technical Report

Visual Question Answering

Tencent Hunyuan Vision Team, Jie Jiang, Linus, et al.

PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

Visual Question Answering

Zixin Zhang, Kanghao Chen, Xingwang Lin, et al.

Huxley-Gödel Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine

Artificial Intelligence

Wenyi Wang, Piotr Piękos, Li Nanbo, et al.

Solving Spatial Supersensing Without Spatial Supersensing

Video Understanding

Computer Vision

Vishaal Udandarao, Shyamgopal Karthik, Surabhi S. Nath, et al.

Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs

Yusuf Çelebi, Mahmoud El Hussieni, Özay Ezerceli

O-Mem: Omni Memory System for Personalized, Long Horizon Self-Evolving Agents

Wangchunshu Zhou

Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story

Natural Language Processing

Vladislav Pedashenko, Laida Kushnareva, Yana Khassan Nibal, et al.

SAM 3: Segment Anything with Concepts

Computer Vision

Semantic Segmentation

Nicolas Carion, Laura Gustafson, Yuan-Ting Hu, et al.

GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

Retrieval-Augmented Generation

Yikun Wang, Zuyan Liu, Ziyi Wang, et al.

OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

Supervised Fine-Tuning

Kaichen Zhang, Keming Wu, Zuhao Yang, et al.

HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs

Reinforcement Learning

Ken Deng, Zizheng Zhan, Wen Xiang, et al.

SERES: Semantic-Aware Neural Reconstruction from Sparse Views

Computer Vision

Bo Xu, Yuhu Guo, Yuchao Wang, et al.

SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation

Diffusion Model

Shuang Cheng, Yihan Bian, Dawei Liu, et al.

MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts

Code Generation

Qing Wang, Xue Han, Jiahui Wang, et al.

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

Image Captioning

Visual Question Answering

Long Xing, Xiaoyi Dong, Yuhang Zang, et al.

Ultra-Fast Language Generation via Discrete Diffusion Divergence Instruct

Diffusion Model

Text Generation

Haoyang Zheng, Xinyang Liu, Cindy Xiangrui Kong, et al.

DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization

Reinforcement Learning

Gang Li, Ming Lin, Tomer Galanti, et al.

QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models

Visual Question Answering

Yutong Wang, Haiyu Wang, Sai Qian Zhang

Nested Learning: The Illusion of Deep Learning Architectures

Natural Language Processing

Ali Behrouz, Meisam Razaviyayn, Peiling Zhong, et al.

SAM 3D: 3Dfy Anything in Images

SAM 3D Team, Xingyu Chen, Fu-Jen Chu, et al.

Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

Video Generation

Junhao Cheng, Liang Hou, Xin Tao, et al.

First Frame Is the Place to Go for Video Content Customization

Video Generation

Jingxi Chen, Zongxia Li, Zhichao Liu, et al.

Scaling Spatial Intelligence with Multimodal Foundation Models

Multimodal Representation

Zhongang Cai, Ruisi Wang, Chenyang Gu, et al.

Step-Audio-R1 Technical Report

Fei Tian, Xiangyu Tony Zhang, Yuxin Zhang, et al.

V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

Visual Question Answering

Yang Luo, Xuanlei Zhao, Baijiong Lin, et al.

Olmo 3

Code Generation

Allyson Ettinger, Amanda Bertsch, Bailey Kuehl, et al.

Early science acceleration experiments with GPT-5

Sébastien Bubeck, Christian Coester, Ronen Eldan, et al.

Towards objective and systematic evaluation of bias in artificial intelligence for medical imaging

Medical Imaging

Image Classification

Emma A.M. Stanley, Raissa Souza, Anthony J. Winder, et al.

What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity

Alexis Audran-Reiss, Jordi Armengol Estapé, Karen Hambardzumyan, et al.

Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset

Semantic Segmentation

Geon Choi, Hangyul Yoon, Hyunju Shin, et al.

VisPlay: Self-Evolving Vision-Language Models from Images

Reinforcement Learning

Yicheng He, Chengsong Huang, Zongxia Li, et al.

PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

Huxley-Gödel Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine

Solving Spatial Supersensing Without Spatial Supersensing

Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs

O-Mem: Omni Memory System for Personalized, Long Horizon Self-Evolving Agents

Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story

SAM 3: Segment Anything with Concepts

GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs

SERES: Semantic-Aware Neural Reconstruction from Sparse Views

SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation

MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

Ultra-Fast Language Generation via Discrete Diffusion Divergence Instruct

DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization

QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models

Nested Learning: The Illusion of Deep Learning Architectures

SAM 3D: 3Dfy Anything in Images

Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

First Frame Is the Place to Go for Video Content Customization

Scaling Spatial Intelligence with Multimodal Foundation Models

Step-Audio-R1 Technical Report

V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

Olmo 3

Early science acceleration experiments with GPT-5

Towards objective and systematic evaluation of bias in artificial intelligence for medical imaging

What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity

Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset

VisPlay: Self-Evolving Vision-Language Models from Images

PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

Huxley-Gödel Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine

Solving Spatial Supersensing Without Spatial Supersensing

Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs

O-Mem: Omni Memory System for Personalized, Long Horizon Self-Evolving Agents

Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story

SAM 3: Segment Anything with Concepts

GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs

SERES: Semantic-Aware Neural Reconstruction from Sparse Views

SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation

MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

Ultra-Fast Language Generation via Discrete Diffusion Divergence Instruct

DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization

QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models

Nested Learning: The Illusion of Deep Learning Architectures

SAM 3D: 3Dfy Anything in Images

Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

First Frame Is the Place to Go for Video Content Customization

Scaling Spatial Intelligence with Multimodal Foundation Models

Step-Audio-R1 Technical Report

V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

Olmo 3

Early science acceleration experiments with GPT-5

Towards objective and systematic evaluation of bias in artificial intelligence for medical imaging

What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity

Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset

VisPlay: Self-Evolving Vision-Language Models from Images