HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

STEP3-VL-10B Technical Report

STEP3-VL-10B Technical Report

Multimodal Representation

Visual Question Answering

Ailin Huang, Chengyuan Yao, Chunrui Han, et al.

SeedFold: Scaling Biomolecular Structure Prediction

SeedFold: Scaling Biomolecular Structure Prediction

Yi Zhou, Chan Lu, Yiming Ma, et al.

TranslateGemma Technical Report

Mara Finkelstein, Isaac Caswell, Tobias Domhan, et al.

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Embodied Intelligence

Chi-Pin Huang, Yunze Man, Zhiding Yu, et al.

SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL

Image Generation

Lijun Liu, Linwei Chen, Zhishou Zhang, et al.

A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation

Jian Zhang, Yu He, Zhiyuan Wang, et al.

Controlled Self-Evolution for Algorithmic Code Optimization

Code Generation

Tu Hu, Ronghao Chen, Shuo Zhang, et al.

MAXS: Meta-Adaptive Exploration with LLM Agents

Jian Zhang, Zhiyuan Wang, Zhangqi Wang, et al.

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

Yibo Wang, Lei Wang, Yue Deng, et al.

The motivic class of the space of genus 0 maps to the flag variety

Jim Bryan, Balázs Elek, Freddie Manners, et al.

UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities

Retrieval-Augmented Generation

Multimodal Representation

Woongyeong Yeo, Kangsan Kim, Soyeong Jeong, et al.

On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training

Supervised Fine-Tuning

Reinforcement Learning

Xueyan Niu, Bo Bai, Wei Han, et al.

EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs

Jewon Yeom, Jaewon Sok, Seonghyeon Park, et al.

Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

Code Generation

Mizanur Rahman, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, et al.

How Do Large Language Models Learn Concepts During Continual Pre-Training?

Barry Menglong Yao, Sha Li, Yunzhi Yao, et al.

JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

Reinforcement Learning

Jiangshan Duo, Hanyu Li, Hailin Zhang, et al.

SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices

Diffusion Model

Image Generation

Dongting Hu, Aarush Gupta, Magzhan Gabidolla, et al.

Motion Attribution for Video Generation

Video Generation

Xindi Wu, Despoina Paschalidou, Jun Gao, et al.

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

Multimodal Representation

Shaoan Wang, Yuanfei Luo, Xingyu Chen, et al.

Ministral 3

Text Generation

Alexander H. Liu, Kartik Khandelwal, Sandeep Subramanian, et al.

The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents

Reinforcement Learning

Weihao Xuan, Qingcheng Zeng, Heli Qi, et al.

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

Reinforcement Learning

Preference Modeling

Qiang Zhang, Boli Chen, Fanrui Zhang, et al.

ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands

Human-Computer Interaction

Siyuan Hu, Kevin Qinghong Lin, Mike Zheng Shou

Learning Latent Action World Models In The Wild

Embodied Intelligence

Quentin Garrido, Tushar Nagarajan, Basile Terver, et al.

Dr. Zero: Self-Evolving Search Agents without Training Data

Zhenrui Yue, Kartikeya Upasani, Xianjun Yang, et al.

MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head

Image Generation

Kewei Zhang, Ye Huang, Yufan Deng, et al.

GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

Intelligent Question Answering

Wenhao Zeng, Xuteng Zhang, Yuling Shi, et al.

X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

Code Generation

Jie Wu, Haoling Li, Xin Zhang, et al.

PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

Intelligent Question Answering

Jingcheng Hu, Yinmin Zhang, Shijie Shang, et al.

BabyVision: Visual Reasoning Beyond Language

Visual Question Answering

Image Understanding

Liang Chen, Weichu Xie, Yiyan Liang, et al.

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

Video Understanding

Chengwen Liu, Xiaomin Yu, Zhuoyue Chang, et al.

Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models

Retrieval-Augmented Generation

Xin Cheng, Wangding Zeng, Damai Dai, et al.

STEP3-VL-10B Technical Report

STEP3-VL-10B Technical Report

Multimodal Representation

Visual Question Answering

Ailin Huang, Chengyuan Yao, Chunrui Han, et al.

SeedFold: Scaling Biomolecular Structure Prediction

SeedFold: Scaling Biomolecular Structure Prediction

Yi Zhou, Chan Lu, Yiming Ma, et al.

TranslateGemma Technical Report

Mara Finkelstein, Isaac Caswell, Tobias Domhan, et al.

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Embodied Intelligence

Chi-Pin Huang, Yunze Man, Zhiding Yu, et al.

SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL

Image Generation

Lijun Liu, Linwei Chen, Zhishou Zhang, et al.

A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation

Jian Zhang, Yu He, Zhiyuan Wang, et al.

Controlled Self-Evolution for Algorithmic Code Optimization

Code Generation

Tu Hu, Ronghao Chen, Shuo Zhang, et al.

MAXS: Meta-Adaptive Exploration with LLM Agents

Jian Zhang, Zhiyuan Wang, Zhangqi Wang, et al.

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

Yibo Wang, Lei Wang, Yue Deng, et al.

The motivic class of the space of genus 0 maps to the flag variety

Jim Bryan, Balázs Elek, Freddie Manners, et al.

UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities

Retrieval-Augmented Generation

Multimodal Representation

Woongyeong Yeo, Kangsan Kim, Soyeong Jeong, et al.

On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training

Supervised Fine-Tuning

Reinforcement Learning

Xueyan Niu, Bo Bai, Wei Han, et al.

EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs

Jewon Yeom, Jaewon Sok, Seonghyeon Park, et al.

Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

Code Generation

Mizanur Rahman, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, et al.

How Do Large Language Models Learn Concepts During Continual Pre-Training?

Barry Menglong Yao, Sha Li, Yunzhi Yao, et al.

JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

Reinforcement Learning

Jiangshan Duo, Hanyu Li, Hailin Zhang, et al.

SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices

Diffusion Model

Image Generation

Dongting Hu, Aarush Gupta, Magzhan Gabidolla, et al.

Motion Attribution for Video Generation

Video Generation

Xindi Wu, Despoina Paschalidou, Jun Gao, et al.

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

Multimodal Representation

Shaoan Wang, Yuanfei Luo, Xingyu Chen, et al.

Ministral 3

Text Generation

Alexander H. Liu, Kartik Khandelwal, Sandeep Subramanian, et al.

The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents

Reinforcement Learning

Weihao Xuan, Qingcheng Zeng, Heli Qi, et al.

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

Reinforcement Learning

Preference Modeling

Qiang Zhang, Boli Chen, Fanrui Zhang, et al.

ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands

Human-Computer Interaction

Siyuan Hu, Kevin Qinghong Lin, Mike Zheng Shou

Learning Latent Action World Models In The Wild

Embodied Intelligence

Quentin Garrido, Tushar Nagarajan, Basile Terver, et al.

Dr. Zero: Self-Evolving Search Agents without Training Data

Zhenrui Yue, Kartikeya Upasani, Xianjun Yang, et al.

MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head

Image Generation

Kewei Zhang, Ye Huang, Yufan Deng, et al.

GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

Intelligent Question Answering

Wenhao Zeng, Xuteng Zhang, Yuling Shi, et al.

X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

Code Generation

Jie Wu, Haoling Li, Xin Zhang, et al.

PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

Intelligent Question Answering

Jingcheng Hu, Yinmin Zhang, Shijie Shang, et al.

BabyVision: Visual Reasoning Beyond Language

Visual Question Answering

Image Understanding

Liang Chen, Weichu Xie, Yiyan Liang, et al.

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

Video Understanding

Chengwen Liu, Xiaomin Yu, Zhuoyue Chang, et al.

Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models

Retrieval-Augmented Generation

Xin Cheng, Wangding Zeng, Damai Dai, et al.

TranslateGemma Technical Report

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL

A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation

Controlled Self-Evolution for Algorithmic Code Optimization

MAXS: Meta-Adaptive Exploration with LLM Agents

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

The motivic class of the space of genus 0 maps to the flag variety

UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities

On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training

EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs

Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

How Do Large Language Models Learn Concepts During Continual Pre-Training?

JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices

Motion Attribution for Video Generation

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

Ministral 3

The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

ShowUI- $π$ : Flow-based Generative Models as GUI Dexterous Hands

Learning Latent Action World Models In The Wild

Dr. Zero: Self-Evolving Search Agents without Training Data

MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head

GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

BabyVision: Visual Reasoning Beyond Language

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models

TranslateGemma Technical Report

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL

A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation

Controlled Self-Evolution for Algorithmic Code Optimization

MAXS: Meta-Adaptive Exploration with LLM Agents

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

The motivic class of the space of genus 0 maps to the flag variety

UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities

On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training

EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs

Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

How Do Large Language Models Learn Concepts During Continual Pre-Training?

JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices

Motion Attribution for Video Generation

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

Ministral 3

The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

ShowUI- $π$ : Flow-based Generative Models as GUI Dexterous Hands

Learning Latent Action World Models In The Wild

Dr. Zero: Self-Evolving Search Agents without Training Data

MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head

GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

BabyVision: Visual Reasoning Beyond Language

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models