HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats

INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats

Mengzhao Chen, Meng Wu, Hui Jin, et al.

ThinkMorph: Emergent Properties in Multimodal Interleaved
Chain-of-Thought Reasoning

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, et al.

OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

Qiushi Sun, Mukai Li, Zhoumianze Liu, et al.

The Era of Agentic Organization: Learning to Organize with Language Models

Zewen Chi, Li Dong, Qingxiu Dong, et al.

SPICE: Self-Play In Corpus Environments Improves Reasoning

Reinforcement Learning

Bo Liu, Chuanyang Jin, Seungone Kim, et al.

Surfer 2: The Next Generation of Cross-Platform Computer Use Agents

Human-Computer Interaction

Mathieu Andreux, Märt Bakler, Yanael Barbier, et al.

Exploring Conditions for Diffusion models in Robotic Control

Diffusion Model

Heeseong Shin, Byeongho Heo, Dongyoon Han, et al.

Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in
Web Games

Jingran Zhang, Ning Li, Justin Cui

Kimi Linear: An Expressive, Efficient Attention Architecture

Kimi Team, Yu Zhang, Zongyu Lin, et al.

Emu3.5: Native Multimodal Models are World Learners

Yufeng Cui, Honghao Chen, Haoge Deng, et al.

The End of Manual Decoding: Towards Truly End-to-End Language Models

Zhichao Wang, Dongyang Ma, Xinting Huang, et al.

Human-AI Complementarity: A Goal for Amplified Oversight

Human-Computer Interaction

Natural Language Processing

Rishub Jain, Sophie Bridgers, Lili Janzer, et al.

GPTOpt: Towards Efficient LLM-Based Black-Box Optimization

Supervised Fine-Tuning

Jamison Meindl, Yunsheng Tian, Tony Cui, et al.

VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context
Learning

Video Generation

Baolu Li, Yiming Zhang, Qinghe Wang, et al.

Reasoning-Aware GRPO using Process Mining

Reinforcement Learning

Taekhyun Park, Yongjae Lee, Hyerim Bae

Scaling Latent Reasoning via Looped Language Models

Rui-Jie Zhu, Zixuan Wang, Kai Hua, et al.

ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization

Guoxin Chen, Jing Wu, Xinjie Chen, et al.

Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning

Video Understanding

Shijian Wang, Jiarui Jin, Xingjian Wang, et al.

JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence

Code Generation

Qiushi Sun, Jingyang Gong, Yang Liu, et al.

MCP-Flow: Facilitating LLM Agents to Master Real-World, Diverse and Scaling MCP Tools

Wenhao Wang, Peizhi Niu, Zhao Xu, et al.

OmniCast: A Masked Latent Diffusion Model for Weather Forecasting Across Time Scales

Diffusion Model

Tung Nguyen, Tuan Pham, Troy Arcomano, et al.

Uniform Discrete Diffusion with Metric Path for Video Generation

Diffusion Model

Haoge Deng, Ting Pan, Fan Zhang, et al.

Game-TARS: Pretrained Foundation Models for Scalable Generalist
Multimodal Game Agents

Zihao Wang, Xujing Li, Yining Ye, et al.

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

Embodied Intelligence

Siyin Wang, Jinlan Fu, Feihong Liu, et al.

AgentFold: Long-Horizon Web Agents with Proactive Context Management

Rui Ye, Zhongwang Zhang, Kuan Li, et al.

Tongyi DeepResearch Technical Report

Tongyi DeepResearch Team, Baixuan Li, Bo Zhang, et al.

InteractComp: Evaluating Search Agents With Ambiguous Queries

Mingyi Deng, Lijun Huang, Yani Fan, et al.

VLM-SlideEval: Evaluating VLMs on Structured Comprehension and Perturbation Sensitivity in PPT

Document Understanding

Hyeonsu Kang, Emily Bao, Anjan Goswami

TeraSim-World: Worldwide Safety-Critical Data Synthesis for End-to-End Autonomous Driving

Autonomous Driving

Geographic Information

Jiawei Wang, Haowei Sun, Xintao Yan, et al.

Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human
Animation

Video Generation

Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, et al.

VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing,
Speaking, and Acting

Embodied Intelligence

Xiaoyu Liu, Chaoyou Fu, Chi Yan, et al.

FARMER: Flow AutoRegressive Transformer over Pixels

Image Generation

Guangting Zheng, Qinyu Zhao, Tao Yang, et al.

INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats

INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats

Mengzhao Chen, Meng Wu, Hui Jin, et al.

ThinkMorph: Emergent Properties in Multimodal Interleaved
Chain-of-Thought Reasoning

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, et al.

OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

Qiushi Sun, Mukai Li, Zhoumianze Liu, et al.

The Era of Agentic Organization: Learning to Organize with Language Models

Zewen Chi, Li Dong, Qingxiu Dong, et al.

SPICE: Self-Play In Corpus Environments Improves Reasoning

Reinforcement Learning

Bo Liu, Chuanyang Jin, Seungone Kim, et al.

Surfer 2: The Next Generation of Cross-Platform Computer Use Agents

Human-Computer Interaction

Mathieu Andreux, Märt Bakler, Yanael Barbier, et al.

Exploring Conditions for Diffusion models in Robotic Control

Diffusion Model

Heeseong Shin, Byeongho Heo, Dongyoon Han, et al.

Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in
Web Games

Jingran Zhang, Ning Li, Justin Cui

Kimi Linear: An Expressive, Efficient Attention Architecture

Kimi Team, Yu Zhang, Zongyu Lin, et al.

Emu3.5: Native Multimodal Models are World Learners

Yufeng Cui, Honghao Chen, Haoge Deng, et al.

The End of Manual Decoding: Towards Truly End-to-End Language Models

Zhichao Wang, Dongyang Ma, Xinting Huang, et al.

Human-AI Complementarity: A Goal for Amplified Oversight

Human-Computer Interaction

Natural Language Processing

Rishub Jain, Sophie Bridgers, Lili Janzer, et al.

GPTOpt: Towards Efficient LLM-Based Black-Box Optimization

Supervised Fine-Tuning

Jamison Meindl, Yunsheng Tian, Tony Cui, et al.

VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context
Learning

Video Generation

Baolu Li, Yiming Zhang, Qinghe Wang, et al.

Reasoning-Aware GRPO using Process Mining

Reinforcement Learning

Taekhyun Park, Yongjae Lee, Hyerim Bae

Scaling Latent Reasoning via Looped Language Models

Rui-Jie Zhu, Zixuan Wang, Kai Hua, et al.

ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization

Guoxin Chen, Jing Wu, Xinjie Chen, et al.

Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning

Video Understanding

Shijian Wang, Jiarui Jin, Xingjian Wang, et al.

JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence

Code Generation

Qiushi Sun, Jingyang Gong, Yang Liu, et al.

MCP-Flow: Facilitating LLM Agents to Master Real-World, Diverse and Scaling MCP Tools

Wenhao Wang, Peizhi Niu, Zhao Xu, et al.

OmniCast: A Masked Latent Diffusion Model for Weather Forecasting Across Time Scales

Diffusion Model

Tung Nguyen, Tuan Pham, Troy Arcomano, et al.

Uniform Discrete Diffusion with Metric Path for Video Generation

Diffusion Model

Haoge Deng, Ting Pan, Fan Zhang, et al.

Game-TARS: Pretrained Foundation Models for Scalable Generalist
Multimodal Game Agents

Zihao Wang, Xujing Li, Yining Ye, et al.

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

Embodied Intelligence

Siyin Wang, Jinlan Fu, Feihong Liu, et al.

AgentFold: Long-Horizon Web Agents with Proactive Context Management

Rui Ye, Zhongwang Zhang, Kuan Li, et al.

Tongyi DeepResearch Technical Report

Tongyi DeepResearch Team, Baixuan Li, Bo Zhang, et al.

InteractComp: Evaluating Search Agents With Ambiguous Queries

Mingyi Deng, Lijun Huang, Yani Fan, et al.

VLM-SlideEval: Evaluating VLMs on Structured Comprehension and Perturbation Sensitivity in PPT

Document Understanding

Hyeonsu Kang, Emily Bao, Anjan Goswami

TeraSim-World: Worldwide Safety-Critical Data Synthesis for End-to-End Autonomous Driving

Autonomous Driving

Geographic Information

Jiawei Wang, Haowei Sun, Xintao Yan, et al.

Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human
Animation

Video Generation

Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, et al.

VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing,
Speaking, and Acting

Embodied Intelligence

Xiaoyu Liu, Chaoyou Fu, Chi Yan, et al.

FARMER: Flow AutoRegressive Transformer over Pixels

Image Generation

Guangting Zheng, Qinyu Zhao, Tao Yang, et al.

OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

The Era of Agentic Organization: Learning to Organize with Language Models

SPICE: Self-Play In Corpus Environments Improves Reasoning

Surfer 2: The Next Generation of Cross-Platform Computer Use Agents

Exploring Conditions for Diffusion models in Robotic Control

Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games

Kimi Linear: An Expressive, Efficient Attention Architecture

Emu3.5: Native Multimodal Models are World Learners

The End of Manual Decoding: Towards Truly End-to-End Language Models

Human-AI Complementarity: A Goal for Amplified Oversight

GPTOpt: Towards Efficient LLM-Based Black-Box Optimization

VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning

Reasoning-Aware GRPO using Process Mining

Scaling Latent Reasoning via Looped Language Models

ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization

Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning

JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence

MCP-Flow: Facilitating LLM Agents to Master Real-World, Diverse and Scaling MCP Tools

OmniCast: A Masked Latent Diffusion Model for Weather Forecasting Across Time Scales

Uniform Discrete Diffusion with Metric Path for Video Generation

Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

AgentFold: Long-Horizon Web Agents with Proactive Context Management

Tongyi DeepResearch Technical Report

InteractComp: Evaluating Search Agents With Ambiguous Queries

VLM-SlideEval: Evaluating VLMs on Structured Comprehension and Perturbation Sensitivity in PPT

TeraSim-World: Worldwide Safety-Critical Data Synthesis for End-to-End Autonomous Driving

Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation

VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

FARMER: Flow AutoRegressive Transformer over Pixels

OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

The Era of Agentic Organization: Learning to Organize with Language Models

SPICE: Self-Play In Corpus Environments Improves Reasoning

Surfer 2: The Next Generation of Cross-Platform Computer Use Agents

Exploring Conditions for Diffusion models in Robotic Control

Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games

Kimi Linear: An Expressive, Efficient Attention Architecture

Emu3.5: Native Multimodal Models are World Learners

The End of Manual Decoding: Towards Truly End-to-End Language Models

Human-AI Complementarity: A Goal for Amplified Oversight

GPTOpt: Towards Efficient LLM-Based Black-Box Optimization

VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning

Reasoning-Aware GRPO using Process Mining

Scaling Latent Reasoning via Looped Language Models

ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization

Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning

JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence

MCP-Flow: Facilitating LLM Agents to Master Real-World, Diverse and Scaling MCP Tools

OmniCast: A Masked Latent Diffusion Model for Weather Forecasting Across Time Scales

Uniform Discrete Diffusion with Metric Path for Video Generation

Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

AgentFold: Long-Horizon Web Agents with Proactive Context Management

Tongyi DeepResearch Technical Report

InteractComp: Evaluating Search Agents With Ambiguous Queries

VLM-SlideEval: Evaluating VLMs on Structured Comprehension and Perturbation Sensitivity in PPT

TeraSim-World: Worldwide Safety-Critical Data Synthesis for End-to-End Autonomous Driving

Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation

VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

FARMER: Flow AutoRegressive Transformer over Pixels