HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization

CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization

Code Generation

Zijian Zhang, Rong Wang, Shiyang Li, et al.

ScaleNet: Scaling up Pretrained Neural Networks with Incremental Parameters

ScaleNet: Scaling up Pretrained Neural Networks with Incremental Parameters

Neural Networks

Zhiwei Hao, Jianyuan Guo, Li Shen, et al.

Optimizing Mixture of Block Attention

Guangxuan Xiao, Junxian Guo, Kasra Mazaheri, et al.

FractalForensics: Proactive Deepfake Detection and Localization via Fractal Watermarks

Computer Vision

Tianyi Wang, Harry Cheng, Ming-Hui Liu, et al.

Chain-of-Thought Hijacking

Jianli Zhao, Tingchen Fu, Rylan Schaeffer, et al.

InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention

Diffusion Model

Qiang Xiang, Shuang Sun, Binglei Li, et al.

3EED: Ground Everything Everywhere in 3D

3D Machine Vision

Rong Li, Yuhao Dong, Tianshuai Hu, et al.

DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding

Video Understanding

Zixuan Liu, Siavash H. Khajavi, Guangkai Jiang

CHIP: A multi-sensor dataset for 6D pose estimation of chairs in industrial settings

3D Machine Vision

Mattia Nardon, Mikel Mujika Agirre, Ander González Tomé, et al.

Geometrically-Constrained Agent for Spatial Reasoning

Zeren Chen, Xiaoya Lu, Zhijie Zheng, et al.

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

DeepSeek-AI, Aixin Liu, Aoxue Mei, et al.

DiP: Taming Diffusion Models in Pixel Space

Diffusion Model

Image Generation

Zhennan Chen, Junwei Zhu, Xu Chen, et al.

Architecture Decoupling Is Not All You Need For Unified Multimodal Model

Multi-Task Learning

Dian Zheng, Manyuan Zhang, Hongyu Li, et al.

Vision Bridge Transformer at Scale

Zhenxiong Tan, Zeqing Wang, Xingyi Yang, et al.

AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement

Video Generation

Zhizhou Zhong, Yicheng Ji, Zhe Kong, et al.

REASONEDIT: Towards Reasoning-Enhanced Image Editing Models

Diffusion Model

Fukun Yin, Shiyu Liu, Yucheng Han, et al.

OpenApps: Simulating Environment Variations to Measure UI-Agent Reliability

Karen Ullrich, Jingtong Su, Claudia Shi, et al.

Qwen3-VL Technical Report

Multimodal Representation

Shuai Bai, Yuxuan Cai, Ruizhe Chen, et al.

G$^2$VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

Multimodal Representation

Wenbo Hu, Jingli Lin, Yilin Long, et al.

Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

Tianyi Xiong, Yi Ge, Ming Li, et al.

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

Diffusion Model

Ziyun Zeng, Hang Hua, Jiebo Luo

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

Visual Question Answering

Embodied Intelligence

Qineng Wang, Wenlong Huang, Yu Zhou, et al.

Canvas-to-Image: Compositional Image Generation with Multimodal Controls

Diffusion Model

Image Generation

Yusuf Dalva, Guocheng Gordon Qian, Maya Goldenberg, et al.

Video Generation Models Are Good Latent Reward Models

Diffusion Model

Xiaoyue Mi, Wenqing Yu, Jiesong Lian, et al.

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

Zhihong Shao, Yuxiang Luo, Chengda Lu, et al.

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

Hongjin Su, Shizhe Diao, Ximing Lu, et al.

Think Visually, Reason Textually: Vision-Language Synergy in ARC

Beichen Zhang, Yuhang Zang, Xiaoyi Dong, et al.

Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

Diffusion Model

Teng Hu, Zhentao Yu, Guozhen Zhang, et al.

Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

Video Understanding

Inferix Team, Tianyu Feng, Yizeng Han, et al.

Latent Collaboration in Multi-Agent Systems

Jiaru Zou, Xiyuan Yang, Ruizhong Qiu, et al.

Multimodal Evaluation of Russian-language Architectures

Artem Chervyakov, Ulyana Isaeva, Anton Emelyanov, et al.

ROOT: Robust Orthogonalized Optimizer for Neural Network Training

Wei He, Kai Han, Hang Zhou, et al.

CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization

CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization

Code Generation

Zijian Zhang, Rong Wang, Shiyang Li, et al.

ScaleNet: Scaling up Pretrained Neural Networks with Incremental Parameters

ScaleNet: Scaling up Pretrained Neural Networks with Incremental Parameters

Neural Networks

Zhiwei Hao, Jianyuan Guo, Li Shen, et al.

Optimizing Mixture of Block Attention

Guangxuan Xiao, Junxian Guo, Kasra Mazaheri, et al.

FractalForensics: Proactive Deepfake Detection and Localization via Fractal Watermarks

Computer Vision

Tianyi Wang, Harry Cheng, Ming-Hui Liu, et al.

Chain-of-Thought Hijacking

Jianli Zhao, Tingchen Fu, Rylan Schaeffer, et al.

InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention

Diffusion Model

Qiang Xiang, Shuang Sun, Binglei Li, et al.

3EED: Ground Everything Everywhere in 3D

3D Machine Vision

Rong Li, Yuhao Dong, Tianshuai Hu, et al.

DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding

Video Understanding

Zixuan Liu, Siavash H. Khajavi, Guangkai Jiang

CHIP: A multi-sensor dataset for 6D pose estimation of chairs in industrial settings

3D Machine Vision

Mattia Nardon, Mikel Mujika Agirre, Ander González Tomé, et al.

Geometrically-Constrained Agent for Spatial Reasoning

Zeren Chen, Xiaoya Lu, Zhijie Zheng, et al.

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

DeepSeek-AI, Aixin Liu, Aoxue Mei, et al.

DiP: Taming Diffusion Models in Pixel Space

Diffusion Model

Image Generation

Zhennan Chen, Junwei Zhu, Xu Chen, et al.

Architecture Decoupling Is Not All You Need For Unified Multimodal Model

Multi-Task Learning

Dian Zheng, Manyuan Zhang, Hongyu Li, et al.

Vision Bridge Transformer at Scale

Zhenxiong Tan, Zeqing Wang, Xingyi Yang, et al.

AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement

Video Generation

Zhizhou Zhong, Yicheng Ji, Zhe Kong, et al.

REASONEDIT: Towards Reasoning-Enhanced Image Editing Models

Diffusion Model

Fukun Yin, Shiyu Liu, Yucheng Han, et al.

OpenApps: Simulating Environment Variations to Measure UI-Agent Reliability

Karen Ullrich, Jingtong Su, Claudia Shi, et al.

Qwen3-VL Technical Report

Multimodal Representation

Shuai Bai, Yuxuan Cai, Ruizhe Chen, et al.

G$^2$VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

Multimodal Representation

Wenbo Hu, Jingli Lin, Yilin Long, et al.

Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

Tianyi Xiong, Yi Ge, Ming Li, et al.

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

Diffusion Model

Ziyun Zeng, Hang Hua, Jiebo Luo

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

Visual Question Answering

Embodied Intelligence

Qineng Wang, Wenlong Huang, Yu Zhou, et al.

Canvas-to-Image: Compositional Image Generation with Multimodal Controls

Diffusion Model

Image Generation

Yusuf Dalva, Guocheng Gordon Qian, Maya Goldenberg, et al.

Video Generation Models Are Good Latent Reward Models

Diffusion Model

Xiaoyue Mi, Wenqing Yu, Jiesong Lian, et al.

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

Zhihong Shao, Yuxiang Luo, Chengda Lu, et al.

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

Hongjin Su, Shizhe Diao, Ximing Lu, et al.

Think Visually, Reason Textually: Vision-Language Synergy in ARC

Beichen Zhang, Yuhang Zang, Xiaoyi Dong, et al.

Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

Diffusion Model

Teng Hu, Zhentao Yu, Guozhen Zhang, et al.

Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

Video Understanding

Inferix Team, Tianyu Feng, Yizeng Han, et al.

Latent Collaboration in Multi-Agent Systems

Jiaru Zou, Xiyuan Yang, Ruizhong Qiu, et al.

Multimodal Evaluation of Russian-language Architectures

Artem Chervyakov, Ulyana Isaeva, Anton Emelyanov, et al.

ROOT: Robust Orthogonalized Optimizer for Neural Network Training

Wei He, Kai Han, Hang Zhou, et al.

Optimizing Mixture of Block Attention

FractalForensics: Proactive Deepfake Detection and Localization via Fractal Watermarks

Chain-of-Thought Hijacking

InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention

3EED: Ground Everything Everywhere in 3D

DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding

CHIP: A multi-sensor dataset for 6D pose estimation of chairs in industrial settings

Geometrically-Constrained Agent for Spatial Reasoning

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

DiP: Taming Diffusion Models in Pixel Space

Architecture Decoupling Is Not All You Need For Unified Multimodal Model

Vision Bridge Transformer at Scale

AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement

REASONEDIT: Towards Reasoning-Enhanced Image Editing Models

OpenApps: Simulating Environment Variations to Measure UI-Agent Reliability

Qwen3-VL Technical Report

G $^2$ VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

Canvas-to-Image: Compositional Image Generation with Multimodal Controls

Video Generation Models Are Good Latent Reward Models

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

Think Visually, Reason Textually: Vision-Language Synergy in ARC

Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

Latent Collaboration in Multi-Agent Systems

Multimodal Evaluation of Russian-language Architectures

ROOT: Robust Orthogonalized Optimizer for Neural Network Training

Optimizing Mixture of Block Attention

FractalForensics: Proactive Deepfake Detection and Localization via Fractal Watermarks

Chain-of-Thought Hijacking

InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention

3EED: Ground Everything Everywhere in 3D

DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding

CHIP: A multi-sensor dataset for 6D pose estimation of chairs in industrial settings

Geometrically-Constrained Agent for Spatial Reasoning

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

DiP: Taming Diffusion Models in Pixel Space

Architecture Decoupling Is Not All You Need For Unified Multimodal Model

Vision Bridge Transformer at Scale

AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement

REASONEDIT: Towards Reasoning-Enhanced Image Editing Models

OpenApps: Simulating Environment Variations to Measure UI-Agent Reliability

Qwen3-VL Technical Report

G $^2$ VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

Canvas-to-Image: Compositional Image Generation with Multimodal Controls

Video Generation Models Are Good Latent Reward Models

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

Think Visually, Reason Textually: Vision-Language Synergy in ARC

Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

Latent Collaboration in Multi-Agent Systems

Multimodal Evaluation of Russian-language Architectures

ROOT: Robust Orthogonalized Optimizer for Neural Network Training