HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Kwai Keye-VL Technical Report

Kwai Keye-VL Technical Report

Video Understanding

Kwai Keye Team, Biao Yang, Bin Wen, et al.

A Survey on Vision-Language-Action Models for Autonomous Driving

A Survey on Vision-Language-Action Models for Autonomous Driving

Autonomous Driving

Sicong Jiang, Zilin Huang, Kangan Qian, et al.

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings

Multimodal Representation

Haonan Chen, Hong Liu, Yuping Luo, et al.

FreeLong++: Training-Free Long Video Generation via Multi-band
SpectralFusion

Video Generation

Thinking Beyond Tokens: From Brain-Inspired Intelligence to Cognitive
Foundations for Artificial General Intelligence and its Societal Impact

Rizwan Qureshi, Ranjan Sapkota, Abbas Shah, et al.

Does Math Reasoning Improve General LLM Capabilities? Understanding
Transferability of LLM Reasoning

Supervised Fine-Tuning

Maggie Huan, Yuetai Li, Tuney Zheng, et al.

SciArena: An Open Evaluation Platform for Foundation Models in
Scientific Literature Tasks

Preference Modeling

Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, et al.

Holistic Artificial Intelligence in Medicine; improved performance and explainability

Multimodal Representation

Periklis Petridis, Georgios Margaritis, Vasiliki Stoumpou, et al.

Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective

Wang, Jianyu, Hu, et al.

SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via
Multi-Agent Multi-Turn Reinforcement Learning

Reinforcement Learning

Bo Liu, Leon Guertler, Simon Yu, et al.

Listener-Rewarded Thinking in VLMs for Image Preferences

Preference Modeling

Alexander Gambashidze, Li Pengyi, Matvey Skripkin, et al.

Calligrapher: Freestyle Text Image Customization

Diffusion Model

Yue Ma, Qingyan Bai, Hao Ouyang, et al.

VMoBA: Mixture-of-Block Attention for Video Diffusion Models

Video Generation

Jianzong Wu, Liang Hou, Haotian Yang, et al.

SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning

Melanie Rieff, Maya Varma, Ossian Rabow, et al.

The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT
Improvements

Bingchen Zhao, Despoina Magka, Minqi Jiang, et al.

Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy

Video Processing

Yuhao Liu, Tengfei Wang, Fang Liu, et al.

From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios

Semantic Segmentation

Multi-Task Learning

Changliang Xia, Chengyou Jia, Zhuohang Dang, et al.

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

Visual Question Answering

Hongbo Liu, Jingwen He, Yi Jin, et al.

XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation

Diffusion Model

Bowen Chen, Mengyi Zhao, Haomiao Sun, et al.

Zero-shot antibody design in a 24-well plate

Chai Discovery Team

KinFormer: Generalizable Dynamical Symbolic Regression for Catalytic Organic Reaction Kinetics

Jindou Chen, Jidong Tian, Liang Wu, et al.

MiCo: Multi-image Contrast for Reinforcement Visual Reasoning

Xi Chen, Mingkang Zhu, Shaoteng Liu, et al.

Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs

Visual Question Answering

Yifan Shen, Yuanzhe Liu, Jingyuan Zhu, et al.

Ark: An Open-source Python-based Framework for Robot Learning

Embodied Intelligence

Magnus Dierking, Christopher E. Mower, Sarthak Das, et al.

Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

Tang, Yehui, Li, et al.

LLaVA-Scissor: Token Compression with Semantic Connected Components for
Video LLMs

Visual Question Answering

Boyuan Sun, Jiaxing Zhao, Xihan Wei, et al.

BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing

Diffusion Model

Image Segmentation

Chen, Jiacheng, Mehran, et al.

UniMate: A Unified Model for Mechanical Metamaterial Generation, Property Prediction, and Condition Confirmation

Multi-Task Learning

Wangzhi Zhan, Jianpeng Chen, Dongqi Fu, et al.

Learning to Skip the Middle Layers of Transformers

Tim Lawson, Laurence Aitchison

SAM4D: Segment Anything in Camera and LiDAR Streams

Semantic Segmentation

Jianyun Xu, Song Wang, Ziqian Ni, et al.

Where to find Grokking in LLM Pretraining? Monitor
Memorization-to-Generalization without Test

Natural Language Processing

Ziyue Li, Chenrui Fan, Tianyi Zhou

FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data
Processing to Every Language

Guilherme Penedo, Hynek Kydl\u00ed\u010dek, Vinko Sabol\u010dec, et al.

Kwai Keye-VL Technical Report

Kwai Keye-VL Technical Report

Video Understanding

Kwai Keye Team, Biao Yang, Bin Wen, et al.

A Survey on Vision-Language-Action Models for Autonomous Driving

A Survey on Vision-Language-Action Models for Autonomous Driving

Autonomous Driving

Sicong Jiang, Zilin Huang, Kangan Qian, et al.

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings

Multimodal Representation

Haonan Chen, Hong Liu, Yuping Luo, et al.

FreeLong++: Training-Free Long Video Generation via Multi-band
SpectralFusion

Video Generation

Thinking Beyond Tokens: From Brain-Inspired Intelligence to Cognitive
Foundations for Artificial General Intelligence and its Societal Impact

Rizwan Qureshi, Ranjan Sapkota, Abbas Shah, et al.

Does Math Reasoning Improve General LLM Capabilities? Understanding
Transferability of LLM Reasoning

Supervised Fine-Tuning

Maggie Huan, Yuetai Li, Tuney Zheng, et al.

SciArena: An Open Evaluation Platform for Foundation Models in
Scientific Literature Tasks

Preference Modeling

Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, et al.

Holistic Artificial Intelligence in Medicine; improved performance and explainability

Multimodal Representation

Periklis Petridis, Georgios Margaritis, Vasiliki Stoumpou, et al.

Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective

Wang, Jianyu, Hu, et al.

SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via
Multi-Agent Multi-Turn Reinforcement Learning

Reinforcement Learning

Bo Liu, Leon Guertler, Simon Yu, et al.

Listener-Rewarded Thinking in VLMs for Image Preferences

Preference Modeling

Alexander Gambashidze, Li Pengyi, Matvey Skripkin, et al.

Calligrapher: Freestyle Text Image Customization

Diffusion Model

Yue Ma, Qingyan Bai, Hao Ouyang, et al.

VMoBA: Mixture-of-Block Attention for Video Diffusion Models

Video Generation

Jianzong Wu, Liang Hou, Haotian Yang, et al.

SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning

Melanie Rieff, Maya Varma, Ossian Rabow, et al.

The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT
Improvements

Bingchen Zhao, Despoina Magka, Minqi Jiang, et al.

Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy

Video Processing

Yuhao Liu, Tengfei Wang, Fang Liu, et al.

From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios

Semantic Segmentation

Multi-Task Learning

Changliang Xia, Chengyou Jia, Zhuohang Dang, et al.

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

Visual Question Answering

Hongbo Liu, Jingwen He, Yi Jin, et al.

XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation

Diffusion Model

Bowen Chen, Mengyi Zhao, Haomiao Sun, et al.

Zero-shot antibody design in a 24-well plate

Chai Discovery Team

KinFormer: Generalizable Dynamical Symbolic Regression for Catalytic Organic Reaction Kinetics

Jindou Chen, Jidong Tian, Liang Wu, et al.

MiCo: Multi-image Contrast for Reinforcement Visual Reasoning

Xi Chen, Mingkang Zhu, Shaoteng Liu, et al.

Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs

Visual Question Answering

Yifan Shen, Yuanzhe Liu, Jingyuan Zhu, et al.

Ark: An Open-source Python-based Framework for Robot Learning

Embodied Intelligence

Magnus Dierking, Christopher E. Mower, Sarthak Das, et al.

Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

Tang, Yehui, Li, et al.

LLaVA-Scissor: Token Compression with Semantic Connected Components for
Video LLMs

Visual Question Answering

Boyuan Sun, Jiaxing Zhao, Xihan Wei, et al.

BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing

Diffusion Model

Image Segmentation

Chen, Jiacheng, Mehran, et al.

UniMate: A Unified Model for Mechanical Metamaterial Generation, Property Prediction, and Condition Confirmation

Multi-Task Learning

Wangzhi Zhan, Jianpeng Chen, Dongqi Fu, et al.

Learning to Skip the Middle Layers of Transformers

Tim Lawson, Laurence Aitchison

SAM4D: Segment Anything in Camera and LiDAR Streams

Semantic Segmentation

Jianyun Xu, Song Wang, Ziqian Ni, et al.

Where to find Grokking in LLM Pretraining? Monitor
Memorization-to-Generalization without Test

Natural Language Processing

Ziyue Li, Chenrui Fan, Tianyi Zhou

FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data
Processing to Every Language

Guilherme Penedo, Hynek Kydl\u00ed\u010dek, Vinko Sabol\u010dec, et al.

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings

FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion

Thinking Beyond Tokens: From Brain-Inspired Intelligence to Cognitive Foundations for Artificial General Intelligence and its Societal Impact

Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks

Holistic Artificial Intelligence in Medicine; improved performance and explainability

Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective

SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

Listener-Rewarded Thinking in VLMs for Image Preferences

Calligrapher: Freestyle Text Image Customization

VMoBA: Mixture-of-Block Attention for Video Diffusion Models

SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning

The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements

Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy

From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation

Zero-shot antibody design in a 24-well plate

KinFormer: Generalizable Dynamical Symbolic Regression for Catalytic Organic Reaction Kinetics

MiCo: Multi-image Contrast for Reinforcement Visual Reasoning

Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs

Ark: An Open-source Python-based Framework for Robot Learning

Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs

BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing

UniMate: A Unified Model for Mechanical Metamaterial Generation, Property Prediction, and Condition Confirmation

Learning to Skip the Middle Layers of Transformers

SAM4D: Segment Anything in Camera and LiDAR Streams

Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings

FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion

Thinking Beyond Tokens: From Brain-Inspired Intelligence to Cognitive Foundations for Artificial General Intelligence and its Societal Impact

Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks

Holistic Artificial Intelligence in Medicine; improved performance and explainability

Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective

SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

Listener-Rewarded Thinking in VLMs for Image Preferences

Calligrapher: Freestyle Text Image Customization

VMoBA: Mixture-of-Block Attention for Video Diffusion Models

SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning

The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements

Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy

From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation

Zero-shot antibody design in a 24-well plate

KinFormer: Generalizable Dynamical Symbolic Regression for Catalytic Organic Reaction Kinetics

MiCo: Multi-image Contrast for Reinforcement Visual Reasoning

Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs

Ark: An Open-source Python-based Framework for Robot Learning

Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs

BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing

UniMate: A Unified Model for Mechanical Metamaterial Generation, Property Prediction, and Condition Confirmation

Learning to Skip the Middle Layers of Transformers

SAM4D: Segment Anything in Camera and LiDAR Streams

Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language