HyperAI

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

EmbeddingGemma: Powerful and Lightweight Text Representations

LLM

Transformer

Henrique Schechter Vera, Sahil Dua, Biao Zhang, et al.

Advancing Speech Understanding in Speech-Aware Language Models with GRPO

LLM

Supervised Fine-Tuning

Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, et al.

How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective

Benchmarks

Multimodal

Songsong Yu, Yuxin Chen, Hao Ju, et al.

SIM-CoT: Supervised Implicit Chain-of-Thought

LLM

Supervised Fine-Tuning

Xilin Wei, Xiaoran Liu, Yuhang Zang, et al.

SWE-QA: Can Language Models Answer Repository-level Code Questions?

Intelligent Question Answering

Benchmarks

Weihan Peng, Yuling Shi, Yuhang Wang, et al.

Video models are zero-shot learners and reasoners

Video Understanding

Multimodal

Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, et al.

An N-Plus-1 GPT Agency for Critical Solution of Mechanical Engineering Analysis Problems

LLM

Modeling

Anthony Patera, Rohan Abeyaratne

Memory-QA: Answering Recall Questions Based on Multimodal Memories

Visual Question Answering

Retrieval-Augmented Generation

Hongda Jiang, Xinyuan Zhang, Siddhant Garg, et al.

MAPO: Mixed Advantage Policy Optimization

Reinforcement Learning

Preference Modeling

Wenke Huang, Quan Zhang, Yiyang Fang, et al.

Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation

Any-to-Any

Diffusion Model

Yanzuo Lu, Xin Xia, Manlin Zhang, et al.

Reinforcement Learning on Pre-Training Data

Reinforcement Learning

LLM

Siheng Li, Kejiao Li, Zenan Xu, et al.

Do You Need Proprioceptive States in Visuomotor Policies?

Robotics

Embodied Intelligence

Juntu Zhao, Wenbo Lu, Di Zhang, et al.

Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR

OCR

LLM

Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, et al.

GenExam: A Multidisciplinary Text-to-Image Exam

Text-to-Image

Image Generation

Zhaokai Wang, Penghao Yin, Xiangyu Zhao, et al.

Nav-R1: Reasoning and Navigation in Embodied Scenes

Embodied Intelligence

Reinforcement Learning

Qingxiang Liu, Ting Huang, Zeyu Zhang, et al.

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

LLM

Transformer

Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, et al.

ARE: Scaling Up Agent Environments and Evaluations

Agent

Benchmarks

Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, et al.

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

Diffusion Model

Reinforcement Learning

Kaiwen Zheng, Huayu Chen, Haotian Ye, et al.

TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs

Reinforcement Learning

LLM

Yunheng Li, Jing Cheng, Shaoyong Jia, et al.

OnePiece: Bringing Context Engineering and Reasoning to Industrial Cascade Ranking System

LLM

Multi-Task Learning

Sunhao Dai, Jiakai Tang, Jiahua Wu, et al.

OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models

Video Generation

Image-to-Video

Jinshu Chen, Xinghui Li, Xu Bai, et al.

LIMI: Less is More for Agency

Agent

LLM

Yang Xiao, Mohan Jiang, Jie Sun, et al.

A Modular Fusion Neural Network Approach to Efficiently Predict Multi-Metal Binding Sites in Protein Sequences

Convolutional Neural Network

Deep Learning

JIZHENG LI, CHANGXIN FAN, Hoi Ying LAU, et al.

IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech

Text-to-Speech

Synthesis

Siyi Zhou, Yiquan Zhou, Yi He, et al.

Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference

Diffusion Model

Text-to-Image

Xiangwei Shen, Zhimin Li, Zhantao Yang, et al.

A Multi-Scale Graph Neural Process with Cross-Drug Co-Attention for Drug-Drug Interactions Prediction

Deep Learning

Transformer

Zimo Yan, Jie Zhang, Zheng Xie, et al.

GenCAD-3D: CAD Program Generation using Multimodal Latent Space Alignment and Synthetic Dataset Balancing

Multimodal

Code Generation

Nomi Yu, Md Ferdous Alam, A. John Hart, et al.

BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent

Human-Computer Interaction

Reasoning

Shaojie Zhang, Ruoceng Zhang, Pei Fu, et al.

Lynx: Towards High-Fidelity Personalized Video Generation

Image-to-Video

Video Generation

Shen Sang, Tiancheng Zhi, Tianpei Gu, et al.

SPATIALGEN: Layout-guided 3D Indoor Scene Generation

3D Generation

Multimodal

Chuan Fang, Heng Li, Yixun Liang, et al.

BaseReward: A Strong Baseline for Multimodal Reward Model

Preference Modeling

Multimodal

Yi-Fan Zhang, Haihua Yang, Huanyu Zhang, et al.

Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification

Multi-Task Learning

Any-to-Any

Zinan Lin, Enshu Liu, Xuefei Ning, et al.

Command Palette

Papers

Command Palette

Papers

Command Palette

Papers