HyperAI

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization

LLM

Transformer

Aditya Tomar, Coleman Hooper, Minjae Lee, et al.

BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining

LLM

Synthesis

Pratyush Maini, Vineeth Dorna, Parth Doshi, et al.

PaperRegister: Boosting Flexible-grained Paper Search via Hierarchical Register Indexing

Document Understanding

Natural Language Processing

Zhuoqun Li, Xuanang Chen, Hongyu Lin, et al.

DINOv3

Transformer

Multi-Task Learning

Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, et al.

SSRL: Self-Search Reinforcement Learning

Reinforcement Learning

LLM

Yuchen Fan, Kaiyan Zhang, Heng Zhou, et al.

Thyme: Think Beyond Images

Multimodal

Reasoning

Yi-Fan Zhang, Xingyu Lu, Shukang Yin, et al.

Grounding Multilingual Multimodal LLMs With Cultural Knowledge

Visual Question Answering

LLM

Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, et al.

HiFiTTS-2: A Large-Scale High Bandwidth Speech Dataset

Text-to-Speech

Synthesis

Ryan Langman, Xuesong Yang, Paarth Neekhara, et al.

CryptoScope: Utilizing Large Language Models for Automated Cryptographic Logic Vulnerability Detection

LLM

Retrieval-Augmented Generation

Zhihao Li, Zimo Ji, Tao Zheng, et al.

Medical Graph RAG: Towards Safe Medical Large Language Model via Graph Retrieval-Augmented Generation

Retrieval-Augmented Generation

LLM

Junde Wu, Jiayuan Zhu, Yunli Qi, et al.

Puppeteer: Rig and Animate Your 3D Models

3D Model

3D Generation

Chaoyue Song, Xiu Li, Fan Yang, et al.

STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer

3D Machine Vision

3D Generation

Yushi Lan, Yihang Luo, Fangzhou Hong, et al.

PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts

Reasoning

Retrieval-Augmented Generation

Mo Yu, Tsz Ting Chung, Chulun Zhou, et al.

ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing

Image-to-Video

Image-to-Image

Lingen Li, Guangzhi Wang, Zhaoyang Zhang, et al.

NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

Text-to-Image

Image Generation

NextStep Team, Chunrui Han, Guopeng Li, et al.

We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning

Reasoning

Dataset

Runqi Qiao, Qiuna Tan, Peiqing Yang, et al.

COREVQA: A Crowd Observation and Reasoning Entailment Visual Question Answering Benchmark

Visual Question Answering

Benchmarks

Ishant Chintapatla, Kazuma Choji, Naaisha Agarwal, et al.

RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization

Transformer

Any-to-Any

Wen Huang, Jiarui Yang, Tao Dai, et al.

GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving

Transformer

Autonomous Driving

Jian Wang, Chaokang Jiang, Haitao Xu

Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

Agent

Reasoning

Lin Long, Yichen He, Wentao Ye, et al.

Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing

LLM

Diffusion Model

Xu Wang, Chenkai Xu, Yijie Jin, et al.

AWorld: Dynamic Multi-Agent System with Stable Maneuvering for Robust GAIA Problem Solving

Agent

LLM

Zhitian Xie, Qintong Wu, Chengyue Yu, et al.

Story2Board: A Training-Free Approach for Expressive Storyboard Generation

Text-to-Image

Image Generation

David Dinkevich, Matan Levy, Omri Avrahami, et al.

Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation

Video Generation

Image-to-Video

Bowen Xue, Qixin Yan, Wenjing Wang, et al.

Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery

LLM

Supervised Fine-Tuning

Jiatong Li, Weida Wang, Qinggang Zhang, et al.

Llama-Nemotron: Efficient Reasoning Models

LLM

Reasoning

Akhiad Bercovich, Itay Levy, Izik Golan, et al.

Document Haystack: A Long Context Multimodal Image/Document Understanding Vision LLM Benchmark

Document Understanding

Visual Document Retrieval

Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, et al.

Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation

Text-to-Image

Dataset

Junyan Ye, Dongzhi Jiang, Zihao Wang, et al.

Virtual staining of label-free tissue in imaging mass spectrometry

Computer Vision

Image Understanding

Yijie Zhang, Luzhe Huang, Nir Pillar, et al.

VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models

Code Generation

Multimodal Representation

Lingjie Jiang, Shaohan Huang, Xun Wu, et al.

HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches

Retrieval-Augmented Generation

Agent

Jiejun Tan, Zhicheng Dou, Yan Yu, et al.

Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models

Diffusion Model

Reasoning

Wen Wang, Bozhen Fang, Chenchen Jing, et al.

Command Palette

Papers

Command Palette

Papers

Command Palette

Papers