HyperAI

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

Benchmarks

Agent

Peisong Wang, Ruotian Ma, Bang Zhang, et al.

The User-Centric Geo-Experience: An LLM-Powered Framework for Enhanced Planning, Navigation, and Dynamic Adaptation

Retrieval-Augmented Generation

LLM

Jieren Deng, Aleksandar Cvetkovic, Pak Kiu Chung, et al.

PLAME: Leveraging Pretrained Language Models to Generate Enhanced Protein Multiple Sequence Alignments

Transformer

Natural Language Processing

Hanqun Cao, Xinyi Zhou, Zijun Gao, et al.

CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization

Benchmarks

Supervised Fine-Tuning

Zhongyuan Peng, Yifan Yao, Kaijing Ma, et al.

StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling

LLM

Multimodal

Meng Wei, Chenyang Wan, Xiqian Yu, et al.

OmniPart: Part-Aware 3D Generation with Semantic Decoupling and Structural Cohesion

3D Generation

Any-to-Any

Yunhan Yang, Yufan Zhou, Yuan-Chen Guo, et al.

SingLoRA: Low Rank Adaptation Using a Single Matrix

LLM

Transformer

David Bensa\u00efd, Noam Rotstein, Roy Velich, et al.

A Survey on Latent Reasoning

LLM

Reasoning

Rui-Jie Zhu, Tianhao Peng, Tianhao Cheng, et al.

Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving

Agent

Reasoning

Xiangru Tang, Tianrui Qin, Tianhao Peng, et al.

ChipSeek-R1: Generating Human-Surpassing RTL with LLM via Hierarchical Reward-Driven Reinforcement Learning

LLM

Model Training

Zhirong Chen, Kaiyan Chang, Zhuolin Li, et al.

MedGemma Technical Report

Any-to-Any

Visual Question Answering

Andrew Sellergren, Sahar Kazemzadeh, Tiam Jaroensri, et al.

BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset

Multimodal

Dataset

Zhiheng Xi, Guanyu Li, Yutao Fan, et al.

Pre-Trained Policy Discriminators are General Reward Models

Preference Modeling

Model Training

Shihan Dou, Shichun Liu, Yuming Yang, et al.

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

Any-to-Any

Robotics

Wenyao Zhang, Hongsi Liu, Zekun Qi, et al.

4DSloMo: 4D Reconstruction for High Speed Scene with Asynchronous Capture

3D Machine Vision

Video Processing

Yutian Chen, Shi Guo, Tianshuo Yang, et al.

Should We Still Pretrain Encoders with Masked Language Modeling?

Natural Language Processing

Transformer

Hippolyte Gisserot-Boukhlef, Nicolas Boizard, Manuel Faysse, et al.

MemOS: A Memory OS for AI System

LLM

Retrieval-Augmented Generation

Zhiyu Li, Shichao Song, Chenyang Xi, et al.

OGF: An Online Gradient Flow Method for Optimizing the Statistical Steady-State Time Averages of Unsteady Turbulent Flows

AI for Science

High-Performance Computing

Tom Hickling, Jonathan F. MacArt, Justin Sirignano, et al.

OpenS2S: Advancing Open-Source End-to-End Empathetic Large Speech Language Model

Text-to-Speech

Audio and Speech Processing

Chen Wang, Tianyu Peng, Wen Yang, et al.

Point3R: Streaming 3D Reconstruction with Explicit Spatial Pointer Memory

3D Machine Vision

Depth Estimation

Yuqi Wu, Wenzhao Zheng, Jie Zhou, et al.

StepHint: Multi-level Stepwise Hints Enhance Reinforcement Learning to Reason

Reinforcement Learning

LLM

Kaiyi Zhang, Ang Lv, Jinpeng Li, et al.

Establishing Best Practices for Building Rigorous Agentic Benchmarks

Benchmarks

Agent

Yuxuan Zhu, Tengjun Jin, Yada Pruksachatkun, et al.

How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision Tasks

Image Recognition

Image Classification

Rahul Ramachandran, Ali Garjani, Roman Bachmann, et al.

Eka-Eval : A Comprehensive Evaluation Framework for Large Language Models in Indian Languages

Benchmarks

LLM

Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal, et al.

DynamiCare: A Dynamic Multi-Agent Framework for Interactive and Open-Ended Medical Decision-Making

Agent

LLM

Tianqi Shang, Weiqing He, Charles Zheng, et al.

Energy-Based Transformers are Scalable Learners and Thinkers

Transformer

Computer Vision

Alexi Gladstone, Ganesh Nanduru, Md Mofijul Islam, et al.

IntFold: A Controllable Foundation Model for General and Specialized Biomolecular Structure Prediction

Transformer

Biomolecules

The IntFold Team, Leon Qiao, Wayne Bai, et al.

Heeding the Inner Voice: Aligning ControlNet Training via Intermediate Features Feedback

Diffusion Model

Image Generation

Nina Konovalova, Maxim Nikolaev, Andrey Kuznetsov, et al.

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

Preference Modeling

Dataset

Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao, et al.

LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion

Any-to-Any

3D Generation

Fangfu Liu, Hao Li, Jiawei Chi, et al.

Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

Multimodal

Reasoning

Zhaochen Su, Peng Xia, Hangyu Guo, et al.

WebSailor: Navigating Super-human Reasoning for Web Agent

Agent

Reasoning

Kuan Li, Zhongwang Zhang, Huifeng Yin, et al.

Command Palette

Papers

Command Palette

Papers

Command Palette

Papers