Papers

Yizhang Zhu, Liangwei Wang, Chenyu Yang, et al.

ReCode: Unify Plan and Action for Universal Granularity Control

Language

Code Generation

Zhaoyang Yu, Jiayi Zhang, Huixue Su, et al.

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

Multimodal Representation

Computer Vision

Yujia Zhang, Xiaoyang Wu, Yixing Lao, et al.

Magellan: Guided MCTS for Latent Space Exploration and Novelty Generation

Tala Aljaafari, Varun Kanade, Philip Torr, et al.

Text Generation

Lufan Chang

DEEDEE: Fast and Scalable Out-of-Distribution Dynamics Detection

Reinforcement Learning

Modeling

Sparser Block-Sparse Attention via Token Permutation

Xinghao Wang, Pengyu Wang, Dong Zhang, et al.

A Definition of AGI

Benchmarks

Dan Hendrycks, Dawn Song, Christian Szegedy, et al.

From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model

Yatai Ji, Teng Wang, Yuying Ge, et al.

Multimodal

Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation

Text-to-Image

Image Generation

Yifu Luo, Penghui Du, Bo Li, et al.

Video-As-Prompt: Unified Semantic Control for Video Generation

Video Generation

Image-to-Video

Yuxuan Bian, Xin Chen, Zenan Li, et al.

DeepAgent: A General Reasoning Agent with Scalable Toolsets

Agent

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, et al.

Uncertainty-Aware Multi-Objective Reinforcement Learning-Guided Diffusion Models for 3D De Novo Molecular Design

Lianghong Chen, Dongkyu Eugene Kim, Mike Domaratzki, et al.

Reinforcement Learning

Reac-Discovery: an artificial intelligence–driven platform for continuous-flow catalytic reactor discovery and optimization

AI for Science

Modeling

Cristopher Tinajero, Marcileia Zanatta, Julián E. Sánchez-Velandia, et al.

BoltzGen:Toward Universal Binder Design

AI for Science

Deep Learning

Hannes Stark, Felix Faltings, MinGyu Choi, et al.

HSCodeComp: A Realistic and Expert-level Benchmark for Deep Search Agents in Hierarchical Rule Application

Benchmarks

Dataset

Yiqian Yang, Tian Lan, Qianghuai Jia, et al.

DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion

Noam Issachar, Guy Yariv, Sagie Benaim, et al.

HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives

Text-to-Video

Video Generation

Yihao Meng, Hao Ouyang, Yue Yu, et al.

Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

Video Understanding

Jiahao Meng, Xiangtai Li, Haochen Wang, et al.

AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders

Yuezhou Hu, Jiaxin Guo, Xinyu Feng, et al.

Human-Agent Collaborative Paper-to-Page Crafting for Under $0.1

Agent

Any-to-Any

Qianli Ma, Siyu Wang, Yilin Chen, et al.

See the Text: From Tokenization to Visual Reading

Multimodal

OCR

Ling Xing, Alex Jinpeng Wang, Rui Yan, et al.

Directional Reasoning Injection for Fine-Tuning MLLMs

Visual Question Answering

Any-to-Any

Chao Huang, Zeliang Zhang, Jiang Liu, et al.

Language Models are Injective and Hence Invertible

Natural Language Processing

Giorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, et al.

The Free Transformer

Lucy Xing, Sanjay Vishwakarma, David Kremer, et al.

Any-to-Any

François Fleuret

Quantum Processing Unit (QPU) processing time Prediction with Machine Learning

Machine Learning

Model Training

Observation of constructive interference at the edge of quantum ergodicity

AI for Science

Modeling

Google Quantum AI and Collaborators

VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos

Action Recognition

Human-Computer Interaction

Dunjie Lu, Yiheng Xu, Junli Wang, et al.

GigaBrain-0: A World Model-Powered Vision-Language-Action Model

Embodied Intelligence

Robotics

GigaBrain Team, Angen Ye, Boyuan Wang, et al.

LoongRL:Reinforcement Learning for Advanced Reasoning over Long Contexts

Siyuan Wang, Gaokai Zhang, Li Lyna Zhang, et al.

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

Reinforcement Learning

Zhiheng Xi, Xin Guo, Yang Nan, et al.

Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning

Ling Team, Bin Han, Caizhi Tang, et al.

Model Training

Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation

Image Inpainting