HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes

Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes

Visual Question Answering

Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, et al.

LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised
Learning in Open-World Scenarios

LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World Scenarios

Supervised Fine-Tuning

Image Recognition

Jiahao Chen, Zhiyuan Huang, Yurou Liu, et al.

FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

Moritz Reuss, Hongyi Zhou, Marcel Rühle, et al.

Inpainting-Guided Policy Optimization for Diffusion Large Language
Models

Reinforcement Learning

Diffusion Model

Siyan Zhao, Mengchen Liu, Jing Huang, et al.

MCP-AgentBench: Evaluating Real-World Language Agent Performance with
MCP-Mediated Tools

Zikang Guo, Benfeng Xu, Chiwei Zhu, et al.

A Survey on Cache Methods in Diffusion Models: Toward Efficient Multi-Modal Generation

Diffusion Model

Jiacheng Liu, Xinyu Wang, Yuqi Lin, et al.

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Video Generation

Autonomous Driving

Kai Zeng, Zhanqian Wu, Kaixin Xiong, et al.

Spatially-Varying Autofocus

Depth Estimation

Computer Vision

Yingsi Qin, Aswin C. Sankaranarayanan, Matthew O'Toole

When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling

Heecheol Yun, Kwangmin Ki, Junghyun Lee, et al.

Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented
Generation

Retrieval-Augmented Generation

Chenghao Zhang, Guanting Dong, Xinyu Yang, et al.

FineVision: Open Data Is All You Need

Luis Wiedmann, Orr Zohar, Amir Mahla, et al.

Glyph: Scaling Context Windows via Visual-Text Compression

Visual Question Answering

Document Understanding

Jiale Cheng, Yusen Liu, Xinyu Zhang, et al.

PICABench: How Far Are We from Physically Realistic Image Editing?

Image Inpainting

Yuandong Pu, Le Zhuo, Songhao Han, et al.

DeepAnalyze: Agentic Large Language Models for Autonomous Data Science

Shaolei Zhang, Ju Fan, Meihao Fan, et al.

Self-Attention to Operator Learning-based 3D-IC Thermal Simulation

Zhen Huang, Hong Wang, Wenkai Yang, et al.

Earth AI: Unlocking Geospatial Insights with Foundation Models and Cross-Modal Reasoning

Aaron Bell, Amit Aides, Amr Helmy, et al.

Rethinking Cross-lingual Gaps from a Statistical Viewpoint

Natural Language Processing

Vihari Piratla, Purvam Jain, Darshan Singh, et al.

Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism

Haoran Sun, Yankai Jiang, Zhenyu Tang, et al.

Skyfall-GS: Synthesizing Immersive 3D Urban Scenes from Satellite
Imagery

Diffusion Model

Jie-Ying Lee, Yi-Ruei Liu, Shr-Ruei Tsai, et al.

Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs

Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, et al.

NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks

Image Inpainting

Junliang Ye, Shenghao Xie, Ruowen Zhao, et al.

Scaling Instruction-Based Video Editing with a High-Quality Synthetic
Dataset

Qingyan Bai, Qiuyu Wang, Hao Ouyang, et al.

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding
LLM

Multimodal Representation

Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, et al.

A Theoretical Study on Bridging Internal Probability and
Self-Consistency for LLM Reasoning

Zhi Zhou, Yuhao Tan, Zenan Li, et al.

DeepSeek-OCR: Contexts Optical Compression

Haoran Wei, Yaofeng Sun, Yukun Li

Direct Preference Optimization with Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences

Preference Modeling

Keertana Chidambaram, Karthik Vinary Seetharaman, Vasilis Syrgkanis

Elucidated Rolling Diffusion Models for Probabilistic Weather Forecasting

Diffusion Model

Salva Rühling Cachay, Miika Aittala, Karsten Kreis, et al.

ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond
Semantic Dependency Constraints

Meiqi Wu, Jiashu Zhu, Xiaokun Feng, et al.

From Pixels to Words -- Towards Native Vision-Language Primitives at
Scale

Multimodal Representation

Haiwen Diao, Mingxuan Li, Silei Wu, et al.

AI for Service: Proactive Assistance with AI Glasses

Zichen Wen, Yiyu Wang, Chenfei Liao, et al.

WithAnyone: Towards Controllable and ID Consistent Image Generation

Image Generation

Hengyuan Xu, Wei Cheng, Peng Xing, et al.

Agentic Entropy-Balanced Policy Optimization

Reinforcement Learning

Guanting Dong, Licheng Bao, Zhongyuan Wang, et al.

Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes

Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes

Visual Question Answering

Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, et al.

LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised
Learning in Open-World Scenarios

LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World Scenarios

Supervised Fine-Tuning

Image Recognition

Jiahao Chen, Zhiyuan Huang, Yurou Liu, et al.

FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

Moritz Reuss, Hongyi Zhou, Marcel Rühle, et al.

Inpainting-Guided Policy Optimization for Diffusion Large Language
Models

Reinforcement Learning

Diffusion Model

Siyan Zhao, Mengchen Liu, Jing Huang, et al.

MCP-AgentBench: Evaluating Real-World Language Agent Performance with
MCP-Mediated Tools

Zikang Guo, Benfeng Xu, Chiwei Zhu, et al.

A Survey on Cache Methods in Diffusion Models: Toward Efficient Multi-Modal Generation

Diffusion Model

Jiacheng Liu, Xinyu Wang, Yuqi Lin, et al.

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Video Generation

Autonomous Driving

Kai Zeng, Zhanqian Wu, Kaixin Xiong, et al.

Spatially-Varying Autofocus

Depth Estimation

Computer Vision

Yingsi Qin, Aswin C. Sankaranarayanan, Matthew O'Toole

When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling

Heecheol Yun, Kwangmin Ki, Junghyun Lee, et al.

Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented
Generation

Retrieval-Augmented Generation

Chenghao Zhang, Guanting Dong, Xinyu Yang, et al.

FineVision: Open Data Is All You Need

Luis Wiedmann, Orr Zohar, Amir Mahla, et al.

Glyph: Scaling Context Windows via Visual-Text Compression

Visual Question Answering

Document Understanding

Jiale Cheng, Yusen Liu, Xinyu Zhang, et al.

PICABench: How Far Are We from Physically Realistic Image Editing?

Image Inpainting

Yuandong Pu, Le Zhuo, Songhao Han, et al.

DeepAnalyze: Agentic Large Language Models for Autonomous Data Science

Shaolei Zhang, Ju Fan, Meihao Fan, et al.

Self-Attention to Operator Learning-based 3D-IC Thermal Simulation

Zhen Huang, Hong Wang, Wenkai Yang, et al.

Earth AI: Unlocking Geospatial Insights with Foundation Models and Cross-Modal Reasoning

Aaron Bell, Amit Aides, Amr Helmy, et al.

Rethinking Cross-lingual Gaps from a Statistical Viewpoint

Natural Language Processing

Vihari Piratla, Purvam Jain, Darshan Singh, et al.

Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism

Haoran Sun, Yankai Jiang, Zhenyu Tang, et al.

Skyfall-GS: Synthesizing Immersive 3D Urban Scenes from Satellite
Imagery

Diffusion Model

Jie-Ying Lee, Yi-Ruei Liu, Shr-Ruei Tsai, et al.

Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs

Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, et al.

NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks

Image Inpainting

Junliang Ye, Shenghao Xie, Ruowen Zhao, et al.

Scaling Instruction-Based Video Editing with a High-Quality Synthetic
Dataset

Qingyan Bai, Qiuyu Wang, Hao Ouyang, et al.

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding
LLM

Multimodal Representation

Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, et al.

A Theoretical Study on Bridging Internal Probability and
Self-Consistency for LLM Reasoning

Zhi Zhou, Yuhao Tan, Zenan Li, et al.

DeepSeek-OCR: Contexts Optical Compression

Haoran Wei, Yaofeng Sun, Yukun Li

Direct Preference Optimization with Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences

Preference Modeling

Keertana Chidambaram, Karthik Vinary Seetharaman, Vasilis Syrgkanis

Elucidated Rolling Diffusion Models for Probabilistic Weather Forecasting

Diffusion Model

Salva Rühling Cachay, Miika Aittala, Karsten Kreis, et al.

ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond
Semantic Dependency Constraints

Meiqi Wu, Jiashu Zhu, Xiaokun Feng, et al.

From Pixels to Words -- Towards Native Vision-Language Primitives at
Scale

Multimodal Representation

Haiwen Diao, Mingxuan Li, Silei Wu, et al.

AI for Service: Proactive Assistance with AI Glasses

Zichen Wen, Yiyu Wang, Chenfei Liao, et al.

WithAnyone: Towards Controllable and ID Consistent Image Generation

Image Generation

Hengyuan Xu, Wei Cheng, Peng Xing, et al.

Agentic Entropy-Balanced Policy Optimization

Reinforcement Learning

Guanting Dong, Licheng Bao, Zhongyuan Wang, et al.

FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

Inpainting-Guided Policy Optimization for Diffusion Large Language Models

MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools

A Survey on Cache Methods in Diffusion Models: Toward Efficient Multi-Modal Generation

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Spatially-Varying Autofocus

When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling

Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

FineVision: Open Data Is All You Need

Glyph: Scaling Context Windows via Visual-Text Compression

PICABench: How Far Are We from Physically Realistic Image Editing?

DeepAnalyze: Agentic Large Language Models for Autonomous Data Science

Self-Attention to Operator Learning-based 3D-IC Thermal Simulation

Earth AI: Unlocking Geospatial Insights with Foundation Models and Cross-Modal Reasoning

Rethinking Cross-lingual Gaps from a Statistical Viewpoint

Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism

Skyfall-GS: Synthesizing Immersive 3D Urban Scenes from Satellite Imagery

Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs

NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks

Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning

DeepSeek-OCR: Contexts Optical Compression

Direct Preference Optimization with Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences

Elucidated Rolling Diffusion Models for Probabilistic Weather Forecasting

ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

AI for Service: Proactive Assistance with AI Glasses

WithAnyone: Towards Controllable and ID Consistent Image Generation

Agentic Entropy-Balanced Policy Optimization

FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

Inpainting-Guided Policy Optimization for Diffusion Large Language Models

MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools

A Survey on Cache Methods in Diffusion Models: Toward Efficient Multi-Modal Generation

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Spatially-Varying Autofocus

When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling

Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

FineVision: Open Data Is All You Need

Glyph: Scaling Context Windows via Visual-Text Compression

PICABench: How Far Are We from Physically Realistic Image Editing?

DeepAnalyze: Agentic Large Language Models for Autonomous Data Science

Self-Attention to Operator Learning-based 3D-IC Thermal Simulation

Earth AI: Unlocking Geospatial Insights with Foundation Models and Cross-Modal Reasoning

Rethinking Cross-lingual Gaps from a Statistical Viewpoint

Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism

Skyfall-GS: Synthesizing Immersive 3D Urban Scenes from Satellite Imagery

Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs

NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks

Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning

DeepSeek-OCR: Contexts Optical Compression

Direct Preference Optimization with Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences

Elucidated Rolling Diffusion Models for Probabilistic Weather Forecasting

ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

AI for Service: Proactive Assistance with AI Glasses

WithAnyone: Towards Controllable and ID Consistent Image Generation

Agentic Entropy-Balanced Policy Optimization