HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Self-Rewarding Vision-Language Model via Reasoning Decomposition

Self-Rewarding Vision-Language Model via Reasoning Decomposition

Visual Question Answering

Zongxia Li, Wenhao Yu, Chengsong Huang, et al.

Beyond Transcription: Mechanistic Interpretability in ASR

Beyond Transcription: Mechanistic Interpretability in ASR

Neta Glazer, Yael Segal-Feldman, Hilit Segev, et al.

CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

Reinforcement Learning

Zeyi Sun, Yuhang Cao, Jianze Liang, et al.

WebSight: A Vision-First Architecture for Robust Web Agents

Tanvir Bhathal, Asanshay Gupta

UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior
Long-Context Learning

Zihao Huang, Yu Bao, Qiyang Min, et al.

Hermes 4 Technical Report

Ryan Teknium, Roger Jin, Jai Suphavadeeprasit, et al.

OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive
Simulation

Multimodal Representation

Jianwen Jiang, Weihong Zeng, Zerong Zheng, et al.

VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D
Space

Diffusion Model

Lin Li, Zehuan Huang, Haoran Feng, et al.

CMPhysBench: A Benchmark for Evaluating Large Language Models in
Condensed Matter Physics

Weida Wang, Dongchen Huang, Jiatong Li, et al.

TreePO: Bridging the Gap of Policy Optimization and Efficacy and
Inference Efficiency with Heuristic Tree-based Modeling

Reinforcement Learning

Yizhi Li, Qingshui Gu, Zhoufutu Wen, et al.

Nemotron-CC-Math: A 133 Billion-Token-Scale High Quality Math Pretraining Dataset

Rabeeh Karimi Mahabadi, Sanjeev Satheesh, Shrimai Prabhumoye, et al.

Understanding Tool-Integrated Reasoning

Heng Lin, Zhongwen Xu

Spacer: Towards Engineered Scientific Inspiration

Text Generation

Minhyeong Lee, Suyoung Hwang, Seunghyun Moon, et al.

Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory
and Test-Time Compute Scaling

Ivan Rodkin, Daniil Orel, Konstantin Smirnov, et al.

VibeVoice Technical Report

Zhiliang Peng, Jianwei Yu, Wenhui Wang, et al.

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

Multimodal Representation

Sixun Dong, Juhua Hu, Mian Zhang, et al.

MV-RAG: Retrieval Augmented Multiview Diffusion

Diffusion Model

Yosef Dayani, Omer Benishu, Sagie Benaim

Connecting metal-organic framework synthesis to applications using multimodal machine learning

Sartaaj Takrim Khan, Seyed Mohamad Moosavi

Model Context Protocols in Adaptive Transport Systems: A Survey

Gaurab Chhetri, Shriyank Somvanshi, Md Monzurul Islam, et al.

Algorithmic Collective Action with Multiple Collectives

Sentiment Classification

Claudio Battiloro, Pietro Greiner, Bret Nestor, Oumaima Amezgar, Francesca Dominici

OpenCUA: Open Foundations for Computer-Use Agents

Xinyuan Wang, Bowen Wang, Dunjie Lu, et al.

Spatial Policy: Guiding Visuomotor Robotic Manipulation with Spatial-Aware Modeling and Reasoning

Embodied Intelligence

Yijun Liu, Yuwei Liu, Yuan Meng, et al.

Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search

Yuxian Gu, Qinghao Hu, Shang Yang, et al.

CRISP: Persistent Concept Unlearning via Sparse Autoencoders

Tomer Ashuach, Dana Arad, Aaron Mueller, et al.

Selective Contrastive Learning for Weakly Supervised Affordance Grounding

Computer Vision

Image Recognition

WonJun Moon, Hyun Seok Seong, Jae-Pil Heo

EgoTwin: Dreaming Body and View in First Person

Video Generation

Jingqiao Xiu, Fangzhou Hong, Yicong Li, et al.

Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

Reinforcement Learning

Xiao Liang, Zhongzhi Li, Yeyun Gong, et al.

ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

Embodied Intelligence

Kaijun Wang, Liqin Lu, Mingyu Liu, et al.

AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs

Reinforcement Learning

Huichi Zhou, Yihang Chen, Siyuan Guo, et al.

Constraints-Guided Diffusion Reasoner for Neuro-Symbolic Learning

Xuan Zhang, Zhijian Zhou, Weidi Xu, et al.

LLM-Based Agents for Competitive Landscape Mapping in Drug Asset Due Diligence

Document Understanding

Alisa Vinogradova, Vlad Vinogradov, Dmitrii Radkevich, et al.

SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

Yanxu Meng, Haoning Wu, Ya Zhang, et al.

Self-Rewarding Vision-Language Model via Reasoning Decomposition

Self-Rewarding Vision-Language Model via Reasoning Decomposition

Visual Question Answering

Zongxia Li, Wenhao Yu, Chengsong Huang, et al.

Beyond Transcription: Mechanistic Interpretability in ASR

Beyond Transcription: Mechanistic Interpretability in ASR

Neta Glazer, Yael Segal-Feldman, Hilit Segev, et al.

CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

Reinforcement Learning

Zeyi Sun, Yuhang Cao, Jianze Liang, et al.

WebSight: A Vision-First Architecture for Robust Web Agents

Tanvir Bhathal, Asanshay Gupta

UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior
Long-Context Learning

Zihao Huang, Yu Bao, Qiyang Min, et al.

Hermes 4 Technical Report

Ryan Teknium, Roger Jin, Jai Suphavadeeprasit, et al.

OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive
Simulation

Multimodal Representation

Jianwen Jiang, Weihong Zeng, Zerong Zheng, et al.

VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D
Space

Diffusion Model

Lin Li, Zehuan Huang, Haoran Feng, et al.

CMPhysBench: A Benchmark for Evaluating Large Language Models in
Condensed Matter Physics

Weida Wang, Dongchen Huang, Jiatong Li, et al.

TreePO: Bridging the Gap of Policy Optimization and Efficacy and
Inference Efficiency with Heuristic Tree-based Modeling

Reinforcement Learning

Yizhi Li, Qingshui Gu, Zhoufutu Wen, et al.

Nemotron-CC-Math: A 133 Billion-Token-Scale High Quality Math Pretraining Dataset

Rabeeh Karimi Mahabadi, Sanjeev Satheesh, Shrimai Prabhumoye, et al.

Understanding Tool-Integrated Reasoning

Heng Lin, Zhongwen Xu

Spacer: Towards Engineered Scientific Inspiration

Text Generation

Minhyeong Lee, Suyoung Hwang, Seunghyun Moon, et al.

Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory
and Test-Time Compute Scaling

Ivan Rodkin, Daniil Orel, Konstantin Smirnov, et al.

VibeVoice Technical Report

Zhiliang Peng, Jianwei Yu, Wenhui Wang, et al.

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

Multimodal Representation

Sixun Dong, Juhua Hu, Mian Zhang, et al.

MV-RAG: Retrieval Augmented Multiview Diffusion

Diffusion Model

Yosef Dayani, Omer Benishu, Sagie Benaim

Connecting metal-organic framework synthesis to applications using multimodal machine learning

Sartaaj Takrim Khan, Seyed Mohamad Moosavi

Model Context Protocols in Adaptive Transport Systems: A Survey

Gaurab Chhetri, Shriyank Somvanshi, Md Monzurul Islam, et al.

Algorithmic Collective Action with Multiple Collectives

Sentiment Classification

Claudio Battiloro, Pietro Greiner, Bret Nestor, Oumaima Amezgar, Francesca Dominici

OpenCUA: Open Foundations for Computer-Use Agents

Xinyuan Wang, Bowen Wang, Dunjie Lu, et al.

Spatial Policy: Guiding Visuomotor Robotic Manipulation with Spatial-Aware Modeling and Reasoning

Embodied Intelligence

Yijun Liu, Yuwei Liu, Yuan Meng, et al.

Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search

Yuxian Gu, Qinghao Hu, Shang Yang, et al.

CRISP: Persistent Concept Unlearning via Sparse Autoencoders

Tomer Ashuach, Dana Arad, Aaron Mueller, et al.

Selective Contrastive Learning for Weakly Supervised Affordance Grounding

Computer Vision

Image Recognition

WonJun Moon, Hyun Seok Seong, Jae-Pil Heo

EgoTwin: Dreaming Body and View in First Person

Video Generation

Jingqiao Xiu, Fangzhou Hong, Yicong Li, et al.

Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

Reinforcement Learning

Xiao Liang, Zhongzhi Li, Yeyun Gong, et al.

ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

Embodied Intelligence

Kaijun Wang, Liqin Lu, Mingyu Liu, et al.

AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs

Reinforcement Learning

Huichi Zhou, Yihang Chen, Siyuan Guo, et al.

Constraints-Guided Diffusion Reasoner for Neuro-Symbolic Learning

Xuan Zhang, Zhijian Zhou, Weidi Xu, et al.

LLM-Based Agents for Competitive Landscape Mapping in Drug Asset Due Diligence

Document Understanding

Alisa Vinogradova, Vlad Vinogradov, Dmitrii Radkevich, et al.

SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

Yanxu Meng, Haoning Wu, Ya Zhang, et al.

CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

WebSight: A Vision-First Architecture for Robust Web Agents

UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning

Hermes 4 Technical Report

OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation

VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space

CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

Nemotron-CC-Math: A 133 Billion-Token-Scale High Quality Math Pretraining Dataset

Understanding Tool-Integrated Reasoning

Spacer: Towards Engineered Scientific Inspiration

Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling

VibeVoice Technical Report

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

MV-RAG: Retrieval Augmented Multiview Diffusion

Connecting metal-organic framework synthesis to applications using multimodal machine learning

Model Context Protocols in Adaptive Transport Systems: A Survey

Algorithmic Collective Action with Multiple Collectives

OpenCUA: Open Foundations for Computer-Use Agents

Spatial Policy: Guiding Visuomotor Robotic Manipulation with Spatial-Aware Modeling and Reasoning

Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search

CRISP: Persistent Concept Unlearning via Sparse Autoencoders

Selective Contrastive Learning for Weakly Supervised Affordance Grounding

EgoTwin: Dreaming Body and View in First Person

Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs

Constraints-Guided Diffusion Reasoner for Neuro-Symbolic Learning

LLM-Based Agents for Competitive Landscape Mapping in Drug Asset Due Diligence

SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

WebSight: A Vision-First Architecture for Robust Web Agents

UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning

Hermes 4 Technical Report

OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation

VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space

CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

Nemotron-CC-Math: A 133 Billion-Token-Scale High Quality Math Pretraining Dataset

Understanding Tool-Integrated Reasoning

Spacer: Towards Engineered Scientific Inspiration

Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling

VibeVoice Technical Report

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

MV-RAG: Retrieval Augmented Multiview Diffusion

Connecting metal-organic framework synthesis to applications using multimodal machine learning

Model Context Protocols in Adaptive Transport Systems: A Survey

Algorithmic Collective Action with Multiple Collectives

OpenCUA: Open Foundations for Computer-Use Agents

Spatial Policy: Guiding Visuomotor Robotic Manipulation with Spatial-Aware Modeling and Reasoning

Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search

CRISP: Persistent Concept Unlearning via Sparse Autoencoders

Selective Contrastive Learning for Weakly Supervised Affordance Grounding

EgoTwin: Dreaming Body and View in First Person

Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs

Constraints-Guided Diffusion Reasoner for Neuro-Symbolic Learning

LLM-Based Agents for Competitive Landscape Mapping in Drug Asset Due Diligence

SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass