HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton

The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton

Natalie Abreu, Nikhil Vyas, Sham Kakade, et al.

Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

Yoonjeon Kim, Doohyuk Jang, Eunho Yang

From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning

Retrieval-Augmented Generation

Cheng Yang, Jiaxuan Lu, Haiyuan Wan, et al.

DreamOmni2: Multimodal Instruction-based Editing and Generation

Image Generation

Bin Xia, Bohao Peng, Yuechen Zhang, et al.

VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal
Patches via In-Context Conditioning

Video Generation

Image Inpainting

Minghong Cai, Qiulin Wang, Zongli Ye, et al.

UniVideo: Unified Understanding, Generation, and Editing for Videos

Video Generation

Cong Wei, Quande Liu, Zixuan Ye, et al.

MemMamba: Rethinking Memory Patterns in State Space Model

Natural Language Processing

Youjin Wang, Yangjingyi Chen, Jiahao Yan, et al.

MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with
Holistic Platform and Adaptive Hybrid Policy Optimization

Xiangyu Zhao, Junming Lin, Tianhao Liang, et al.

PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning

Xueliang Zhao, Wei Wu, Jian Guan, et al.

Extract-0: A Specialized Language Model for Document Information Extraction

Supervised Fine-Tuning

Document Understanding

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

Reinforcement Learning

Lujie Yang, Xiaoyu Huang, Zhen Wu, et al.

WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild

Audio and Speech Processing

Linhao Zhang, Jian Zhang, Bokai Lei, et al.

Token-Aware Editing of Internal Activations for Large Language Model Alignment

Supervised Fine-Tuning

Tianbo Wang, Yuqing Ma, Kewei Liao, et al.

Looking to Learn: Token-wise Dynamic Gating for Low-Resource Vision-Language Modelling

Visual Question Answering

Bianca-Mihaela Ganescu, Suchir Salhan, Andrew Caines, et al.

Agent Learning via Early Experience

Supervised Fine-Tuning

Reinforcement Learning

Kai Zhang, Xiangchao Chen, Bo Liu, et al.

MATRIX: Mask Track Alignment for Interaction-aware Video Generation

Video Generation

Siyoon Jin, Seongchan Kim, Dahyun Chung, et al.

RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

Reinforcement Learning

Multimodal Representation

Hongzhi Zang, Mingjie Wei, Si Xu, et al.

SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

Audio and Speech Processing

Human-Computer Interaction

Cheng-Han Chiang, Xiaofei Wang, Linjie Li, et al.

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal
Generation and Understanding

Diffusion Model

Yi Xin, Qi Qin, Siqi Luo, et al.

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

Tianyu Fu, Zihan Min, Hanling Zhang, et al.

Ming-UniVision: Joint Image Understanding and Generation with a Unified
Continuous Tokenizer

Image Understanding

Ziyuan Huang, DanDan Zheng, Cheng Zou, et al.

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your
Phone

Marah Abdin, Sam Ade Jacobs, Ammar Ahmad Awan, et al.

Qwen2.5 Technical Report

Supervised Fine-Tuning

Qwen, An Yang, Baosong Yang, et al.

Scientific Algorithm Discovery by Augmenting AlphaEvolve with Deep Research

Gang Liu, Yihan Zhu, Jie Chen, et al.

ConstraintLLM: A Neuro-Symbolic Framework for Industrial-Level Constraint Programming

Supervised Fine-Tuning

Weichun Shi, Minghao Liu, Wanting Zhang, et al.

Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning

Code Generation

Honglin Lin, Qizhi Pei, Xin Gao, et al.

CoDA: Coding LM via Diffusion Adaptation

Diffusion Model

Text Generation

Haolin Chen, Shiyu Wang, Can Qin, et al.

Fast-dLLM v2: Efficient Block-Diffusion LLM

Diffusion Model

Chengyue Wu, Hao Zhang, Shuchen Xue, et al.

Less is More: Recursive Reasoning with Tiny Networks

Neural Networks

Alexia Jolicoeur-Martineau

Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs

Intelligent Question Answering

Shreyas Singh, Kunal Singh, Pradeep Moturi

TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular
Reasoning

Supervised Fine-Tuning

Jiaru Zou, Soumya Roy, Vinay Kumar Verma, et al.

Hybrid Architectures for Language Models: Systematic Analysis and Design
Insights

Sangmin Bae, Bilge Acun, Haroun Habeeb, et al.

The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton

The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton

Natalie Abreu, Nikhil Vyas, Sham Kakade, et al.

Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

Yoonjeon Kim, Doohyuk Jang, Eunho Yang

From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning

Retrieval-Augmented Generation

Cheng Yang, Jiaxuan Lu, Haiyuan Wan, et al.

DreamOmni2: Multimodal Instruction-based Editing and Generation

Image Generation

Bin Xia, Bohao Peng, Yuechen Zhang, et al.

VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal
Patches via In-Context Conditioning

Video Generation

Image Inpainting

Minghong Cai, Qiulin Wang, Zongli Ye, et al.

UniVideo: Unified Understanding, Generation, and Editing for Videos

Video Generation

Cong Wei, Quande Liu, Zixuan Ye, et al.

MemMamba: Rethinking Memory Patterns in State Space Model

Natural Language Processing

Youjin Wang, Yangjingyi Chen, Jiahao Yan, et al.

MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with
Holistic Platform and Adaptive Hybrid Policy Optimization

Xiangyu Zhao, Junming Lin, Tianhao Liang, et al.

PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning

Xueliang Zhao, Wei Wu, Jian Guan, et al.

Extract-0: A Specialized Language Model for Document Information Extraction

Supervised Fine-Tuning

Document Understanding

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

Reinforcement Learning

Lujie Yang, Xiaoyu Huang, Zhen Wu, et al.

WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild

Audio and Speech Processing

Linhao Zhang, Jian Zhang, Bokai Lei, et al.

Token-Aware Editing of Internal Activations for Large Language Model Alignment

Supervised Fine-Tuning

Tianbo Wang, Yuqing Ma, Kewei Liao, et al.

Looking to Learn: Token-wise Dynamic Gating for Low-Resource Vision-Language Modelling

Visual Question Answering

Bianca-Mihaela Ganescu, Suchir Salhan, Andrew Caines, et al.

Agent Learning via Early Experience

Supervised Fine-Tuning

Reinforcement Learning

Kai Zhang, Xiangchao Chen, Bo Liu, et al.

MATRIX: Mask Track Alignment for Interaction-aware Video Generation

Video Generation

Siyoon Jin, Seongchan Kim, Dahyun Chung, et al.

RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

Reinforcement Learning

Multimodal Representation

Hongzhi Zang, Mingjie Wei, Si Xu, et al.

SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

Audio and Speech Processing

Human-Computer Interaction

Cheng-Han Chiang, Xiaofei Wang, Linjie Li, et al.

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal
Generation and Understanding

Diffusion Model

Yi Xin, Qi Qin, Siqi Luo, et al.

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

Tianyu Fu, Zihan Min, Hanling Zhang, et al.

Ming-UniVision: Joint Image Understanding and Generation with a Unified
Continuous Tokenizer

Image Understanding

Ziyuan Huang, DanDan Zheng, Cheng Zou, et al.

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your
Phone

Marah Abdin, Sam Ade Jacobs, Ammar Ahmad Awan, et al.

Qwen2.5 Technical Report

Supervised Fine-Tuning

Qwen, An Yang, Baosong Yang, et al.

Scientific Algorithm Discovery by Augmenting AlphaEvolve with Deep Research

Gang Liu, Yihan Zhu, Jie Chen, et al.

ConstraintLLM: A Neuro-Symbolic Framework for Industrial-Level Constraint Programming

Supervised Fine-Tuning

Weichun Shi, Minghao Liu, Wanting Zhang, et al.

Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning

Code Generation

Honglin Lin, Qizhi Pei, Xin Gao, et al.

CoDA: Coding LM via Diffusion Adaptation

Diffusion Model

Text Generation

Haolin Chen, Shiyu Wang, Can Qin, et al.

Fast-dLLM v2: Efficient Block-Diffusion LLM

Diffusion Model

Chengyue Wu, Hao Zhang, Shuchen Xue, et al.

Less is More: Recursive Reasoning with Tiny Networks

Neural Networks

Alexia Jolicoeur-Martineau

Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs

Intelligent Question Answering

Shreyas Singh, Kunal Singh, Pradeep Moturi

TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular
Reasoning

Supervised Fine-Tuning

Jiaru Zou, Soumya Roy, Vinay Kumar Verma, et al.

Hybrid Architectures for Language Models: Systematic Analysis and Design
Insights

Sangmin Bae, Bilge Acun, Haroun Habeeb, et al.

From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning

DreamOmni2: Multimodal Instruction-based Editing and Generation

VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning

UniVideo: Unified Understanding, Generation, and Editing for Videos

MemMamba: Rethinking Memory Patterns in State Space Model

MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization

PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning

Extract-0: A Specialized Language Model for Document Information Extraction

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild

Token-Aware Editing of Internal Activations for Large Language Model Alignment

Looking to Learn: Token-wise Dynamic Gating for Low-Resource Vision-Language Modelling

Agent Learning via Early Experience

MATRIX: Mask Track Alignment for Interaction-aware Video Generation

RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Qwen2.5 Technical Report

Scientific Algorithm Discovery by Augmenting AlphaEvolve with Deep Research

ConstraintLLM: A Neuro-Symbolic Framework for Industrial-Level Constraint Programming

Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning

CoDA: Coding LM via Diffusion Adaptation

Fast-dLLM v2: Efficient Block-Diffusion LLM

Less is More: Recursive Reasoning with Tiny Networks

Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs

TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning

Hybrid Architectures for Language Models: Systematic Analysis and Design Insights

From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning

DreamOmni2: Multimodal Instruction-based Editing and Generation

VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning

UniVideo: Unified Understanding, Generation, and Editing for Videos

MemMamba: Rethinking Memory Patterns in State Space Model

MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization

PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning

Extract-0: A Specialized Language Model for Document Information Extraction

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild

Token-Aware Editing of Internal Activations for Large Language Model Alignment

Looking to Learn: Token-wise Dynamic Gating for Low-Resource Vision-Language Modelling

Agent Learning via Early Experience

MATRIX: Mask Track Alignment for Interaction-aware Video Generation

RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Qwen2.5 Technical Report

Scientific Algorithm Discovery by Augmenting AlphaEvolve with Deep Research

ConstraintLLM: A Neuro-Symbolic Framework for Industrial-Level Constraint Programming

Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning

CoDA: Coding LM via Diffusion Adaptation

Fast-dLLM v2: Efficient Block-Diffusion LLM

Less is More: Recursive Reasoning with Tiny Networks

Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs

TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning

Hybrid Architectures for Language Models: Systematic Analysis and Design Insights