HyperAI超神经

Transformers 中的 Attention Sink：关于其利用、解释与缓解的研究综述

Transformer

深度学习

Zunhai Su, Hengyuan Zhang, Wei Wu, et al.

OmniShow: 统一用于 Human-Object Interaction 视频生成的 Multimodal Conditions

视频生成

多模态

Donghao Zhou, Guisheng Liu, Hao Yang, et al.

往事并非过往：基于 Memory 增强的 Dynamic Reward Shaping

强化学习

LLM

Yang Liu, Enxi Wang, Yufei Gao, et al.

代码生成

LLM

Ali Slim, Haydar Hamieh, Jawad Kotaich, et al.

图像生成

视频生成

Sahil Goyal, Swayam Agrawal, Gautham Govind, et al.

ECHO: 基于 One-step Block Diffusion 的高效胸部 X 线报告生成

扩散模型

文本生成

Lifeng Chen, Tianqi You, Hao Liu, et al.

Matrix-Game 3.0：具有长时程 Memory 的实时流式交互式 World Model

Zile Wang, Zexiang Liu, Jaixing Li, et al.

多模态

LLM

Eunbi Choi, Kibong Choi, Sehyun Chun, et al.

RefineAnything: 用于完美局部细节的多模态区域特定 Refinement

扩散模型

图生图

Dewei Zhou, You Li, Zongxin Yang, et al.

多模态

机器视觉

Xiangru Jian, Hao Xu, Wei Pang, et al.

WildDet3D: 在野外环境下扩展 Promptable 3D Detection

机器视觉 3D

目标检测

Weikai Huang, Jieyu Zhang, Sijun Li, et al.

Yanwen Zou, Chenyang Shi, Wenyu Yu, et al.

MegaStyle：通过一致性 Text-to-Image Style Mapping 构建多样化且可扩展的 Style Dataset

Junyao Gao, Sibo Liu, Jiaxing Li, et al.

当数字开口说话：在 Text-to-Video Diffusion Models 中对齐文本数字与视觉实例

文生视频

扩散模型

Zhengyang Sun, Yu Chen, Xin Zhou, et al.

Agent

具身智能

Tencent Robotics X, HY Vision Team, Xumin Yu, et al.

Agent

基准

Yuxuan Zhang, Yubo Wang, Yipeng Zhu, et al.

监督式微调

LLM

Qihan Ren, Peng Wang, Ruikun Cai, et al.

Agent

LLM

Ziyu Ma, Shidong Yang, Yuxiang Ji, et al.

文档理解

OCR

Zhang Li, Zhibo Lin, Qiang Liu, et al.

图像生成

深度学习

Teng Li, Ziyuan Huang, Cong Chen, et al.

INSPATIO-WORLD：一种基于时空 Autoregressive Modeling 的实时 4D 世界 Simulator

视频生成

3D 生成

InSpatio Team, Donghui Shen, Guofeng Zhang, et al.

FlowInOne: 将多模态生成统一为“图像输入、图像输出”的 Flow Matching

Junchao Yi, Rui Zhao, Jiahao Tang, et al.

MARS：赋能 Autoregressive Models 的 Multi-Token Generation

文本生成

LLM

Ziqi Jin, Lei Wang, Ziwei Luo, et al.

文生图

图像生成

Lei Zhang, Junjiao Tian, Zhipeng Fan, et al.

Agent

推理

Zihan Wang, Chi Gui, Xing Jin, et al.

图生视频

扩散模型

Hyunsoo Cha, Wonjung Woo, Byungjun Kim, et al.

ThinkTwice：面向推理与自我修正的 Large Language Models 联合优化研究

模型训练

LLM

Difan Jiao, Qianfeng Wen, Blair Yang, et al.

代码生成

LLM

Hui Sun, Yun-Ji Zhang, Zheng Xie, et al.

Agent

检索增强生成

Yuqi Zhou, Sunhao Dai, Changle Qu, et al.

Agent

基准

Bowen Ye, Rang Li, Qibin Yang, et al.

视频理解

视觉问答

Chaoyou Fu, Haozhi Yuan, Yuhao Dong, et al.

Transformers 中的 Attention Sink：关于其利用、解释与缓解的研究综述

Transformer

深度学习

Zunhai Su, Hengyuan Zhang, Wei Wu, et al.

OmniShow: 统一用于 Human-Object Interaction 视频生成的 Multimodal Conditions

视频生成

多模态

Donghao Zhou, Guisheng Liu, Hao Yang, et al.

强化学习

LLM

Yang Liu, Enxi Wang, Yufei Gao, et al.

代码生成

LLM

Ali Slim, Haydar Hamieh, Jawad Kotaich, et al.

图像生成

视频生成

Sahil Goyal, Swayam Agrawal, Gautham Govind, et al.

扩散模型

文本生成

Lifeng Chen, Tianqi You, Hao Liu, et al.

Zile Wang, Zexiang Liu, Jaixing Li, et al.

多模态

LLM

Eunbi Choi, Kibong Choi, Sehyun Chun, et al.

扩散模型

图生图

Dewei Zhou, You Li, Zongxin Yang, et al.

多模态

机器视觉

Xiangru Jian, Hao Xu, Wei Pang, et al.

机器视觉 3D

目标检测

Weikai Huang, Jieyu Zhang, Sijun Li, et al.

Yanwen Zou, Chenyang Shi, Wenyu Yu, et al.

Junyao Gao, Sibo Liu, Jiaxing Li, et al.

文生视频

扩散模型

Zhengyang Sun, Yu Chen, Xin Zhou, et al.

Agent

具身智能

Tencent Robotics X, HY Vision Team, Xumin Yu, et al.

Agent

基准

Yuxuan Zhang, Yubo Wang, Yipeng Zhu, et al.

监督式微调

LLM

Qihan Ren, Peng Wang, Ruikun Cai, et al.

Agent

LLM

Ziyu Ma, Shidong Yang, Yuxiang Ji, et al.

文档理解

OCR

Zhang Li, Zhibo Lin, Qiang Liu, et al.

图像生成

深度学习

Teng Li, Ziyuan Huang, Cong Chen, et al.

视频生成

3D 生成

InSpatio Team, Donghui Shen, Guofeng Zhang, et al.

Junchao Yi, Rui Zhao, Jiahao Tang, et al.

文本生成

LLM

Ziqi Jin, Lei Wang, Ziwei Luo, et al.

文生图

图像生成

Lei Zhang, Junjiao Tian, Zhipeng Fan, et al.

Agent

推理

Zihan Wang, Chi Gui, Xing Jin, et al.

图生视频

扩散模型

Hyunsoo Cha, Wonjung Woo, Byungjun Kim, et al.

模型训练

LLM

Difan Jiao, Qianfeng Wen, Blair Yang, et al.

代码生成

LLM

Hui Sun, Yun-Ji Zhang, Zheng Xie, et al.

Agent

检索增强生成

Yuqi Zhou, Sunhao Dai, Changle Qu, et al.

Agent

基准

Bowen Ye, Rang Li, Qibin Yang, et al.

视频理解

视觉问答

Chaoyou Fu, Haozhi Yuan, Yuhao Dong, et al.

往事并非过往：基于 Memory 增强的 Dynamic Reward Shaping

QuanBench+: 一个用于 LLM-Based 量子代码生成的统一多框架 benchmark

ELT：用于视觉生成的弹性循环Transformer

ECHO: 基于 One-step Block Diffusion 的高效胸部 X 线报告生成

Matrix-Game 3.0：具有长时程 Memory 的实时流式交互式 World Model

EXAONE 4.5 技术报告

RefineAnything: 用于完美局部细节的多模态区域特定 Refinement

FORGE：面向制造场景的细粒度 Multimodal Evaluation

WildDet3D: 在野外环境下扩展 Promptable 3D Detection

Autoreason: 知晓何时停止的自我修正机制

ActiveGlasses: 通过主动视觉从自我中心视角人类演示中学习操纵技能

MegaStyle：通过一致性 Text-to-Image Style Mapping 构建多样化且可扩展的 Style Dataset

当数字开口说话：在 Text-to-Video Diffusion Models 中对齐文本数字与视觉实例

HY-Embodied-0.5：面向真实世界 Agent 的 Embodied Foundation Models

ClawBench：AI Agent 能否完成日常在线任务？

重新审视推理 SFT 中的泛化问题：基于优化、数据与模型能力的条件分析

SkillClaw：通过 Agentic Evolver 实现技能的集体进化

MDPBench：面向真实场景的多语言文档解析基准测试

TC-AE：解锁深度压缩 Autoencoders 的 Token 容量

INSPATIO-WORLD：一种基于时空 Autoregressive Modeling 的实时 4D 世界 Simulator

FlowInOne: 将多模态生成统一为“图像输入、图像输出”的 Flow Matching

MARS：赋能 Autoregressive Models 的 Multi-Token Generation

以笔触而非像素进行思考：通过交织推理实现的流程驱动型图像生成

RAGEN-2：Agentic RL 中的推理崩溃

Vanast: 通过合成三元组监督实现基于人体图像动画的虚拟试穿

ThinkTwice：面向推理与自我修正的 Large Language Models 联合优化研究

ACES：谁在测试测试集？面向代码生成任务的留一法（Leave-One-Out）AUC 一致性研究

从 Agent Trajectories 中学习检索

Claw-Eval：迈向自主 Agent 的可信 Evaluation

Video-MME-v2：迈向全面视频理解 Benchmark 的下一阶段

往事并非过往：基于 Memory 增强的 Dynamic Reward Shaping

QuanBench+: 一个用于 LLM-Based 量子代码生成的统一多框架 benchmark

ELT：用于视觉生成的弹性循环Transformer

ECHO: 基于 One-step Block Diffusion 的高效胸部 X 线报告生成

Matrix-Game 3.0：具有长时程 Memory 的实时流式交互式 World Model

EXAONE 4.5 技术报告

RefineAnything: 用于完美局部细节的多模态区域特定 Refinement

FORGE：面向制造场景的细粒度 Multimodal Evaluation

WildDet3D: 在野外环境下扩展 Promptable 3D Detection

Autoreason: 知晓何时停止的自我修正机制

ActiveGlasses: 通过主动视觉从自我中心视角人类演示中学习操纵技能

MegaStyle：通过一致性 Text-to-Image Style Mapping 构建多样化且可扩展的 Style Dataset

当数字开口说话：在 Text-to-Video Diffusion Models 中对齐文本数字与视觉实例

HY-Embodied-0.5：面向真实世界 Agent 的 Embodied Foundation Models

ClawBench：AI Agent 能否完成日常在线任务？

重新审视推理 SFT 中的泛化问题：基于优化、数据与模型能力的条件分析

SkillClaw：通过 Agentic Evolver 实现技能的集体进化

MDPBench：面向真实场景的多语言文档解析基准测试

TC-AE：解锁深度压缩 Autoencoders 的 Token 容量

INSPATIO-WORLD：一种基于时空 Autoregressive Modeling 的实时 4D 世界 Simulator

FlowInOne: 将多模态生成统一为“图像输入、图像输出”的 Flow Matching

MARS：赋能 Autoregressive Models 的 Multi-Token Generation

以笔触而非像素进行思考：通过交织推理实现的流程驱动型图像生成

RAGEN-2：Agentic RL 中的推理崩溃

Vanast: 通过合成三元组监督实现基于人体图像动画的虚拟试穿

ThinkTwice：面向推理与自我修正的 Large Language Models 联合优化研究

ACES：谁在测试测试集？面向代码生成任务的留一法（Leave-One-Out）AUC 一致性研究

从 Agent Trajectories 中学习检索

Claw-Eval：迈向自主 Agent 的可信 Evaluation

Video-MME-v2：迈向全面视频理解 Benchmark 的下一阶段

Command Palette

论文

Command Palette

论文

Command Palette

论文