HyperAI超神经

FashionChameleon：迈向实时且可交互的人-服装视频定制

视频生成

图生视频

Quanjian Song, Yefeng Shen, Mengting Chen, et al.

CiteVQA：用于可信文档智能的证据归因基准测试

文档理解

视觉问答

Dongsheng Ma, Jiayu Li, Zhengren Wang, et al.

Agent

多模态表征

Kangning Zhang, Shuai Shao, Qingyao Li, et al.

视觉问答

多模态表征

Shijie Lian, Bin Yu, Xiaopeng Lin, et al.

强化学习

LLM

Zikang Shan, Han Zhong, Liwei Wang, et al.

Agent

LLM

Sarkar Snigdha Sarathi Das, Palash Goyal, Mihir Parmar, et al.

Agent

多模态

Minghao Guo, Qingyue Jiao, Zeru Shi, et al.

扩散模型

视频生成

Haoyi Zhu, Haozhe Liu, Yuyang Zhao, et al.

多模态

视觉问答

Xiyu Ren, Zhaowei Wang, Yiming Du, et al.

强化学习

Agent

Zhengxi Lu, Zhiyuan Yao, Zhuowen Han, et al.

视频生成

扩散模型

Min Zhao, Hongzhou Zhu, Kaiwen Zheng, et al.

推理

模型训练

Yafu Li, Runzhe Zhan, Haoran Zhang, et al.

代码生成

LLM

Zhaoxi Zhang, Yiming Xu, Jiahui Liang, et al.

扩散模型

图像生成

Zekai Zhang, Deqing Li, Kuan Cao, et al.

LLM

Agent

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

多模态

视觉问答

Zhaowei Wang, Lishu Luo, Haodong Duan, et al.

扩散模型

视频生成

Yuchao Gu, Guian Fang, Yuxin Jiang, et al.

LLM

模型训练

Mind Lab, Song Cao, Vic Cao, et al.

多模态表征

多模态

Alan Arazi, Eilam Shapira, Shoham Grunblat, et al.

机器视觉 3D

视频处理

Lin-Zhuo Chen, Jian Gao, Yihang Chen, et al.

Nemotron-Cascade 2：使用级联强化学习与多域在线策略蒸馏的后训练 LLM

LLM

监督式微调

Zhuolin Yang, Zihan Liu, Yang Chen, et al.

Rafael Carrillo, René Duffard, Pablo García-Martín, et al.

LLM

Agent

Keisuke Kamahori, Shihang Li, Simon Peter, et al.

LLM

Transformer

Jingdi Lei, Di Zhang, Junxian Li, et al.

Agent

LLM

Giridhar Ganapavarapu, Dhaval Patel

强化学习

LLM

Wanli Yang, Hongyu Zang, Junwei Zhang, et al.

强化学习

深度学习

Jiafei Lyu, Zichuan Lin, Scott Fujimoto, et al.

LLM

Agent

Guinan Su, Yanwu Yang, Xueyan Li, et al.

强化学习

LLM

Yunho Choi, Jongwon Lim, Woojin Ahn, et al.

扩散模型

视频生成

Weiqing Xiao, Hong Li, Xiuyu Yang, et al.

LLM

Agent

Ruben Laukkonen, Seb Krier, Chloé Bakalar, et al.

FashionChameleon：迈向实时且可交互的人-服装视频定制

视频生成

图生视频

Quanjian Song, Yefeng Shen, Mengting Chen, et al.

CiteVQA：用于可信文档智能的证据归因基准测试

文档理解

视觉问答

Dongsheng Ma, Jiayu Li, Zhengren Wang, et al.

Agent

多模态表征

Kangning Zhang, Shuai Shao, Qingyao Li, et al.

视觉问答

多模态表征

Shijie Lian, Bin Yu, Xiaopeng Lin, et al.

强化学习

LLM

Zikang Shan, Han Zhong, Liwei Wang, et al.

Agent

LLM

Sarkar Snigdha Sarathi Das, Palash Goyal, Mihir Parmar, et al.

Agent

多模态

Minghao Guo, Qingyue Jiao, Zeru Shi, et al.

扩散模型

视频生成

Haoyi Zhu, Haozhe Liu, Yuyang Zhao, et al.

多模态

视觉问答

Xiyu Ren, Zhaowei Wang, Yiming Du, et al.

强化学习

Agent

Zhengxi Lu, Zhiyuan Yao, Zhuowen Han, et al.

视频生成

扩散模型

Min Zhao, Hongzhou Zhu, Kaiwen Zheng, et al.

推理

模型训练

Yafu Li, Runzhe Zhan, Haoran Zhang, et al.

代码生成

LLM

Zhaoxi Zhang, Yiming Xu, Jiahui Liang, et al.

扩散模型

图像生成

Zekai Zhang, Deqing Li, Kuan Cao, et al.

LLM

Agent

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

多模态

视觉问答

Zhaowei Wang, Lishu Luo, Haodong Duan, et al.

扩散模型

视频生成

Yuchao Gu, Guian Fang, Yuxin Jiang, et al.

LLM

模型训练

Mind Lab, Song Cao, Vic Cao, et al.

多模态表征

多模态

Alan Arazi, Eilam Shapira, Shoham Grunblat, et al.

机器视觉 3D

视频处理

Lin-Zhuo Chen, Jian Gao, Yihang Chen, et al.

LLM

监督式微调

Zhuolin Yang, Zihan Liu, Yang Chen, et al.

Rafael Carrillo, René Duffard, Pablo García-Martín, et al.

LLM

Agent

Keisuke Kamahori, Shihang Li, Simon Peter, et al.

LLM

Transformer

Jingdi Lei, Di Zhang, Junxian Li, et al.

Agent

LLM

Giridhar Ganapavarapu, Dhaval Patel

强化学习

LLM

Wanli Yang, Hongyu Zang, Junwei Zhang, et al.

强化学习

深度学习

Jiafei Lyu, Zichuan Lin, Scott Fujimoto, et al.

LLM

Agent

Guinan Su, Yanwu Yang, Xueyan Li, et al.

强化学习

LLM

Yunho Choi, Jongwon Lim, Woojin Ahn, et al.

扩散模型

视频生成

Weiqing Xiao, Hong Li, Xiuyu Yang, et al.

LLM

Agent

Ruben Laukkonen, Seb Krier, Chloé Bakalar, et al.

MMSkills：迈向通用视觉 Agent 的多模态技能

PhysBrain 1.0 技术报告

将价值模型重新引入：大语言模型强化学习中的生成式批判家用于价值建模

NEXUS：一种用于时间序列预测的智能体框架

MemEye：面向多模态 Agent 记忆的以视觉为中心的评价框架

SANA-WM：基于混合线性扩散Transformer的高效分钟级世界模型

MemLens：大视觉-语言模型中多模态长期记忆的基准测试

自蒸馏式 Agent 强化学习

因果强制++：用于实时交互式视频生成的可扩展少步自回归扩散蒸馏

通过简单且统一的缩放实现金牌级奥林匹克推理

RepoZero：大语言模型能否从零开始生成代码仓库？

Qwen-Image-VAE-2.0 技术报告

通过文本-表格建模从有限交互中预测 AI Agent 的决策

高效训练长上下文视觉语言模型：实现超越 128K 上下文的泛化能力

AnyFlow：具有在线策略流映射蒸馏的任意步视频扩散模型

MinT：用于训练和服务数百万大语言模型的托管基础设施

MulTaBench：基于文本和图像的多模态表格学习基准测试

面向流式3D重建的几何上下文Transformer

Nemotron-Cascade 2：使用级联强化学习与多域在线策略蒸馏的后训练 LLM

MOSS-TTS 技术报告

StreakMind：利用自动化数据库集成进行天文图像中卫星条纹的AI检测与分析

VibeServe：AI代理能否构建定制化的大型语言模型服务系统？

delta-mem：大型语言模型的高效在线记忆机制

MCP-Cosmos：用于在 MCP 环境中执行复杂任务的、由世界模型增强的 Agent

超越推理：强化学习解锁大语言模型中的参数化知识

用于样本高效连续控制的去偏模型表示

多流大语言模型：通过并行思维、输入和输出流解锁大语言模型

你的语言模型是其自身的评论家：基于 Actor 内部状态的价值估计的强化学习

Relit-LiVE：通过联合学习环境视频实现视频重光照

积极对齐：人工智能助力人类繁荣

MMSkills：迈向通用视觉 Agent 的多模态技能

PhysBrain 1.0 技术报告

将价值模型重新引入：大语言模型强化学习中的生成式批判家用于价值建模

NEXUS：一种用于时间序列预测的智能体框架

MemEye：面向多模态 Agent 记忆的以视觉为中心的评价框架

SANA-WM：基于混合线性扩散Transformer的高效分钟级世界模型

MemLens：大视觉-语言模型中多模态长期记忆的基准测试

自蒸馏式 Agent 强化学习

因果强制++：用于实时交互式视频生成的可扩展少步自回归扩散蒸馏

通过简单且统一的缩放实现金牌级奥林匹克推理

RepoZero：大语言模型能否从零开始生成代码仓库？

Qwen-Image-VAE-2.0 技术报告

通过文本-表格建模从有限交互中预测 AI Agent 的决策

高效训练长上下文视觉语言模型：实现超越 128K 上下文的泛化能力

AnyFlow：具有在线策略流映射蒸馏的任意步视频扩散模型

MinT：用于训练和服务数百万大语言模型的托管基础设施

MulTaBench：基于文本和图像的多模态表格学习基准测试

面向流式3D重建的几何上下文Transformer

Nemotron-Cascade 2：使用级联强化学习与多域在线策略蒸馏的后训练 LLM

MOSS-TTS 技术报告

StreakMind：利用自动化数据库集成进行天文图像中卫星条纹的AI检测与分析

VibeServe：AI代理能否构建定制化的大型语言模型服务系统？

delta-mem：大型语言模型的高效在线记忆机制

MCP-Cosmos：用于在 MCP 环境中执行复杂任务的、由世界模型增强的 Agent

超越推理：强化学习解锁大语言模型中的参数化知识

用于样本高效连续控制的去偏模型表示

多流大语言模型：通过并行思维、输入和输出流解锁大语言模型

你的语言模型是其自身的评论家：基于 Actor 内部状态的价值估计的强化学习

Relit-LiVE：通过联合学习环境视频实现视频重光照

积极对齐：人工智能助力人类繁荣

Command Palette

论文

Command Palette

论文

Command Palette

论文