HyperAI超神经

基于分解视觉代理的直接3D感知物体插入

扩散模型

图像生成

Jingbo Gong, Yikai Wang, Yushi Lan, et al.

AnchorWorld：基于视角演化定制的具身自我中心世界仿真

具身智能

3D 生成

Yu Li, Menghan Xia, Gongye Liu, et al.

LLM

Agent

Taewon Yun, Hyeonseong Park, Jeonghwan Choi, et al.

音频和语音处理

多模态

Ziyang Ma, Ruiqi Yan, Ruiyang Xu, et al.

LLM

Songhao Wu, Zhongxin Chen, Yuxuan Liu, et al.

扩散模型

文生图

Liangsi Lu, Xuhang Chen, Minzhe Guo, et al.

Agent

多模态

Loïc Magne, Anas Awadalla, Guanzhi Wang, et al.

深度估计

机器视觉 3D

Chuhan Zhang, Guillaume Le Moing, Skanda Koppula, et al.

Continual Learning Bench: 评估前沿 AI 系统在真实世界有状态环境中的表现

基准

LLM

Parth Asawa, Christopher M. Glaze, Gabriel Orlanski, et al.

Transformer

深度学习

Ali Behrouz, Zeman Li, Yuan Deng, et al.

机器人技术

基准

Jongwook Han, Hyeongjin Kim, Yohan Jo

视频理解

视觉问答

Lin Fu, Zheyuan Yang, Yang Wang, et al.

Agent

LLM

Jiayu Liu, Cheng Qian, Zhenhailong Wang, et al.

Agent

LLM

Soyeong Jeong, Jinheon Baek, Minki Kang, et al.

Agent

LLM

Woojung Song, Nalim Kim, Sangjun Song, et al.

代码生成

LLM

Liliana Hotsko, Yinxi Li, Yuntian Deng, et al.

强化学习

LLM

Yifeng Liu, Shiyouan Zhang, Yifan Zhang, et al.

LLM

推理

Iman Mirzadeh, Keivan Alizadeh, Oncel Tuzel, et al.

MUSE-Autoskill：通过技能创建、记忆、管理与评估实现自我进化的智能体

Agent

LLM

Huawei Lin, Peng Li, Jie Song, et al.

Nemotron 3 Ultra：用于智能体推理的开放、高效混合专家混合 Mamba-Transformer 模型

LLM

Agent

Akter et al., Xiao et al., Liu et al., et al.

文生图

图像生成

Tianhe Wu, Kun Yan, Zikai Zhou, et al.

多模态

视频理解

Yifei Li, Pengyiang Liu, Yuhang Zang, et al.

强化学习

LLM

Xuekang Wang, Zhuoyuan Hao, Shuo Hou, et al.

Agent

LLM

Jiaming Wang, Ziteng Feng, Jiangtao Wu, et al.

LLM

音频和语音处理

Zhifei Xie, Zihang Liu, Ze An, et al.

多模态

统一多模态

Aditi, Niket Agarwal, Arslan Ali, et al.

监督式微调

模型训练

Rishabh Tiwari, Kusha Sareen, Lakshya A Agrawal, et al.

LLM

文本生成

Po-Nien Kung, Linfeng Song, Dawsen Hwang, et al.

多模态

视觉问答

Yucheng Zhou, Wei Tao, Yiwen Guo, et al.

图像生成

多模态表征

Yuval Golbari, Navve Wasserman, Matias Cosarinsky, et al.

强化学习

LLM

Lei Yang, Siyu Ding, Deyi Xiong

LLM

目标跟踪

Zekun Qi, Xuchuan Chen, Dairu Liu, et al.

基于分解视觉代理的直接3D感知物体插入

扩散模型

图像生成

Jingbo Gong, Yikai Wang, Yushi Lan, et al.

AnchorWorld：基于视角演化定制的具身自我中心世界仿真

具身智能

3D 生成

Yu Li, Menghan Xia, Gongye Liu, et al.

LLM

Agent

Taewon Yun, Hyeonseong Park, Jeonghwan Choi, et al.

音频和语音处理

多模态

Ziyang Ma, Ruiqi Yan, Ruiyang Xu, et al.

LLM

Songhao Wu, Zhongxin Chen, Yuxuan Liu, et al.

扩散模型

文生图

Liangsi Lu, Xuhang Chen, Minzhe Guo, et al.

Agent

多模态

Loïc Magne, Anas Awadalla, Guanzhi Wang, et al.

深度估计

机器视觉 3D

Chuhan Zhang, Guillaume Le Moing, Skanda Koppula, et al.

基准

LLM

Parth Asawa, Christopher M. Glaze, Gabriel Orlanski, et al.

Transformer

深度学习

Ali Behrouz, Zeman Li, Yuan Deng, et al.

机器人技术

基准

Jongwook Han, Hyeongjin Kim, Yohan Jo

视频理解

视觉问答

Lin Fu, Zheyuan Yang, Yang Wang, et al.

Agent

LLM

Jiayu Liu, Cheng Qian, Zhenhailong Wang, et al.

Agent

LLM

Soyeong Jeong, Jinheon Baek, Minki Kang, et al.

Agent

LLM

Woojung Song, Nalim Kim, Sangjun Song, et al.

代码生成

LLM

Liliana Hotsko, Yinxi Li, Yuntian Deng, et al.

强化学习

LLM

Yifeng Liu, Shiyouan Zhang, Yifan Zhang, et al.

LLM

推理

Iman Mirzadeh, Keivan Alizadeh, Oncel Tuzel, et al.

Agent

LLM

Huawei Lin, Peng Li, Jie Song, et al.

LLM

Agent

Akter et al., Xiao et al., Liu et al., et al.

文生图

图像生成

Tianhe Wu, Kun Yan, Zikai Zhou, et al.

多模态

视频理解

Yifei Li, Pengyiang Liu, Yuhang Zang, et al.

强化学习

LLM

Xuekang Wang, Zhuoyuan Hao, Shuo Hou, et al.

Agent

LLM

Jiaming Wang, Ziteng Feng, Jiangtao Wu, et al.

LLM

音频和语音处理

Zhifei Xie, Zihang Liu, Ze An, et al.

多模态

统一多模态

Aditi, Niket Agarwal, Arslan Ali, et al.

监督式微调

模型训练

Rishabh Tiwari, Kusha Sareen, Lakshya A Agrawal, et al.

LLM

文本生成

Po-Nien Kung, Linfeng Song, Dawsen Hwang, et al.

多模态

视觉问答

Yucheng Zhou, Wei Tao, Yiwen Guo, et al.

图像生成

多模态表征

Yuval Golbari, Navve Wasserman, Matias Cosarinsky, et al.

强化学习

LLM

Lei Yang, Siyu Ding, Deyi Xiong

LLM

目标跟踪

Zekun Qi, Xuchuan Chen, Dairu Liu, et al.

SoCRATES：迈向跨领域与社会认知差异的大语言模型主动调解的可靠自动化评估

MMAE：一个大规模多任务音频编辑基准

你的未嵌入矩阵实际上是文本嵌入的特征透镜

ChordEdit：一种面向图像编辑的单步低能耗传输方法

NitroGen：一个面向通用游戏智能体的开源基础模型

高效地以每次一个 D4RT 的方式重建动态场景

Continual Learning Bench: 评估前沿 AI 系统在真实世界有状态环境中的表现

记忆缓存：具有增长式记忆能力的 RNN

RobotValues：当人类价值观冲突时评估家用机器人

VideoKR：迈向知识与推理密集型的视频理解

AdaPlanBench：评估世界与用户约束下大语言模型 Agent 的自适应规划

TIDE：基于模板引导迭代的主动多问题发现

ArcANE：角色扮演语言 Agent 是否在正确的时间保持角色？

Code2LoRA：软件演化下代码语言模型的超网络生成适配器

自蒸馏策略梯度

GSM-Symbolic：理解大语言模型在数学推理中的局限性

MUSE-Autoskill：通过技能创建、记忆、管理与评估实现自我进化的智能体

Nemotron 3 Ultra：用于智能体推理的开放、高效混合专家混合 Mamba-Transformer 模型

Qwen-Image-Flash：超越目标设计

OVO-S-Bench：面向多模态大语言模型流式空间智能的分层基准

复现、分析与检测基于评分标准的强化学习中的奖励黑客攻击

深度研究 Agents 在哪里出错？Agent 轨迹中的跨度级错误定位

音频交互模型

Cosmos 3：面向物理AI的全模态世界模型

学习与快慢思维：迈向具备持续适应能力的 LLM

LEAP：利用智能体框架为大型语言模型在形式化数学领域的赋能增效

世界模型遇见语言模型：论具体与抽象推理的互补性

从激活到因果：人类大脑中因果视觉表征的发现

一种用于多域强化学习中跨域干扰与恢复的局部扰动理论

人形-GPT：用于零样本运动跟踪的数据与结构扩展

SoCRATES：迈向跨领域与社会认知差异的大语言模型主动调解的可靠自动化评估

MMAE：一个大规模多任务音频编辑基准

你的未嵌入矩阵实际上是文本嵌入的特征透镜

ChordEdit：一种面向图像编辑的单步低能耗传输方法

NitroGen：一个面向通用游戏智能体的开源基础模型

高效地以每次一个 D4RT 的方式重建动态场景

Continual Learning Bench: 评估前沿 AI 系统在真实世界有状态环境中的表现

记忆缓存：具有增长式记忆能力的 RNN

RobotValues：当人类价值观冲突时评估家用机器人

VideoKR：迈向知识与推理密集型的视频理解

AdaPlanBench：评估世界与用户约束下大语言模型 Agent 的自适应规划

TIDE：基于模板引导迭代的主动多问题发现

ArcANE：角色扮演语言 Agent 是否在正确的时间保持角色？

Code2LoRA：软件演化下代码语言模型的超网络生成适配器

自蒸馏策略梯度

GSM-Symbolic：理解大语言模型在数学推理中的局限性

MUSE-Autoskill：通过技能创建、记忆、管理与评估实现自我进化的智能体

Nemotron 3 Ultra：用于智能体推理的开放、高效混合专家混合 Mamba-Transformer 模型

Qwen-Image-Flash：超越目标设计

OVO-S-Bench：面向多模态大语言模型流式空间智能的分层基准

复现、分析与检测基于评分标准的强化学习中的奖励黑客攻击

深度研究 Agents 在哪里出错？Agent 轨迹中的跨度级错误定位

音频交互模型

Cosmos 3：面向物理AI的全模态世界模型

学习与快慢思维：迈向具备持续适应能力的 LLM

LEAP：利用智能体框架为大型语言模型在形式化数学领域的赋能增效

世界模型遇见语言模型：论具体与抽象推理的互补性

从激活到因果：人类大脑中因果视觉表征的发现

一种用于多域强化学习中跨域干扰与恢复的局部扰动理论

人形-GPT：用于零样本运动跟踪的数据与结构扩展

Command Palette

论文

Command Palette

论文

Command Palette

论文