HyperAI超神经

COOPER：面向空间智能的协同感知与推理统一模型

多模态

多任务学习

Zefeng Zhang, Xiangzhao Hao, Hengzhu Tang, et al.

从模仿到判别：迈向一种增强跨领域推理任务的通用课程优势机制

强化学习

LLM

Changpeng Yang, Jinyang Wu, Yuchen Liu, et al.

强化学习

文生图

Bowen Ping, Chengyou Jia, Minnan Luo, et al.

统一多模态

多任务学习

Xin He, Longhui Wei, Jianbo Ouyang, et al.

推理

图像生成

Hongyu Li, Manyuan Zhang, Dian Zheng, et al.

扩散模型

文生图

Zhenglin Cheng, Peng Sun, Jianguo Li, et al.

视频理解

数据集

Vida Adeli, Ivan Klabucar, Javad Rajabi, et al.

WenetSpeech-Chuan：一个用于方言语音处理的大规模四川话语料库，具有丰富的标注信息

音频和语音处理

数据集

Yuhang Dai, Ziyu Zhang, Shuai Wang, et al.

深度估计

语义分割

Ruyu Liu, Lin Wang, Zhou Mingming, et al.

多模态

计算机视觉

Jiyao Wang, Xiao Yang, Qingyong Hu, et al.

LLM

数据集

Liwei Jiang, Yuanjun Chai, Margaret Li, et al.

图像生成

文生图

Yiying Yang, Wei Cheng, Sijin Chen, et al.

推理

LLM

MohammadHossein Bateni, Vincent Cohen-Addad, Yuzhou Gu, et al.

机器人技术

强化学习

Chenhao Li, Andreas Krause, Marco Hutter

视频生成

扩散模型

Yunhong Lu, Yanhong Zeng, Haobo Li, et al.

扩散模型

图像生成

Yueming Pan, Ruoyu Feng, Qi Dai, et al.

Agent

偏好

Shengyuan Ding, Xinyu Fang, Ziyu Liu, et al.

Agent

LLM

Nex-AGI Team, Yuxuan Cai, Lu Chen, et al.

基准

Agent

Fangyu Lei, Jinxiang Meng, Yiming Huang, et al.

扩散模型

合成

Yubo Huang, Hailong Guo, Fangtai Wu, et al.

语音生成

Transformer

Yushen Chen, Zhikang Niu, Ziyang Ma, et al.

视频理解

目标检测

Yash Garg, Saketh Bachu, Arindam Dutta, et al.

推理

强化学习

NVIDIA, Yulong Cao, Tong Che, et al.

神经网络

Transformer

Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, et al.

文生图

扩散模型

Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, et al.

统一多模态

监督式微调

Siyuan Yang, Yang Zhang, Haoran He, et al.

视觉问答

多任务学习

Kaituo Feng, Manyuan Zhang, Hongyu Li, et al.

视频描述

多模态

Jiangtao Wu, Shihao Li, Zhaozhou Bian, et al.

强化学习

推理

Xingrun Xing, Zhiyuan Fan, Jie Lou, et al.

LLM

Transformer

Xiang Hu, Zhanchao Zhou, Ruiqi Liang, et al.

自动驾驶

合成

Haochen Tian, Tianyu Li, Haochen Liu, et al.

Skywork-R1V4：通过图像与DeepResearch的交织思维迈向智能多模态代理

Agent

检索增强生成

Yifan Zhang, Liang Hu, Haofeng Sun, et al.

COOPER：面向空间智能的协同感知与推理统一模型

多模态

多任务学习

Zefeng Zhang, Xiangzhao Hao, Hengzhu Tang, et al.

从模仿到判别：迈向一种增强跨领域推理任务的通用课程优势机制

强化学习

LLM

Changpeng Yang, Jinyang Wu, Yuchen Liu, et al.

强化学习

文生图

Bowen Ping, Chengyou Jia, Minnan Luo, et al.

统一多模态

多任务学习

Xin He, Longhui Wei, Jianbo Ouyang, et al.

推理

图像生成

Hongyu Li, Manyuan Zhang, Dian Zheng, et al.

扩散模型

文生图

Zhenglin Cheng, Peng Sun, Jianguo Li, et al.

视频理解

数据集

Vida Adeli, Ivan Klabucar, Javad Rajabi, et al.

音频和语音处理

数据集

Yuhang Dai, Ziyu Zhang, Shuai Wang, et al.

深度估计

语义分割

Ruyu Liu, Lin Wang, Zhou Mingming, et al.

多模态

计算机视觉

Jiyao Wang, Xiao Yang, Qingyong Hu, et al.

LLM

数据集

Liwei Jiang, Yuanjun Chai, Margaret Li, et al.

图像生成

文生图

Yiying Yang, Wei Cheng, Sijin Chen, et al.

推理

LLM

MohammadHossein Bateni, Vincent Cohen-Addad, Yuzhou Gu, et al.

机器人技术

强化学习

Chenhao Li, Andreas Krause, Marco Hutter

视频生成

扩散模型

Yunhong Lu, Yanhong Zeng, Haobo Li, et al.

扩散模型

图像生成

Yueming Pan, Ruoyu Feng, Qi Dai, et al.

Agent

偏好

Shengyuan Ding, Xinyu Fang, Ziyu Liu, et al.

Agent

LLM

Nex-AGI Team, Yuxuan Cai, Lu Chen, et al.

基准

Agent

Fangyu Lei, Jinxiang Meng, Yiming Huang, et al.

扩散模型

合成

Yubo Huang, Hailong Guo, Fangtai Wu, et al.

语音生成

Transformer

Yushen Chen, Zhikang Niu, Ziyang Ma, et al.

视频理解

目标检测

Yash Garg, Saketh Bachu, Arindam Dutta, et al.

推理

强化学习

NVIDIA, Yulong Cao, Tong Che, et al.

神经网络

Transformer

Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, et al.

文生图

扩散模型

Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, et al.

统一多模态

监督式微调

Siyuan Yang, Yang Zhang, Haoran He, et al.

视觉问答

多任务学习

Kaituo Feng, Manyuan Zhang, Hongyu Li, et al.

视频描述

多模态

Jiangtao Wu, Shihao Li, Zhaozhou Bian, et al.

强化学习

推理

Xingrun Xing, Zhiyuan Fan, Jie Lou, et al.

LLM

Transformer

Xiang Hu, Zhanchao Zhou, Ruiqi Liang, et al.

自动驾驶

合成

Haochen Tian, Tianyu Li, Haochen Liu, et al.

Agent

检索增强生成

Yifan Zhang, Liang Hu, Haofeng Sun, et al.

PaCo-RL：基于成对奖励建模的强化学习在一致图像生成中的应用进展

EMMA：基于统一架构的高效多模态理解、生成与编辑

EditThinker：解锁任意图像编辑器的迭代推理能力

TwinFlow：基于自对抗流实现大模型的一步生成

CARE-PD：用于帕金森病步态评估的多中心匿名临床数据集

WenetSpeech-Chuan：一个用于方言语音处理的大规模四川话语料库，具有丰富的标注信息

PolypSense3D：用于内窥镜深度感知息肉尺寸测量的多源基准数据集

PhysDrive：面向车载驾驶员监控的多模态远程生理测量数据集

人工蜂群智能：语言模型（及更广泛领域）的开放性同质性

OmniSVG：一种统一的可扩展矢量图形生成模型

算法思维理论

机器人世界模型：用于机器人鲁棒策略优化的神经网络模拟器

奖励强制：基于奖励分布匹配蒸馏的高效流式视频生成

语义引领方向：通过异步潜在扩散实现语义与纹理建模的协同

ARM-Thinker：通过智能体工具使用与视觉推理强化多模态生成式奖励模型

Nex-N1：通过统一生态系统训练的智能体模型，用于大规模环境构建

DAComp：面向数据智能全生命周期的数据Agent基准测试

实时虚拟形象：基于实时音频驱动的无限长度虚拟形象生成

F5-TTS：一种通过流匹配实现流畅且忠实语音伪造的童话讲述者

VOccl3D：一种用于真实遮挡下3D人体姿态与形状估计的视频基准数据集

Alpamayo-R1：面向长尾场景下可泛化的自动驾驶，连接推理与行为预测

环环相扣：一场关于测试时记忆、注意力偏差、保留与在线优化的探索之旅

重新思考文本到视觉生成中推理时扩展的提示设计

作为反探索的视觉-语言-动作模型引导：一种测试时扩展方法

OneThinker：面向图像与视频的全功能推理模型

ViDiC：视频差异描述

PretrainZero：强化主动预训练

每个Token都至关重要：在大型语言模型中泛化16M超长上下文

SimScale：通过大规模真实世界仿真学习驾驶

Skywork-R1V4：通过图像与DeepResearch的交织思维迈向智能多模态代理

PaCo-RL：基于成对奖励建模的强化学习在一致图像生成中的应用进展

EMMA：基于统一架构的高效多模态理解、生成与编辑

EditThinker：解锁任意图像编辑器的迭代推理能力

TwinFlow：基于自对抗流实现大模型的一步生成

CARE-PD：用于帕金森病步态评估的多中心匿名临床数据集

WenetSpeech-Chuan：一个用于方言语音处理的大规模四川话语料库，具有丰富的标注信息

PolypSense3D：用于内窥镜深度感知息肉尺寸测量的多源基准数据集

PhysDrive：面向车载驾驶员监控的多模态远程生理测量数据集

人工蜂群智能：语言模型（及更广泛领域）的开放性同质性

OmniSVG：一种统一的可扩展矢量图形生成模型

算法思维理论

机器人世界模型：用于机器人鲁棒策略优化的神经网络模拟器

奖励强制：基于奖励分布匹配蒸馏的高效流式视频生成

语义引领方向：通过异步潜在扩散实现语义与纹理建模的协同

ARM-Thinker：通过智能体工具使用与视觉推理强化多模态生成式奖励模型

Nex-N1：通过统一生态系统训练的智能体模型，用于大规模环境构建

DAComp：面向数据智能全生命周期的数据Agent基准测试

实时虚拟形象：基于实时音频驱动的无限长度虚拟形象生成

F5-TTS：一种通过流匹配实现流畅且忠实语音伪造的童话讲述者

VOccl3D：一种用于真实遮挡下3D人体姿态与形状估计的视频基准数据集

Alpamayo-R1：面向长尾场景下可泛化的自动驾驶，连接推理与行为预测

环环相扣：一场关于测试时记忆、注意力偏差、保留与在线优化的探索之旅

重新思考文本到视觉生成中推理时扩展的提示设计

作为反探索的视觉-语言-动作模型引导：一种测试时扩展方法

OneThinker：面向图像与视频的全功能推理模型

ViDiC：视频差异描述

PretrainZero：强化主动预训练

每个Token都至关重要：在大型语言模型中泛化16M超长上下文

SimScale：通过大规模真实世界仿真学习驾驶

Skywork-R1V4：通过图像与DeepResearch的交织思维迈向智能多模态代理

Command Palette

论文

Command Palette

论文

Command Palette

论文