HyperAI超神经

TalkVid：一个大规模多样化音频驱动说话头合成数据集

统一多模态

数据集

Shunian Chen, Hejin Huang, Yexin Liu, et al.

Droplet3D：来自视频的常识先验促进3D生成

3D 生成

视频理解

Xiaochuan Li, Guoguang Du, Runze Zhang, et al.

代码生成

基准

Keke Lian, Bin Wang, Lei Zhang, et al.

EmbodiedOneVision：面向通用机器人控制的交织视觉-文本-动作预训练

Agent

具身智能

Delin Qu, Haoming Song, Qizhi Chen, et al.

多模态

推理

Jie Jiang, Qi Yang, Bolin Ni, et al.

监督式微调

偏好

Xiaolong Wei, Bo Lu, Xingyu Zhang, et al.

计算机视觉

图像理解

Jiawei Liu, Jiahe Hou, Wei Wang, et al.

LLM

监督式微调

Samuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, et al.

Agent

基准

Chengyue Yu, Siyuan Lu, Chenyi Zhuang, et al.

基准

Agent

Zhenting Wang, Qi Chang, Hemani Patel, et al.

Agent

强化学习

Ning Shang, Yifei Liu, Yi Zhu, et al.

文生图

偏好

Yibin Wang, Zhimin Li, Yuhang Zang, et al.

多模态

图像描述

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, et al.

Konstantin Egorov, Stepan Botman, Pavel Blinov, et al.

Transformer

模型训练

Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji

文生视频

统一多模态

Ming Chen, Liyuan Cui, Wenyuan Zhang, et al.

扩散模型

Transformer

Zhixuan Liang, Yizhuo Li, Tianshuo Yang, et al.

视觉问答

推理

Zongxia Li, Wenhao Yu, Chengsong Huang, et al.

Transformer

深度学习

Neta Glazer, Yael Segal-Feldman, Hilit Segev, et al.

Agent

强化学习

Zeyi Sun, Yuhang Cao, Jianze Liang, et al.

Agent

统一多模态

Tanvir Bhathal, Asanshay Gupta

Transformer

LLM

Zihao Huang, Yu Bao, Qiyang Min, et al.

推理

LLM

Ryan Teknium, Roger Jin, Jai Suphavadeeprasit, et al.

多模态表征

语音生成

Jianwen Jiang, Weihong Zeng, Zerong Zheng, et al.

3D 生成

扩散模型

Lin Li, Zehuan Huang, Haoran Feng, et al.

基准

LLM

Weida Wang, Dongchen Huang, Jiatong Li, et al.

强化学习

推理

Yizhi Li, Qingshui Gu, Zhoufutu Wen, et al.

LLM

数学

Rabeeh Karimi Mahabadi, Sanjeev Satheesh, Shrimai Prabhumoye, et al.

推理

LLM

Heng Lin, Zhongwen Xu

LLM

文本生成

Minhyeong Lee, Suyoung Hwang, Seunghyun Moon, et al.

LLM

Transformer

Ivan Rodkin, Daniil Orel, Konstantin Smirnov, et al.

TalkVid：一个大规模多样化音频驱动说话头合成数据集

统一多模态

数据集

Shunian Chen, Hejin Huang, Yexin Liu, et al.

Droplet3D：来自视频的常识先验促进3D生成

3D 生成

视频理解

Xiaochuan Li, Guoguang Du, Runze Zhang, et al.

代码生成

基准

Keke Lian, Bin Wang, Lei Zhang, et al.

Agent

具身智能

Delin Qu, Haoming Song, Qizhi Chen, et al.

多模态

推理

Jie Jiang, Qi Yang, Bolin Ni, et al.

监督式微调

偏好

Xiaolong Wei, Bo Lu, Xingyu Zhang, et al.

计算机视觉

图像理解

Jiawei Liu, Jiahe Hou, Wei Wang, et al.

LLM

监督式微调

Samuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, et al.

Agent

基准

Chengyue Yu, Siyuan Lu, Chenyi Zhuang, et al.

基准

Agent

Zhenting Wang, Qi Chang, Hemani Patel, et al.

Agent

强化学习

Ning Shang, Yifei Liu, Yi Zhu, et al.

文生图

偏好

Yibin Wang, Zhimin Li, Yuhang Zang, et al.

多模态

图像描述

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, et al.

Konstantin Egorov, Stepan Botman, Pavel Blinov, et al.

Transformer

模型训练

Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji

文生视频

统一多模态

Ming Chen, Liyuan Cui, Wenyuan Zhang, et al.

扩散模型

Transformer

Zhixuan Liang, Yizhuo Li, Tianshuo Yang, et al.

视觉问答

推理

Zongxia Li, Wenhao Yu, Chengsong Huang, et al.

Transformer

深度学习

Neta Glazer, Yael Segal-Feldman, Hilit Segev, et al.

Agent

强化学习

Zeyi Sun, Yuhang Cao, Jianze Liang, et al.

Agent

统一多模态

Tanvir Bhathal, Asanshay Gupta

Transformer

LLM

Zihao Huang, Yu Bao, Qiyang Min, et al.

推理

LLM

Ryan Teknium, Roger Jin, Jai Suphavadeeprasit, et al.

多模态表征

语音生成

Jianwen Jiang, Weihong Zeng, Zerong Zheng, et al.

3D 生成

扩散模型

Lin Li, Zehuan Huang, Haoran Feng, et al.

基准

LLM

Weida Wang, Dongchen Huang, Jiatong Li, et al.

强化学习

推理

Yizhi Li, Qingshui Gu, Zhoufutu Wen, et al.

LLM

数学

Rabeeh Karimi Mahabadi, Sanjeev Satheesh, Shrimai Prabhumoye, et al.

推理

LLM

Heng Lin, Zhongwen Xu

LLM

文本生成

Minhyeong Lee, Suyoung Hwang, Seunghyun Moon, et al.

LLM

Transformer

Ivan Rodkin, Daniil Orel, Konstantin Smirnov, et al.

A.S.E：面向AI生成代码安全性的仓库级基准测试

EmbodiedOneVision：面向通用机器人控制的交织视觉-文本-动作预训练

R-4B：通过双模式退火与强化学习激励多模态大模型的通用自动思考能力

激发小规模语言模型的创意写作：基于LLM的评判与多智能体精炼奖励

TMUAD：通过文本记忆库增强统一异常检测模型的逻辑能力

思维链动态分析：主动引导还是不忠实的事后合理化？

AWorld：面向智能体AI训练配方的编排

MCP-Bench：通过MCP服务器对复杂现实世界任务中使用工具的LLM Agent进行基准测试

rStar2-Agent：代理式推理技术报告

Pref-GRPO：基于成对偏好奖励的GRPO用于稳定文本到图像强化学习

MobileCLIP2：提升多模态强化训练

AI-AI 审美协作：显式符号学意识与涌现语法发展

凝视心灵：用于rPPG与健康生物标志物估计的多视角视频数据集

预测下一个标记的顺序可提升语言建模性能

MIDAS：通过实时自回归视频生成实现的多模态交互式数字人合成

离散扩散VLA：将离散扩散引入视觉-语言-动作策略中的动作解码

通过推理分解的自奖励视觉-语言模型

超越转录：自动语音识别中的机制可解释性

CODA：面向解耦强化学习的双脑计算机使用Agent中大脑与小脑的协同机制

WebSight：一种面向视觉的鲁棒网络智能体架构

UltraMemV2：面向120B参数的内存网络，具备卓越的长上下文学习能力

Hermes 4 技术报告

OmniHuman-1.5：通过认知模拟为虚拟化身注入主动思维

VoxHammer：无需训练的原生3D空间中精确且连贯的3D编辑

CMPhysBench：用于评估大语言模型在凝聚态物理领域性能的基准测试

TreePO：基于启发式树建模弥合策略优化与有效性及推理效率之间的差距

Nemotron-CC-Math：一个1330亿token规模的高质量数学预训练数据集

理解工具集成推理

Spacer：面向工程化科学灵感

超越记忆：通过循环、记忆与测试时计算扩展实现推理深度延伸

A.S.E：面向AI生成代码安全性的仓库级基准测试

EmbodiedOneVision：面向通用机器人控制的交织视觉-文本-动作预训练

R-4B：通过双模式退火与强化学习激励多模态大模型的通用自动思考能力

激发小规模语言模型的创意写作：基于LLM的评判与多智能体精炼奖励

TMUAD：通过文本记忆库增强统一异常检测模型的逻辑能力

思维链动态分析：主动引导还是不忠实的事后合理化？

AWorld：面向智能体AI训练配方的编排

MCP-Bench：通过MCP服务器对复杂现实世界任务中使用工具的LLM Agent进行基准测试

rStar2-Agent：代理式推理技术报告

Pref-GRPO：基于成对偏好奖励的GRPO用于稳定文本到图像强化学习

MobileCLIP2：提升多模态强化训练

AI-AI 审美协作：显式符号学意识与涌现语法发展

凝视心灵：用于rPPG与健康生物标志物估计的多视角视频数据集

预测下一个标记的顺序可提升语言建模性能

MIDAS：通过实时自回归视频生成实现的多模态交互式数字人合成

离散扩散VLA：将离散扩散引入视觉-语言-动作策略中的动作解码

通过推理分解的自奖励视觉-语言模型

超越转录：自动语音识别中的机制可解释性

CODA：面向解耦强化学习的双脑计算机使用Agent中大脑与小脑的协同机制

WebSight：一种面向视觉的鲁棒网络智能体架构

UltraMemV2：面向120B参数的内存网络，具备卓越的长上下文学习能力

Hermes 4 技术报告

OmniHuman-1.5：通过认知模拟为虚拟化身注入主动思维

VoxHammer：无需训练的原生3D空间中精确且连贯的3D编辑

CMPhysBench：用于评估大语言模型在凝聚态物理领域性能的基准测试

TreePO：基于启发式树建模弥合策略优化与有效性及推理效率之间的差距

Nemotron-CC-Math：一个1330亿token规模的高质量数学预训练数据集

理解工具集成推理

Spacer：面向工程化科学灵感

超越记忆：通过循环、记忆与测试时计算扩展实现推理深度延伸

Command Palette

论文

Command Palette

论文

Command Palette

论文