HyperAI超神经

从盲区到收益：基于诊断驱动的大型多模态模型迭代训练

多模态

模型训练

Hongrui Jia, Chaoya Jiang, Shikun Zhang, et al.

一致性三元组作为通用世界模型的定义性原则

多模态表征

统一多模态

Jingxuan Wei, Siyuan Li, Yuhang Xu, et al.

GUI-Libra：基于动作感知监督与部分可验证强化学习训练原生GUI智能体进行推理与行动

监督式微调

Agent

Rui Yang, Qianhui Wu, Zhaoyang Wang, et al.

文生视频

扩散模型

Guibin Chen, Dixuan Lin, Jiangping Yang, et al.

强化学习

LLM

Xiaoxuan Wang, Han Zhang, Haixin Wang, et al.

多模态

统一多模态

Xu Guo, Fulong Ye, Qichao Sun, et al.

扩散模型

AI for Science

Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, et al.

Transformer

偏好

Lei Xin, Yuhao Zheng, Ke Cheng, et al.

基准

LLM

Elad Ben Avraham, Changhao Li, Ron Dorfman, et al.

Agent

基准

Yukang Feng, Jianwen Sun, Zelai Yang, et al.

视频理解

Agent

Shitian Zhao, Shaoheng Lin, Ming Li, et al.

多模态

多模态表征

Yuhao Wu, Maojia Song, Yihuai Lan, et al.

LLM

检索增强生成

Yuqing Li, Jiangnan Li, Mo Yu, et al.

LLM

模型训练

Renjie Pi, Grace Lam, Mohammad Shoeybi, et al.

强化学习

推理

Zhongwei Wan, Yun Shen, Zhihao Dou, et al.

多模态

扩散模型

Abdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad, et al.

强化学习

多模态表征

Shirui Chen, Cole Harrison, Ying-Chun Lee, et al.

偏好

多任务学习

Kun Yang, Yuxuan Zhu, Yazhe Chen, et al.

多模态

多模态表征

Xiao-Ming Wu, Bin Fan, Kang Liao, et al.

视频理解

推理

Maijunxian Wang, Ruisi Wang, Juyi Lin, et al.

多模态

监督式微调

Seulbi Lee, Sangheum Hwang

多模态

视觉问答

Haoxiang Sun, Lizhen Xu, Bing Zhao, et al.

多模态表征

3D 生成

Evonne Ng, Siwei Zhang, Zhang Chen, et al.

感知

目标跟踪

Boyuan An, Zhexiong Wang, Yipeng Wang, et al.

扩散模型

视频生成

Linxi Xie, Lisong C. Sun, Ashley Neall, et al.

强化学习

LLM

Guobin Shen, Chenxiao Zhao, Xiang Cheng, et al.

LLM

Transformer

Varun Singh, Lucas Krauss, Sami Jaghouar, et al.

LLM

Agent

Dongrui Liu, Yi Yu, Jie Zhang, et al.

扩散模型

图像生成

Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, et al.

Agent

LLM

Haiyang Xu, Xi Zhang, Haowei Liu, et al.

SpargeAttention2：通过混合Top-k+Top-p掩码与蒸馏微调实现可训练的稀疏注意力

扩散模型

Transformer

Jintao Zhang, Kai Jiang, Chendong Xiang, et al.

Agent

3D 生成

Yifan Wu, Yiran Peng, Yiyu Chen, et al.

从盲区到收益：基于诊断驱动的大型多模态模型迭代训练

多模态

模型训练

Hongrui Jia, Chaoya Jiang, Shikun Zhang, et al.

一致性三元组作为通用世界模型的定义性原则

多模态表征

统一多模态

Jingxuan Wei, Siyuan Li, Yuhang Xu, et al.

监督式微调

Agent

Rui Yang, Qianhui Wu, Zhaoyang Wang, et al.

文生视频

扩散模型

Guibin Chen, Dixuan Lin, Jiangping Yang, et al.

强化学习

LLM

Xiaoxuan Wang, Han Zhang, Haixin Wang, et al.

多模态

统一多模态

Xu Guo, Fulong Ye, Qichao Sun, et al.

扩散模型

AI for Science

Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, et al.

Transformer

偏好

Lei Xin, Yuhao Zheng, Ke Cheng, et al.

基准

LLM

Elad Ben Avraham, Changhao Li, Ron Dorfman, et al.

Agent

基准

Yukang Feng, Jianwen Sun, Zelai Yang, et al.

视频理解

Agent

Shitian Zhao, Shaoheng Lin, Ming Li, et al.

多模态

多模态表征

Yuhao Wu, Maojia Song, Yihuai Lan, et al.

LLM

检索增强生成

Yuqing Li, Jiangnan Li, Mo Yu, et al.

LLM

模型训练

Renjie Pi, Grace Lam, Mohammad Shoeybi, et al.

强化学习

推理

Zhongwei Wan, Yun Shen, Zhihao Dou, et al.

多模态

扩散模型

Abdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad, et al.

强化学习

多模态表征

Shirui Chen, Cole Harrison, Ying-Chun Lee, et al.

偏好

多任务学习

Kun Yang, Yuxuan Zhu, Yazhe Chen, et al.

多模态

多模态表征

Xiao-Ming Wu, Bin Fan, Kang Liao, et al.

视频理解

推理

Maijunxian Wang, Ruisi Wang, Juyi Lin, et al.

多模态

监督式微调

Seulbi Lee, Sangheum Hwang

多模态

视觉问答

Haoxiang Sun, Lizhen Xu, Bing Zhao, et al.

多模态表征

3D 生成

Evonne Ng, Siwei Zhang, Zhang Chen, et al.

感知

目标跟踪

Boyuan An, Zhexiong Wang, Yipeng Wang, et al.

扩散模型

视频生成

Linxi Xie, Lisong C. Sun, Ashley Neall, et al.

强化学习

LLM

Guobin Shen, Chenxiao Zhao, Xiang Cheng, et al.

LLM

Transformer

Varun Singh, Lucas Krauss, Sami Jaghouar, et al.

LLM

Agent

Dongrui Liu, Yi Yu, Jie Zhang, et al.

扩散模型

图像生成

Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, et al.

Agent

LLM

Haiyang Xu, Xi Zhang, Haowei Liu, et al.

扩散模型

Transformer

Jintao Zhang, Kai Jiang, Chendong Xiang, et al.

Agent

3D 生成

Yifan Wu, Yiran Peng, Yiyu Chen, et al.

GUI-Libra：基于动作感知监督与部分可验证强化学习训练原生GUI智能体进行推理与行动

SkyReels-V4：多模态视频-音频生成、修复与编辑模型

ARLArena：一种用于稳定智能体强化学习的统一框架

DreamID-Omni：面向可控以人为中心的音视频生成统一框架

MolHIT：基于分层离散扩散模型推进分子图生成

HyTRec：一种用于长行为序列推荐的混合时序感知注意力架构

DREAM：基于智能体度量的深度研究评估

LongCLI-Bench：面向命令行界面中长时程智能体编程的初步基准与研究

PyVision-RL：通过强化学习构建开放的智能体视觉模型

从感知到行动：面向视觉推理的交互式基准

面向查询聚焦与记忆感知的长上下文重排序模型

面向大规模语言模型终端能力扩展的数据工程

DSDR：用于LLM推理中探索的双尺度多样性正则化

Mobile-O：移动端的统一多模态理解与生成

TOPReward：作为机器人学中隐藏零样本奖励的Token概率

ManCAR：基于流形约束的潜在推理与自适应测试时计算的序列推荐

VLANeXt：构建强大VLA模型的配方

一个超大规模视频推理套件

基于视觉信息增益的大规模视觉语言模型选择性训练

DeepVision-103K：一个视觉多样、覆盖广泛且可验证的多模态推理数学数据集

SARAH：面向空间感知的实时智能体人类

EgoPush：面向移动机器人的端到端第一人称多物体重排学习

生成现实：基于手部与相机控制的交互式视频生成的人本世界模拟

VESPO：用于稳定离策略LLM训练的变分序列级软策略优化

阿斯翠三一大型技术报告

前沿人工智能风险管理体系实践：风险分析技术报告 v1.5

统一潜在表示（Unified Latents, UL）：如何训练你的潜在表示

Mobile-Agent-v3.5：多平台基础GUI Agent

SpargeAttention2：通过混合Top-k+Top-p掩码与蒸馏微调实现可训练的稀疏注意力

AutoWebWorld：通过有限状态机合成无限可验证的Web环境

GUI-Libra：基于动作感知监督与部分可验证强化学习训练原生GUI智能体进行推理与行动

SkyReels-V4：多模态视频-音频生成、修复与编辑模型

ARLArena：一种用于稳定智能体强化学习的统一框架

DreamID-Omni：面向可控以人为中心的音视频生成统一框架

MolHIT：基于分层离散扩散模型推进分子图生成

HyTRec：一种用于长行为序列推荐的混合时序感知注意力架构

DREAM：基于智能体度量的深度研究评估

LongCLI-Bench：面向命令行界面中长时程智能体编程的初步基准与研究

PyVision-RL：通过强化学习构建开放的智能体视觉模型

从感知到行动：面向视觉推理的交互式基准

面向查询聚焦与记忆感知的长上下文重排序模型

面向大规模语言模型终端能力扩展的数据工程

DSDR：用于LLM推理中探索的双尺度多样性正则化

Mobile-O：移动端的统一多模态理解与生成

TOPReward：作为机器人学中隐藏零样本奖励的Token概率

ManCAR：基于流形约束的潜在推理与自适应测试时计算的序列推荐

VLANeXt：构建强大VLA模型的配方

一个超大规模视频推理套件

基于视觉信息增益的大规模视觉语言模型选择性训练

DeepVision-103K：一个视觉多样、覆盖广泛且可验证的多模态推理数学数据集

SARAH：面向空间感知的实时智能体人类

EgoPush：面向移动机器人的端到端第一人称多物体重排学习

生成现实：基于手部与相机控制的交互式视频生成的人本世界模拟

VESPO：用于稳定离策略LLM训练的变分序列级软策略优化

阿斯翠三一大型技术报告

前沿人工智能风险管理体系实践：风险分析技术报告 v1.5

统一潜在表示（Unified Latents, UL）：如何训练你的潜在表示

Mobile-Agent-v3.5：多平台基础GUI Agent

SpargeAttention2：通过混合Top-k+Top-p掩码与蒸馏微调实现可训练的稀疏注意力

AutoWebWorld：通过有限状态机合成无限可验证的Web环境

Command Palette

论文

Command Palette

论文

Command Palette

论文