HyperAI超神经

UI-S1：通过半在线强化学习推进GUI自动化

强化学习

Agent

Zhengxi Lu, Jiabo Ye, Fei Tang, et al.

OmniWorld：用于4D世界建模的多领域多模态数据集

数据集

视频理解

Yang Zhou, Yifan Wang, Jianjun Zhou, et al.

LLM

Transformer

Yiqun Shen, Song Yuan, Zhengze Zhang, et al.

建模

视频理解

Klemen Kotar, Wanhee Lee, Rahul Venkatesh, et al.

语音生成

统一多模态

Jun Zhan, Mingyang Han, Yuxuan Xie, et al.

检索增强生成

LLM

Duolin Sun, Dan Yang, Yue Shen, et al.

扩散模型

图像生成

Tao Han, Wanghan Xu, Junchao Gong, et al.

3D 生成

语义分割

Xinhao Yan, Jiachen Xu, Yang Li, et al.

LLM

推理

Akshit Sinha, Arvindh Arun, Shashwat Goel, et al.

数据集

LLM

Xingwei Tan, Mahathi Parvatham, Chiara Gambi, et al.

检索增强生成

LLM

Junnan Dong, Siyu An, Yifei Yu, et al.

机器视觉 3D

多模态表征

Yue Li, Qi Ma, Runyi Yang, et al.

Agent

偏好

Nenad Tomasev, Matija Franklin, Joel Z. Leibo, et al.

多模态

多模态表征

Georgios Pantazopoulos, Eda B. Özyiğit

统一多模态

多模态表征

Yikang Ding, Jiwen Liu, Wenyuan Zhang, et al.

LLM

机器学习

Haoyu Dong, Pengkun Zhang, Mingzhe Lu, et al.

LLM

语音生成

Yuhao Zhang, Yuhao Du, Zhanchen Dai, et al.

强化学习

监督式微调

Haozhan Li, Yuxin Zuo, Jiale Yu, et al.

多模态

统一多模态

Yihao Wang, Pengxiang Ding, Lingxiao Li, et al.

基因组学

深度学习

Ping Xu, Zhiyuan Ning, Pengjiang Li, et al.

智能问答

推理

Zirui Tang, Boyu Niu, Xuanhe Zhou, et al.

基准

多模态

Mengdi Jia, Zekun Qi, Shaochen Zhang, et al.

Agent

偏好

Crystal Qian, Kehang Zhu, John Horton, et al.

LLM

推理

Shuocheng Li, Yihao Liu, Silin Du, et al.

翻译

LLM

Mao Zheng, Zheng Li, Bingxin Qu, et al.

计算机视觉

语义分割

Changfeng Ma, Yang Li, Xinhao Yan, et al.

Agent

强化学习

Zhiheng Xi, Jixuan Huang, Chenyang Liao, et al.

3D 模型

建模

Lingdong Kong, Wesley Yang, Jianbiao Mei, et al.

偏好

图像生成

Jie Wu, Yu Gao, Zilyu Ye, et al.

强化学习

LLM

Jeffrey Amico, Gabriel Passamani Andrade, John Donaghy, et al.

文档理解

数据集

Abhinav Arun, Fabrizio Dimino, Tejas Prakash Agarwal, et al.

强化学习

推理

Kaiyan Zhang, Yuxin Zuo, Bingxiang He, et al.

UI-S1：通过半在线强化学习推进GUI自动化

强化学习

Agent

Zhengxi Lu, Jiabo Ye, Fei Tang, et al.

OmniWorld：用于4D世界建模的多领域多模态数据集

数据集

视频理解

Yang Zhou, Yifan Wang, Jianjun Zhou, et al.

LLM

Transformer

Yiqun Shen, Song Yuan, Zhengze Zhang, et al.

建模

视频理解

Klemen Kotar, Wanhee Lee, Rahul Venkatesh, et al.

语音生成

统一多模态

Jun Zhan, Mingyang Han, Yuxuan Xie, et al.

检索增强生成

LLM

Duolin Sun, Dan Yang, Yue Shen, et al.

扩散模型

图像生成

Tao Han, Wanghan Xu, Junchao Gong, et al.

3D 生成

语义分割

Xinhao Yan, Jiachen Xu, Yang Li, et al.

LLM

推理

Akshit Sinha, Arvindh Arun, Shashwat Goel, et al.

数据集

LLM

Xingwei Tan, Mahathi Parvatham, Chiara Gambi, et al.

检索增强生成

LLM

Junnan Dong, Siyu An, Yifei Yu, et al.

机器视觉 3D

多模态表征

Yue Li, Qi Ma, Runyi Yang, et al.

Agent

偏好

Nenad Tomasev, Matija Franklin, Joel Z. Leibo, et al.

多模态

多模态表征

Georgios Pantazopoulos, Eda B. Özyiğit

统一多模态

多模态表征

Yikang Ding, Jiwen Liu, Wenyuan Zhang, et al.

LLM

机器学习

Haoyu Dong, Pengkun Zhang, Mingzhe Lu, et al.

LLM

语音生成

Yuhao Zhang, Yuhao Du, Zhanchen Dai, et al.

强化学习

监督式微调

Haozhan Li, Yuxin Zuo, Jiale Yu, et al.

多模态

统一多模态

Yihao Wang, Pengxiang Ding, Lingxiao Li, et al.

基因组学

深度学习

Ping Xu, Zhiyuan Ning, Pengjiang Li, et al.

智能问答

推理

Zirui Tang, Boyu Niu, Xuanhe Zhou, et al.

基准

多模态

Mengdi Jia, Zekun Qi, Shaochen Zhang, et al.

Agent

偏好

Crystal Qian, Kehang Zhu, John Horton, et al.

LLM

推理

Shuocheng Li, Yihao Liu, Silin Du, et al.

翻译

LLM

Mao Zheng, Zheng Li, Bingxin Qu, et al.

计算机视觉

语义分割

Changfeng Ma, Yang Li, Xinhao Yan, et al.

Agent

强化学习

Zhiheng Xi, Jixuan Huang, Chenyang Liao, et al.

3D 模型

建模

Lingdong Kong, Wesley Yang, Jianbiao Mei, et al.

偏好

图像生成

Jie Wu, Yu Gao, Zilyu Ye, et al.

强化学习

LLM

Jeffrey Amico, Gabriel Passamani Andrade, John Donaghy, et al.

文档理解

数据集

Abhinav Arun, Fabrizio Dimino, Tejas Prakash Agarwal, et al.

强化学习

推理

Kaiyan Zhang, Yuxin Zuo, Bingxiang He, et al.

LAVa：基于层级的KV缓存淘汰与动态预算分配

基于概率结构融合的世界建模

VStyle：一个基于口语指令的语音风格适配基准

HANRAG：启发式高精度抗噪声多跳问答增强生成

InfGen：一种与分辨率无关的可扩展图像合成范式

X-Part：高保真且结构一致的形状分解

收益递减的错觉：LLM中长时 horizon 执行的度量

IntrEx：用于建模教育对话中参与度的数据集

Youtu-GraphRAG：面向图检索增强型复杂推理的垂直统一Agent

SceneSplat：基于视觉-语言预训练的高斯点云场景理解

虚拟 Agent 经济

视觉语言模型中视觉定位的理解研究

Kling-Avatar：用于级联长时长头像动画合成的多模态指令接地

机器学习LLM：在数百万个合成表格预测任务上持续预训练语言模型以实现上下文内机器学习

EchoX：通过回声训练缓解语音到语音LLM中的声学-语义鸿沟

SimpleVLA-RL：通过强化学习扩展VLA训练

VLA-Adapter：一种高效的小规模视觉-语言-动作模型范式

scSiameseClu：一种用于解释单细胞RNA测序数据的孪生聚类框架

ST-Raptor：基于LLM的半结构化表格问答

OmniSpatial：面向视觉语言模型的全面空间推理基准

理解谈判博弈中人类代理与AI代理之间的经济权衡

Jupiter：通过Notebook与推理时价值引导搜索增强LLM数据分析能力

Hunyuan-MT 技术报告

P3-SAM：原生3D部件分割

AgentGym-RL：通过多轮强化学习训练LLM Agent实现长时程决策

三维与四维世界建模：一项综述

RewardDance：视觉生成中的奖励缩放

分享即关爱：基于集体强化学习经验共享的高效LM后训练

FinReflectKG：金融知识图谱的智能体构建与评估

大规模推理模型的强化学习研究综述

LAVa：基于层级的KV缓存淘汰与动态预算分配

基于概率结构融合的世界建模

VStyle：一个基于口语指令的语音风格适配基准

HANRAG：启发式高精度抗噪声多跳问答增强生成

InfGen：一种与分辨率无关的可扩展图像合成范式

X-Part：高保真且结构一致的形状分解

收益递减的错觉：LLM中长时 horizon 执行的度量

IntrEx：用于建模教育对话中参与度的数据集

Youtu-GraphRAG：面向图检索增强型复杂推理的垂直统一Agent

SceneSplat：基于视觉-语言预训练的高斯点云场景理解

虚拟 Agent 经济

视觉语言模型中视觉定位的理解研究

Kling-Avatar：用于级联长时长头像动画合成的多模态指令接地

机器学习LLM：在数百万个合成表格预测任务上持续预训练语言模型以实现上下文内机器学习

EchoX：通过回声训练缓解语音到语音LLM中的声学-语义鸿沟

SimpleVLA-RL：通过强化学习扩展VLA训练

VLA-Adapter：一种高效的小规模视觉-语言-动作模型范式

scSiameseClu：一种用于解释单细胞RNA测序数据的孪生聚类框架

ST-Raptor：基于LLM的半结构化表格问答

OmniSpatial：面向视觉语言模型的全面空间推理基准

理解谈判博弈中人类代理与AI代理之间的经济权衡

Jupiter：通过Notebook与推理时价值引导搜索增强LLM数据分析能力

Hunyuan-MT 技术报告

P3-SAM：原生3D部件分割

AgentGym-RL：通过多轮强化学习训练LLM Agent实现长时程决策

三维与四维世界建模：一项综述

RewardDance：视觉生成中的奖励缩放

分享即关爱：基于集体强化学习经验共享的高效LM后训练

FinReflectKG：金融知识图谱的智能体构建与评估

大规模推理模型的强化学习研究综述

Command Palette

论文

Command Palette

论文

Command Palette

论文