HyperAI超神经

从1,000个词生成一张图像：通过结构化描述增强文本到图像生成

文生图

图像生成

Eyal Gutflaish, Eliran Kachlon, Hezi Zisman, et al.

KLASS：基于KL引导的掩码扩散模型快速推理

扩散模型

自然语言处理

Seo Hyun Kim, Sunwoo Hong, Hojung Jung, et al.

数据集

文档理解

Aarash Feizi, Shravan Nayak, Xiangru Jian, et al.

多模态

数据集

Khalil Hennara, Ahmad Bastati, Muhammad Hreden, et al.

Agent

LLM

Soyeong Jeong, Aparna Elangovan, Emine Yilmaz, et al.

目标检测

机器视觉 3D

Yifan Wang, Yian Zhao, Fanqi Pu, et al.

机器学习

建模

Navin Khoshnan, Claudia K Petritsch, Bryce-Allen Bagley

强化学习

推理

Zhi Zheng, Wee Sun Lee

监督式微调

LLM

Fei Zhao, Chonggang Lu, Haofu Qian, et al.

Agent

推理

Stephen Chung, Wenyu Du

监督式微调

强化学习

Speed Zhu, Jianwei Cai, Guang Chen, et al.

强化学习

推理

Guoxin Chen, Zile Qiao, Xuanzhong Chen, et al.

基准

Agent

Ding Chen, Simin Niu, Kehang Li, et al.

偏好

模型训练

Kaichen Zhang, Yuzhong Hong, Junwei Bao, et al.

具身智能

机器人技术

Zishen Wan, Yuhang Du, Mohamed Ibrahim, et al.

机器人技术

强化学习

Kefei Zhu, Fengshuo Bai, YuanHao Xiang, et al.

统一多模态

文生视频

Hongyu Li, Lingfeng Sun, Yafei Hu, et al.

合成

数据集

Sheng Wang, Pengan Chen, Jingqi Zhou, et al.

监督式微调

强化学习

Ivan Anishchenko, Yakov Kipnis, Indrek Kalvet, et al.

深度学习

建模

Ivan Anishchenko, Yakov Kipnis, Indrek Kalvet, et al.

Agent

LLM

Qizheng Zhang, Changran Hu, Shubhangi Upasani, et al.

DiaMoE-TTS：一种基于IPA的统一方言TTS框架，支持多专家模型与参数高效零样本适配

语音生成

统一多模态

Ziqi Chen, Gongyu Chen, Yihua Wang, et al.

目标检测

目标识别

Alexander Htet Kyaw, Haotian Ma, Sasa Zivkovic, et al.

LLM

基准

Rishi Rajesh Shah, Chen Henry Wu, Shashwat Saxena, et al.

LLM

推理

Qing Zong, Jiayu Liu, Tianshi Zheng, et al.

多模态

多模态表征

Aakriti Agrawal, Gouthaman KV, Rohith Aralikatti, et al.

多模态

多模态表征

Rui Yang, Ziyu Zhu, Yanwei Li, et al.

LLM

数据集

Zihao Yi, Qingxuan Jiang, Ruotian Ma, et al.

Agent

LLM

Jack Hong, Chenxiao Zhao, ChengLin Zhu, et al.

深度学习

建模

Ahmed A. Metwally, Heyjun Park, Yue Wu, et al.

LLM

检索增强生成

Alex Fang, Thomas Voice, Ruoming Pang, et al.

LLM

多模态

NVIDIA, Amala Sanjay Deshmukh, Kateryna Chumachenko, et al.

从1,000个词生成一张图像：通过结构化描述增强文本到图像生成

文生图

图像生成

Eyal Gutflaish, Eliran Kachlon, Hezi Zisman, et al.

KLASS：基于KL引导的掩码扩散模型快速推理

扩散模型

自然语言处理

Seo Hyun Kim, Sunwoo Hong, Hojung Jung, et al.

数据集

文档理解

Aarash Feizi, Shravan Nayak, Xiangru Jian, et al.

多模态

数据集

Khalil Hennara, Ahmad Bastati, Muhammad Hreden, et al.

Agent

LLM

Soyeong Jeong, Aparna Elangovan, Emine Yilmaz, et al.

目标检测

机器视觉 3D

Yifan Wang, Yian Zhao, Fanqi Pu, et al.

机器学习

建模

Navin Khoshnan, Claudia K Petritsch, Bryce-Allen Bagley

强化学习

推理

Zhi Zheng, Wee Sun Lee

监督式微调

LLM

Fei Zhao, Chonggang Lu, Haofu Qian, et al.

Agent

推理

Stephen Chung, Wenyu Du

监督式微调

强化学习

Speed Zhu, Jianwei Cai, Guang Chen, et al.

强化学习

推理

Guoxin Chen, Zile Qiao, Xuanzhong Chen, et al.

基准

Agent

Ding Chen, Simin Niu, Kehang Li, et al.

偏好

模型训练

Kaichen Zhang, Yuzhong Hong, Junwei Bao, et al.

具身智能

机器人技术

Zishen Wan, Yuhang Du, Mohamed Ibrahim, et al.

机器人技术

强化学习

Kefei Zhu, Fengshuo Bai, YuanHao Xiang, et al.

统一多模态

文生视频

Hongyu Li, Lingfeng Sun, Yafei Hu, et al.

合成

数据集

Sheng Wang, Pengan Chen, Jingqi Zhou, et al.

监督式微调

强化学习

Ivan Anishchenko, Yakov Kipnis, Indrek Kalvet, et al.

深度学习

建模

Ivan Anishchenko, Yakov Kipnis, Indrek Kalvet, et al.

Agent

LLM

Qizheng Zhang, Changran Hu, Shubhangi Upasani, et al.

语音生成

统一多模态

Ziqi Chen, Gongyu Chen, Yihua Wang, et al.

目标检测

目标识别

Alexander Htet Kyaw, Haotian Ma, Sasa Zivkovic, et al.

LLM

基准

Rishi Rajesh Shah, Chen Henry Wu, Shashwat Saxena, et al.

LLM

推理

Qing Zong, Jiayu Liu, Tianshi Zheng, et al.

多模态

多模态表征

Aakriti Agrawal, Gouthaman KV, Rohith Aralikatti, et al.

多模态

多模态表征

Rui Yang, Ziyu Zhu, Yanwei Li, et al.

LLM

数据集

Zihao Yi, Qingxuan Jiang, Ruotian Ma, et al.

Agent

LLM

Jack Hong, Chenxiao Zhao, ChengLin Zhu, et al.

深度学习

建模

Ahmed A. Metwally, Heyjun Park, Yue Wu, et al.

LLM

检索增强生成

Alex Fang, Thomas Voice, Ruoming Pang, et al.

LLM

多模态

NVIDIA, Amala Sanjay Deshmukh, Kateryna Chumachenko, et al.

基于人类示范的计算机使用Agent定位

Wasm：构建结构化阿拉伯语交错多模态语料库的流水线

对话系统中的自适应多智能体响应优化

SPAN：单目3D目标检测中的空间投影对齐

高维系统伏尔泰拉级数的高效近似

SofT-GRPO：通过Gumbel重参数化软思考策略优化超越离散token的LLM强化学习

RedOne 2.0：重新思考社交网络服务中的领域特定LLM后训练

车站：一个用于AI驱动发现的开放世界环境

DRIVE：面向竞争性代码生成中可验证奖励强化学习的数据编排最佳实践

IterResearch：通过马尔可夫状态重构重新思考长时域Agent

HaluMem：评估Agent记忆系统中的幻觉

GVPO：面向大语言模型后训练的分组方差策略优化

ReCA：面向实时高效协作式具身自主Agent的集成加速

DexFlyWheel：一种可扩展且自提升的灵巧操作数据生成框架

NovaFlow：通过生成视频中的可操作流实现零样本操控

TreeSynth：通过树引导的子空间划分从零开始合成多样化数据

GTA：基于监督引导的大语言模型文本分类强化学习

使用PLACER建模蛋白质-小分子构象集合

Agentic上下文工程：面向自提升语言模型的上下文演化

DiaMoE-TTS：一种基于IPA的统一方言TTS框架，支持多专家模型与参数高效零样本适配

AI辅助的AR装配：用于增强现实辅助装配的物体识别与计算机视觉

在针堆中越狱

CritiCal：批判性反馈能否帮助LLM不确定性或置信度校准？

通过优化文本嵌入缓解大型视觉-语言模型中的幻觉问题

视觉空间调谐

好到不像反派：论LLMs在扮演反派角色时的失败

DeepEyesV2：迈向代理型多模态模型

基于机器学习的连续血糖监测用于识别代谢亚表型并指导精准生活方式干预

在测试阶段重用预训练数据是一种计算倍增器

NVIDIA Nemotron Nano V2 VL

基于人类示范的计算机使用Agent定位

Wasm：构建结构化阿拉伯语交错多模态语料库的流水线

对话系统中的自适应多智能体响应优化

SPAN：单目3D目标检测中的空间投影对齐

高维系统伏尔泰拉级数的高效近似

SofT-GRPO：通过Gumbel重参数化软思考策略优化超越离散token的LLM强化学习

RedOne 2.0：重新思考社交网络服务中的领域特定LLM后训练

车站：一个用于AI驱动发现的开放世界环境

DRIVE：面向竞争性代码生成中可验证奖励强化学习的数据编排最佳实践

IterResearch：通过马尔可夫状态重构重新思考长时域Agent

HaluMem：评估Agent记忆系统中的幻觉

GVPO：面向大语言模型后训练的分组方差策略优化

ReCA：面向实时高效协作式具身自主Agent的集成加速

DexFlyWheel：一种可扩展且自提升的灵巧操作数据生成框架

NovaFlow：通过生成视频中的可操作流实现零样本操控

TreeSynth：通过树引导的子空间划分从零开始合成多样化数据

GTA：基于监督引导的大语言模型文本分类强化学习

使用PLACER建模蛋白质-小分子构象集合

Agentic上下文工程：面向自提升语言模型的上下文演化

DiaMoE-TTS：一种基于IPA的统一方言TTS框架，支持多专家模型与参数高效零样本适配

AI辅助的AR装配：用于增强现实辅助装配的物体识别与计算机视觉

在针堆中越狱

CritiCal：批判性反馈能否帮助LLM不确定性或置信度校准？

通过优化文本嵌入缓解大型视觉-语言模型中的幻觉问题

视觉空间调谐

好到不像反派：论LLMs在扮演反派角色时的失败

DeepEyesV2：迈向代理型多模态模型

基于机器学习的连续血糖监测用于识别代谢亚表型并指导精准生活方式干预

在测试阶段重用预训练数据是一种计算倍增器

NVIDIA Nemotron Nano V2 VL

Command Palette

论文

Command Palette

论文

Command Palette

论文