HyperAI超神经

Colon-Bench：一种用于全周期结肠镜视频中可扩展致密病灶标注的智能体工作流

医学影像

视觉问答

Abdullah Hamdi, Changchun Yang, Xin Gao

TOOLACE：在 LLM 函数调用中胜出

LLM

监督式微调

Weiwen Liu, Xu Huang, Xingshan Zeng, et al.

图生图

扩散模型

Gengze Zhou, Tianyu Wang, Soo Ye Kim, et al.

自动驾驶

强化学习

Matej Rene Cihlar, Luka Šiktar, Branimir Ćaran, et al.

扩散模型

语义分割

Guohuan Xie, Xin He, Dingying Fan, et al.

面向基于 LLM 的多说话人语音识别的基于门控交叉注意力适配器的两阶段声学自适应方法

LLM

音频识别

Hao Shi, Yuan Gao, Xugang Lu, et al.

多模态

医学影像

Kirill Skobelev, Eric Fithian, Yegor Baranovski, et al.

自然语言处理

Md Ataur Rahman, Dimitris Sacharidis, Oscar Romero, et al.

多模态

扩散模型

Guanhe Huang, Oya Celiktutan

LLM

文本生成

Zecheng Zhang, Han Zheng, Yue Xu

文生图

扩散模型

Omer Dahary, Benaya Koren, Daniel Garibi, et al.

Agent

LLM

Huacan Wang, Chaofa Yuan, Xialie Zhuang, et al.

LLM

文本生成

Mohamad Zbib, Mohamad Bazzi, Ammar Mohanna, et al.

自动驾驶

多模态

Royden Wagner, Omer Sahin Tas, Jaime Villa, et al.

代码生成

多模态

Jiajun Zhang, Yuying Li, Zhixun Li, et al.

LLM

Agent

Jingwei Ni, Yihao Liu, Xinpeng Liu, et al.

视频生成

扩散模型

Xiaofeng Mao, Shaohao Rui, Kaining Ying, et al.

文生视频

视频生成

Yawen Luo, Xiaoyu Shi, Junhao Zhuang, et al.

视频生成

目标跟踪

Kaijin Chen, Dingkang Liang, Xin Zhou, et al.

Agent

多模态

Yuxuan Li, Yi Lin, Peng Wang, et al.

Agent

基准

Qiyue Gao, Kun Zhou, Jiannan Xiang, et al.

MSA：面向高效端到端记忆模型扩展至 1 亿 tokens 的稀疏记忆注意力机制

检索增强生成

LLM

Yu Chen, Runkai Chen, Sheng Yi, et al.

语音生成

音频生成

Alexander H. Liu, Alexis Tacnet, Andy Ehrenberg, et al.

扩散模型

图生图

Yufeng Yang, Xianfang Zeng, Zhangqi Jiang, et al.

Calibri：通过参数高效校准增强 Diffusion Transformer

扩散模型

文生图

Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, et al.

多模态

AI for Science

Yicheng Zou, Dongsheng Zhu, Lin Zhu, et al.

扩散模型

图生图

Jiabin Hua, Hengyuan Xu, Aojie Li, et al.

Claudini: Autoresearch 发现适用于 LLMs 的最先进（State-of-the-Art）对抗攻击算法

LLM

AI for Science

Alexander Panfilov, Peter Romov, Igor Shilov, et al.

AutoHarness：通过自动合成代码 Harness 来提升 LLM Agents 的性能

LLM

代码生成

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, et al.

视频理解

视觉问答

Yunzhe Wang, Runhui Xu, Kexin Zheng, et al.

LLM

推理

Jeonghye Kim, Xufang Luo, Minbeom Kim, et al.

多模态

Agent

Zichuan Lin, Feiyu Liu, Yijun Yang, et al.

Colon-Bench：一种用于全周期结肠镜视频中可扩展致密病灶标注的智能体工作流

医学影像

视觉问答

Abdullah Hamdi, Changchun Yang, Xin Gao

TOOLACE：在 LLM 函数调用中胜出

LLM

监督式微调

Weiwen Liu, Xu Huang, Xingshan Zeng, et al.

图生图

扩散模型

Gengze Zhou, Tianyu Wang, Soo Ye Kim, et al.

自动驾驶

强化学习

Matej Rene Cihlar, Luka Šiktar, Branimir Ćaran, et al.

扩散模型

语义分割

Guohuan Xie, Xin He, Dingying Fan, et al.

LLM

音频识别

Hao Shi, Yuan Gao, Xugang Lu, et al.

多模态

医学影像

Kirill Skobelev, Eric Fithian, Yegor Baranovski, et al.

自然语言处理

Md Ataur Rahman, Dimitris Sacharidis, Oscar Romero, et al.

多模态

扩散模型

Guanhe Huang, Oya Celiktutan

LLM

文本生成

Zecheng Zhang, Han Zheng, Yue Xu

文生图

扩散模型

Omer Dahary, Benaya Koren, Daniel Garibi, et al.

Agent

LLM

Huacan Wang, Chaofa Yuan, Xialie Zhuang, et al.

LLM

文本生成

Mohamad Zbib, Mohamad Bazzi, Ammar Mohanna, et al.

自动驾驶

多模态

Royden Wagner, Omer Sahin Tas, Jaime Villa, et al.

代码生成

多模态

Jiajun Zhang, Yuying Li, Zhixun Li, et al.

LLM

Agent

Jingwei Ni, Yihao Liu, Xinpeng Liu, et al.

视频生成

扩散模型

Xiaofeng Mao, Shaohao Rui, Kaining Ying, et al.

文生视频

视频生成

Yawen Luo, Xiaoyu Shi, Junhao Zhuang, et al.

视频生成

目标跟踪

Kaijin Chen, Dingkang Liang, Xin Zhou, et al.

Agent

多模态

Yuxuan Li, Yi Lin, Peng Wang, et al.

Agent

基准

Qiyue Gao, Kun Zhou, Jiannan Xiang, et al.

检索增强生成

LLM

Yu Chen, Runkai Chen, Sheng Yi, et al.

语音生成

音频生成

Alexander H. Liu, Alexis Tacnet, Andy Ehrenberg, et al.

扩散模型

图生图

Yufeng Yang, Xianfang Zeng, Zhangqi Jiang, et al.

扩散模型

文生图

Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, et al.

多模态

AI for Science

Yicheng Zou, Dongsheng Zhu, Lin Zhu, et al.

扩散模型

图生图

Jiabin Hua, Hengyuan Xu, Aojie Li, et al.

LLM

AI for Science

Alexander Panfilov, Peter Romov, Igor Shilov, et al.

LLM

代码生成

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, et al.

视频理解

视觉问答

Yunzhe Wang, Runhui Xu, Kexin Zheng, et al.

LLM

推理

Jeonghye Kim, Xufang Luo, Minbeom Kim, et al.

多模态

Agent

Zichuan Lin, Feiyu Liu, Yijun Yang, et al.

LightMover：具备颜色与强度控制的生成式光照运动

基于强化学习与对手位姿估计的自主超车轨迹优化

Make It Up：合成图像在广义少样本语义分割中的真实收益

面向基于 LLM 的多说话人语音识别的基于门控交叉注意力适配器的两阶段声学自适应方法

手术人工智能比较研究：数据集、基础模型与医疗通用人工智能的障碍

文本数据集成

基于流匹配的无数字统一文本到动作生成

SEAR：基于模式的 LLM 网关评估与路由

面向扩散 Transformer 中丰富多样性的上下文空间即时排斥机制

EpochX：构建涌现智能体文明的基础设施

TAPS：面向推测采样的任务感知提议分布

具有推理轨迹的长尾驾驶场景：KITScenes 长尾数据集

RealChart2Code：基于真实数据与多任务评估推进图表到代码生成研究

Trace2Skill：将轨迹局部经验蒸馏为可迁移的 Agent 技能

PackForcing：短视频训练足以支持长视频采样与长上下文推理

ShotStream：面向交互式叙事的流式多镜头视频生成

视而不见，心却不忘：面向动态视频世界模型的混合记忆机制

BeSafe-Bench：揭示功能性环境中 Situated Agents 的行为安全风险

世界推理竞技场

MSA：面向高效端到端记忆模型扩展至 1 亿 tokens 的稀疏记忆注意力机制

Voxtral TTS

RealRestorer：面向基于大规模图像编辑模型的通用真实世界图像复原

Calibri：通过参数高效校准增强 Diffusion Transformer

Intern-S1-Pro：万亿级科学多模态基础模型

PixelSmile：迈向细粒度面部表情编辑

Claudini: Autoresearch 发现适用于 LLMs 的最先进（State-of-the-Art）对抗攻击算法

AutoHarness：通过自动合成代码 Harness 来提升 LLM Agents 的性能

GameplayQA：用于决策密集型第一人称视角同步多视频理解的3D虚拟Agent基准测试框架

为何自蒸馏（有时）会削弱 LLMs 的推理能力？

UI-Voyager：一种基于失败经验进行自我演进的 GUI Agent

LightMover：具备颜色与强度控制的生成式光照运动

基于强化学习与对手位姿估计的自主超车轨迹优化

Make It Up：合成图像在广义少样本语义分割中的真实收益

面向基于 LLM 的多说话人语音识别的基于门控交叉注意力适配器的两阶段声学自适应方法

手术人工智能比较研究：数据集、基础模型与医疗通用人工智能的障碍

文本数据集成

基于流匹配的无数字统一文本到动作生成

SEAR：基于模式的 LLM 网关评估与路由

面向扩散 Transformer 中丰富多样性的上下文空间即时排斥机制

EpochX：构建涌现智能体文明的基础设施

TAPS：面向推测采样的任务感知提议分布

具有推理轨迹的长尾驾驶场景：KITScenes 长尾数据集

RealChart2Code：基于真实数据与多任务评估推进图表到代码生成研究

Trace2Skill：将轨迹局部经验蒸馏为可迁移的 Agent 技能

PackForcing：短视频训练足以支持长视频采样与长上下文推理

ShotStream：面向交互式叙事的流式多镜头视频生成

视而不见，心却不忘：面向动态视频世界模型的混合记忆机制

BeSafe-Bench：揭示功能性环境中 Situated Agents 的行为安全风险

世界推理竞技场

MSA：面向高效端到端记忆模型扩展至 1 亿 tokens 的稀疏记忆注意力机制

Voxtral TTS

RealRestorer：面向基于大规模图像编辑模型的通用真实世界图像复原

Calibri：通过参数高效校准增强 Diffusion Transformer

Intern-S1-Pro：万亿级科学多模态基础模型

PixelSmile：迈向细粒度面部表情编辑

Claudini: Autoresearch 发现适用于 LLMs 的最先进（State-of-the-Art）对抗攻击算法

AutoHarness：通过自动合成代码 Harness 来提升 LLM Agents 的性能

GameplayQA：用于决策密集型第一人称视角同步多视频理解的3D虚拟Agent基准测试框架

为何自蒸馏（有时）会削弱 LLMs 的推理能力？

UI-Voyager：一种基于失败经验进行自我演进的 GUI Agent

Command Palette

论文

Command Palette

论文

Command Palette

论文