HyperAI超神经

DFlash：用于快速推测解码的块扩散方法

LLM

扩散模型

Jian Chen, Yesheng Liang, Zhijian Liu

上下文强制：基于长上下文的一致性自回归视频生成

视频生成

扩散模型

Shuo Chen, Cong Wei, Sun Sun, et al.

Agent

LLM

Haozhen Zhang, Quanyu Long, Jianzhu Bao, et al.

强化学习

LLM

Fanfan Liu, Youyang Yin, Peng Shi, et al.

Agent

LLM

Zhenxiong Yu, Zhi Yang, Zhiheng Jin, et al.

LLM

Agent

Johannes Kirmayr, Lukas Stappen, Elisabeth André

统一多模态

多模态表征

Neil Zeghidour, Eugene Kharitonov, Manu Orsini, et al.

Kiss3DGen：将图像 Diffusion Models 重新用于 3D Asset 生成

扩散模型

3D 生成

Jiantao Lin, Xin Yang, Meixi Chen, et al.

基于 Cache 的推理与有状态 Conformer：面向流式自动语音识别的研究

Transformer

音频识别

Vahid Noroozi, Somshubra Majumdar, Ankur Kumar, et al.

3D 生成

扩散模型

Jianfeng Xiang, Xiaoxue Chen, Sicheng Xu, et al.

语音生成

LLM

Simon Rouard, Manu Orsini, Axel Roebel, et al.

LLM

Agent

Pengcheng Qiu, Chaoyi Wu, Junwei Liu, et al.

扩散模型

LLM

Aiwei Liu, Minghua He, Shaoxun Zeng, et al.

TurboDiffusion：通过100-200倍加速视频Diffusion模型

扩散模型

视频生成

Jintao Zhang, Kaiwen Zheng, Kai Jiang, et al.

视频生成

音频生成

Sizhe Shan, Qiulin Li, Yutao Cui, et al.

Agent

LLM

Ahmed Awadallah, Yash Lara, Raghav Magazine, et al.

LLM

音频识别

Keyu An, Yanni Chen, Zhigao Chen, et al.

AI for Science

LLM

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, et al.

Agent

LLM

Lisa Alazraki, William F. Shen, Yoram Bachrach, et al.

Agent

多模态

Jiaheng Liu, Yuanxing Zhang, Shihao Li, et al.

检索增强生成

AI for Science

James Burgess, Jan N. Hansen, Duo Peng, et al.

EgoActor：通过视觉-语言模型将任务规划嵌入空间感知的视角动作中以实现类人机器人

多模态

视觉问答

Yu Bai, MingMing Yu, Chaojie Li, et al.

检索增强生成

Agent

Mingxuan Du, Benfeng Xu, Chiwei Zhu, et al.

视频生成

扩散模型

Haocheng Xi, Shuo Yang, Yilong Zhao, et al.

机器人技术

深度估计

Mu Huang, Hui Wang, Kerui Ren, et al.

视频生成

3D 生成

Zhixue Fang, Xu He, Songlin Tang, et al.

LLM

监督式微调

Mohan Jiang, Dayuan Fu, Junhao Shi, et al.

建模

具身智能

Bohan Zeng, Kaixin Zhu, Daili Hua, et al.

Agent

智能问答

Jianhao Ruan, Zhihao Xu, Yiran Peng, et al.

LLM

推理

Liyan Xu, Mo Yu, Fandong Meng, et al.

多模态

OCR

Yuling Shi, Chaoxiang Xie, Zhensu Sun, et al.

Agent

LLM

Yinger Zhang, Shutong Jiang, Renhao Li, et al.

DFlash：用于快速推测解码的块扩散方法

LLM

扩散模型

Jian Chen, Yesheng Liang, Zhijian Liu

上下文强制：基于长上下文的一致性自回归视频生成

视频生成

扩散模型

Shuo Chen, Cong Wei, Sun Sun, et al.

Agent

LLM

Haozhen Zhang, Quanyu Long, Jianzhu Bao, et al.

强化学习

LLM

Fanfan Liu, Youyang Yin, Peng Shi, et al.

Agent

LLM

Zhenxiong Yu, Zhi Yang, Zhiheng Jin, et al.

LLM

Agent

Johannes Kirmayr, Lukas Stappen, Elisabeth André

统一多模态

多模态表征

Neil Zeghidour, Eugene Kharitonov, Manu Orsini, et al.

扩散模型

3D 生成

Jiantao Lin, Xin Yang, Meixi Chen, et al.

Transformer

音频识别

Vahid Noroozi, Somshubra Majumdar, Ankur Kumar, et al.

3D 生成

扩散模型

Jianfeng Xiang, Xiaoxue Chen, Sicheng Xu, et al.

语音生成

LLM

Simon Rouard, Manu Orsini, Axel Roebel, et al.

LLM

Agent

Pengcheng Qiu, Chaoyi Wu, Junwei Liu, et al.

扩散模型

LLM

Aiwei Liu, Minghua He, Shaoxun Zeng, et al.

扩散模型

视频生成

Jintao Zhang, Kaiwen Zheng, Kai Jiang, et al.

视频生成

音频生成

Sizhe Shan, Qiulin Li, Yutao Cui, et al.

Agent

LLM

Ahmed Awadallah, Yash Lara, Raghav Magazine, et al.

LLM

音频识别

Keyu An, Yanni Chen, Zhigao Chen, et al.

AI for Science

LLM

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, et al.

Agent

LLM

Lisa Alazraki, William F. Shen, Yoram Bachrach, et al.

Agent

多模态

Jiaheng Liu, Yuanxing Zhang, Shihao Li, et al.

检索增强生成

AI for Science

James Burgess, Jan N. Hansen, Duo Peng, et al.

多模态

视觉问答

Yu Bai, MingMing Yu, Chaojie Li, et al.

检索增强生成

Agent

Mingxuan Du, Benfeng Xu, Chiwei Zhu, et al.

视频生成

扩散模型

Haocheng Xi, Shuo Yang, Yilong Zhao, et al.

机器人技术

深度估计

Mu Huang, Hui Wang, Kerui Ren, et al.

视频生成

3D 生成

Zhixue Fang, Xu He, Songlin Tang, et al.

LLM

监督式微调

Mohan Jiang, Dayuan Fu, Junhao Shi, et al.

建模

具身智能

Bohan Zeng, Kaixin Zhu, Daili Hua, et al.

Agent

智能问答

Jianhao Ruan, Zhihao Xu, Yiran Peng, et al.

LLM

推理

Liyan Xu, Mo Yu, Fandong Meng, et al.

多模态

OCR

Yuling Shi, Chaoxiang Xie, Zhensu Sun, et al.

Agent

LLM

Yinger Zhang, Shutong Jiang, Renhao Li, et al.

MemSkill：面向自演化智能体的内存技能学习与演化

长度无偏序列策略优化：揭示与控制RLVR中的响应长度变异

Spider-Sense：基于分层自适应筛选的高效Agent防御内在风险感知

CAR-bench：在现实世界不确定性下评估LLM Agent的一致性与限知性

基于延迟流建模的流式 Sequence-to-Sequence 学习

Kiss3DGen：将图像 Diffusion Models 重新用于 3D Asset 生成

基于 Cache 的推理与有状态 Conformer：面向流式自动语音识别的研究

用于 3D 生成的原生且紧凑的结构化 Latents

连续音频语言模型

在虚拟临床环境中演进交互式诊断 Agent

WeDLM：弥合扩散语言模型与标准因果注意力机制以实现快速推理

TurboDiffusion：通过100-200倍加速视频Diffusion模型

HunyuanVideo-Foley：基于表示对齐的多模态扩散模型用于高保真Foley音频生成

Fara-7B：一种用于计算机使用的高效Agent模型

Fun-ASR 技术报告

利用Gemini加速科学研究：案例研究与常用技术

通过策略拍卖实现小规模Agent的扩展

Vibe AIGC：通过智能体编排实现内容生成的新范式

PaperSearchQA：基于RLVR的科学论文搜索与推理学习

EgoActor：通过视觉-语言模型将任务规划嵌入空间感知的视角动作中以实现类人机器人

A-RAG：通过分层检索接口实现智能体增强型检索生成的扩展

Quant VideoGen：通过2比特KV缓存量化实现自回归长视频生成

SoMA：一种用于机器人软体操作的真实到仿真神经模拟器

面向视角自适应的人体视频生成的3D感知隐式运动控制

daVinci-Agency：高效解锁长周期代理数据

世界模型的研究并不仅仅是将世界知识注入特定任务中

AOrchestra：面向智能体编排的子智能体自动生成

思维链中缺乏全局规划：揭示LLM的潜在规划时域

CodeOCR：视觉语言模型在代码理解中的有效性研究

DeepPlanning：基于可验证约束的长时域Agent规划基准测试

MemSkill：面向自演化智能体的内存技能学习与演化

长度无偏序列策略优化：揭示与控制RLVR中的响应长度变异

Spider-Sense：基于分层自适应筛选的高效Agent防御内在风险感知

CAR-bench：在现实世界不确定性下评估LLM Agent的一致性与限知性

基于延迟流建模的流式 Sequence-to-Sequence 学习

Kiss3DGen：将图像 Diffusion Models 重新用于 3D Asset 生成

基于 Cache 的推理与有状态 Conformer：面向流式自动语音识别的研究

用于 3D 生成的原生且紧凑的结构化 Latents

连续音频语言模型

在虚拟临床环境中演进交互式诊断 Agent

WeDLM：弥合扩散语言模型与标准因果注意力机制以实现快速推理

TurboDiffusion：通过100-200倍加速视频Diffusion模型

HunyuanVideo-Foley：基于表示对齐的多模态扩散模型用于高保真Foley音频生成

Fara-7B：一种用于计算机使用的高效Agent模型

Fun-ASR 技术报告

利用Gemini加速科学研究：案例研究与常用技术

通过策略拍卖实现小规模Agent的扩展

Vibe AIGC：通过智能体编排实现内容生成的新范式

PaperSearchQA：基于RLVR的科学论文搜索与推理学习

EgoActor：通过视觉-语言模型将任务规划嵌入空间感知的视角动作中以实现类人机器人

A-RAG：通过分层检索接口实现智能体增强型检索生成的扩展

Quant VideoGen：通过2比特KV缓存量化实现自回归长视频生成

SoMA：一种用于机器人软体操作的真实到仿真神经模拟器

面向视角自适应的人体视频生成的3D感知隐式运动控制

daVinci-Agency：高效解锁长周期代理数据

世界模型的研究并不仅仅是将世界知识注入特定任务中

AOrchestra：面向智能体编排的子智能体自动生成

思维链中缺乏全局规划：揭示LLM的潜在规划时域

CodeOCR：视觉语言模型在代码理解中的有效性研究

DeepPlanning：基于可验证约束的长时域Agent规划基准测试

Command Palette

论文

Command Palette

论文

Command Palette

论文