HyperAI超神经

改进的大型语言扩散模型

扩散模型

文本生成

Shen Nie, Qiyang Min, Shaoxuan Xu, et al.

OCR推理的鲁棒性如何？评估视觉语言模型在视觉扰动下的OCR推理鲁棒性

OCR

文档理解

Yuxing Cheng, Yuan Wu, Yi Chang

多模态

机器视觉 3D

Alexander Schperberg, Shivam K. Panda, Abraham P. Vinod, et al.

感知

动作识别

Han Bao, Bingyi Xia, Hanjing Ye, et al.

强化学习

机器人技术

Cheng Ouyang, Moeen Ul Islam, Kaixiang Zhang, et al.

LLM

模型训练

Juliana Li, Diya Sreedhar

数学

推理

Yichuan Cao, Dakai Guo, Ruichen Qiu, et al.

Loop Engineering：Anthropic 设计智能体提示系统的方法论

Agent

LLM

Peter Steinberger, Boris Cherny, Addy Osmani

LLM

模型训练

Yufeng Xu, Taiming Lu, Kunjun Li, et al.

Agent

模型训练

Negin Raoof, Richard Zhuang, Marianna Nezhurina, et al.

LLM

基准

Shihao Xu, Tiancheng Zhou, Jiatong Ma, et al.

Agent

Shanhui Zhao, Jiacheng Liu, Guohong Liu, et al.

Agent

多模态

Guangyi Liu, Gao Wu, Congxiao Liu, et al.

Agent

多模态

Guangyi Liu, Pengxiang Zhao, Gao Wu, et al.

NatureBench：编程 Agent 能否匹敌已发表的 Nature 系列论文的最先进水平？

基准

AI for Science

Yuru Wang, Lejun Cheng, Yuxin Zuo, et al.

Agent

LLM

Yuxin Zuo, Zikai Xiao, Li Sheng, et al.

音频和语音处理

语音生成

Szu-Wei Fu, Rong Chao, Xuesong Yang, et al.

3D 生成

扩散模型

Runjie Yan, Yan-Pei Cao, Peng Wang, et al.

语音生成

LLM

Trung Dang, Sharath Rao, Ananya Gupta, et al.

扩散模型

图像生成

Gang Dai, Yifan Zhang, Yutao Qin, et al.

PyTorch

3D 模型

Vickie Ye, Ruilong Li, Justin Kerr, et al.

视频理解

视觉问答

Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang, et al.

代码生成

文本生成

Wasi Uddin Ahmad, Nikolai Ludwig, Somshubra Majumdar, et al.

强化学习

LLM

Ankur Samanta, Akshayaa Magesh, Ayush Jain, et al.

OCR

Transformer

Baoding Zhou, Jingyun Wang, Xiaolin Wei, et al.

PlanBench-XL：评估大语言模型工具使用智能体在大规模工具生态系统中的长程规划

Agent

LLM

Jiayu Liu, Qihan Lin, Cheng Qian, et al.

Agent

Fukang Wen, Zhijie Wang, Ruilin Xu

检索增强生成

Agent

Chang Nie, Chaoyou Fu, Junlan Feng, et al.

强化学习

LLM

Zhilin Huang, Hang Gao, Ziqiang Dong, et al.

视频生成

Agent

Qiuhong Shen, Shihua Zhang, Yue Liao, et al.

Transformer

LLM

Xinping Zhao, Jiaxin Xu, Ziqi Dai, et al.

重新审视大语言模型 FP4 预训练中的收缩偏差：几何起源、系统性影响及 UFP4 方案

模型训练

LLM

Qian Zhao, Kunlong Chen, Changxin Tian, et al.

改进的大型语言扩散模型

扩散模型

文本生成

Shen Nie, Qiyang Min, Shaoxuan Xu, et al.

OCR推理的鲁棒性如何？评估视觉语言模型在视觉扰动下的OCR推理鲁棒性

OCR

文档理解

Yuxing Cheng, Yuan Wu, Yi Chang

多模态

机器视觉 3D

Alexander Schperberg, Shivam K. Panda, Abraham P. Vinod, et al.

感知

动作识别

Han Bao, Bingyi Xia, Hanjing Ye, et al.

强化学习

机器人技术

Cheng Ouyang, Moeen Ul Islam, Kaixiang Zhang, et al.

LLM

模型训练

Juliana Li, Diya Sreedhar

数学

推理

Yichuan Cao, Dakai Guo, Ruichen Qiu, et al.

Agent

LLM

Peter Steinberger, Boris Cherny, Addy Osmani

LLM

模型训练

Yufeng Xu, Taiming Lu, Kunjun Li, et al.

Agent

模型训练

Negin Raoof, Richard Zhuang, Marianna Nezhurina, et al.

LLM

基准

Shihao Xu, Tiancheng Zhou, Jiatong Ma, et al.

Agent

Shanhui Zhao, Jiacheng Liu, Guohong Liu, et al.

Agent

多模态

Guangyi Liu, Gao Wu, Congxiao Liu, et al.

Agent

多模态

Guangyi Liu, Pengxiang Zhao, Gao Wu, et al.

基准

AI for Science

Yuru Wang, Lejun Cheng, Yuxin Zuo, et al.

Agent

LLM

Yuxin Zuo, Zikai Xiao, Li Sheng, et al.

音频和语音处理

语音生成

Szu-Wei Fu, Rong Chao, Xuesong Yang, et al.

3D 生成

扩散模型

Runjie Yan, Yan-Pei Cao, Peng Wang, et al.

语音生成

LLM

Trung Dang, Sharath Rao, Ananya Gupta, et al.

扩散模型

图像生成

Gang Dai, Yifan Zhang, Yutao Qin, et al.

PyTorch

3D 模型

Vickie Ye, Ruilong Li, Justin Kerr, et al.

视频理解

视觉问答

Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang, et al.

代码生成

文本生成

Wasi Uddin Ahmad, Nikolai Ludwig, Somshubra Majumdar, et al.

强化学习

LLM

Ankur Samanta, Akshayaa Magesh, Ayush Jain, et al.

OCR

Transformer

Baoding Zhou, Jingyun Wang, Xiaolin Wei, et al.

Agent

LLM

Jiayu Liu, Qihan Lin, Cheng Qian, et al.

Agent

Fukang Wen, Zhijie Wang, Ruilin Xu

检索增强生成

Agent

Chang Nie, Chaoyou Fu, Junlan Feng, et al.

强化学习

LLM

Zhilin Huang, Hang Gao, Ziqiang Dong, et al.

视频生成

Agent

Qiuhong Shen, Shihua Zhang, Yue Liao, et al.

Transformer

LLM

Xinping Zhao, Jiaxin Xu, Ziqi Dai, et al.

模型训练

LLM

Qian Zhao, Kunlong Chen, Changxin Tian, et al.

RoboAtlas：上下文主动SLAM

基于意图感知场景表示的人群中机器人视觉导航学习

用于三维线缆驱动软机械臂的深度强化学习增强事件触发数据驱动预测控制

自然非格化：预训练期间哪些规则得以保留的非对称控制

每一个非负整数都是一个三角形数、一个五边形数和一个七边形数之和

Loop Engineering：Anthropic 设计智能体提示系统的方法论

小型大语言模型：剪枝与从头训练

OpenThoughts-Agent：面向智能体模型的数据配方

LingxiDiagBench：一种用于在中文精神科咨询与诊断中基准测试大语言模型的多 Agent 框架

AOHP：面向个性化、高效与安全交互的开源操作系统级 Agent 框架

MemGUI-Agent：一种具有主动上下文管理的端到端长程移动 GUI Agent

MobileForge：面向移动GUI Agents的无标注适配与基于分层反馈引导的策略优化

NatureBench：编程 Agent 能否匹敌已发表的 Nature 系列论文的最先进水平？

Qwen-AgentWorld：面向通用 Agent 的语言世界模型

重新思考通用语音增强的训练目标、架构和数据质量

具有学习密度控制的生成式 3D 高斯模型

TADA：一种通过文本-声学双对齐实现语音建模的生成式框架

超越孤立词汇：用于手写文本行生成的扩散笔刷

gsplat：高斯泼溅开源库

OmniVideo-100K：一种基于结构化脚本与证据链的音视频推理数据集

OPEN-SWE-TRACES：推动软件工程智能体的双模式多语言蒸馏技术进展

语言模型推理中的带重置的信用分配

Unlimited OCR：欢迎一次性长期解析的时代

PlanBench-XL：评估大语言模型工具使用智能体在大规模工具生态系统中的长程规划

OpenRath：面向 Agent 系统的会话中心运行时状态

EvoEmbedding：面向长上下文检索与智能体记忆的可进化表示

从自身错误中学习：构建用于自蒸馏的可学习微反思轨迹

世界动作模型：综述

KaLM-Reranker-V1：用于压缩文档重排序的快速但非晚期交互

重新审视大语言模型 FP4 预训练中的收缩偏差：几何起源、系统性影响及 UFP4 方案

RoboAtlas：上下文主动SLAM

基于意图感知场景表示的人群中机器人视觉导航学习

用于三维线缆驱动软机械臂的深度强化学习增强事件触发数据驱动预测控制

自然非格化：预训练期间哪些规则得以保留的非对称控制

每一个非负整数都是一个三角形数、一个五边形数和一个七边形数之和

Loop Engineering：Anthropic 设计智能体提示系统的方法论

小型大语言模型：剪枝与从头训练

OpenThoughts-Agent：面向智能体模型的数据配方

LingxiDiagBench：一种用于在中文精神科咨询与诊断中基准测试大语言模型的多 Agent 框架

AOHP：面向个性化、高效与安全交互的开源操作系统级 Agent 框架

MemGUI-Agent：一种具有主动上下文管理的端到端长程移动 GUI Agent

MobileForge：面向移动GUI Agents的无标注适配与基于分层反馈引导的策略优化

NatureBench：编程 Agent 能否匹敌已发表的 Nature 系列论文的最先进水平？

Qwen-AgentWorld：面向通用 Agent 的语言世界模型

重新思考通用语音增强的训练目标、架构和数据质量

具有学习密度控制的生成式 3D 高斯模型

TADA：一种通过文本-声学双对齐实现语音建模的生成式框架

超越孤立词汇：用于手写文本行生成的扩散笔刷

gsplat：高斯泼溅开源库

OmniVideo-100K：一种基于结构化脚本与证据链的音视频推理数据集

OPEN-SWE-TRACES：推动软件工程智能体的双模式多语言蒸馏技术进展

语言模型推理中的带重置的信用分配

Unlimited OCR：欢迎一次性长期解析的时代

PlanBench-XL：评估大语言模型工具使用智能体在大规模工具生态系统中的长程规划

OpenRath：面向 Agent 系统的会话中心运行时状态

EvoEmbedding：面向长上下文检索与智能体记忆的可进化表示

从自身错误中学习：构建用于自蒸馏的可学习微反思轨迹

世界动作模型：综述

KaLM-Reranker-V1：用于压缩文档重排序的快速但非晚期交互

重新审视大语言模型 FP4 预训练中的收缩偏差：几何起源、系统性影响及 UFP4 方案

Command Palette

论文

Command Palette

论文

Command Palette

论文