HyperAI超神经

TruthRL：通过强化学习激励LLM说真话

强化学习

监督式微调

Zhepei Wei, Xiao Yang, Kai Sun, et al.

赢得剪枝赌局：一种面向高效监督微调的联合样本与token剪枝统一方法

监督式微调

LLM

Shaobo Wang, Jiaming Wang, Jiajun Zhang, et al.

Transformer

自然语言处理

Adrian Kosowski, Przemysław Uznański, Jan Chorowski, et al.

视觉问答

多模态

Qinsi Wang, Bo Liu, Tianyi Zhou, et al.

基准

Agent

Zijian Wu, Xiangyan Liu, Xinyuan Zhang, et al.

强化学习

推理

Haoran He, Yuxiao Ye, Qingpeng Cai, et al.

Agent

推理

Shanghua Gao, Richard Zhu, Pengwei Sui, et al.

推理

监督式微调

Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Kevin El-Haddad, et al.

偏好

强化学习

Fang Wu, Xu Huang, Weihao Xuan, et al.

StableToken：一种抗噪声的语义语音Tokenize，用于增强语音LLM的鲁棒性

音频和语音处理

Transformer

Yuhan Song, Linhao Zhang, Chuhan Wu, et al.

扩散模型

Transformer

Jintao Zhang, Haoxu Wang, Kai Jiang, et al.

Transformer

AI for Science

Yuyang Wang, Jiarui Lu, Navdeep Jaitly, et al.

文档理解

多模态

Yuan Liu, Zhongyin Zhao, Le Tian, et al.

图像描述

多模态

Yue Xin, Wenyuan Wang, Rui Pan, et al.

强化学习

监督式微调

Siwei Wang, Yifei Shen, Haoran Sun, et al.

LLM

Agent

Jinyeop Song, Jeff Gore, Max Kleiman-Weiner

LLM

强化学习

Renjie Luo, Zichen Liu, Xiangyan Liu, et al.

推理

LLM

Xiangxin Zhou, Zichen Liu, Haonan Wang, et al.

强化学习

LLM

Xu Wujiang, Wentian Zhao, Zhenting Wang, et al.

文档理解

多模态

Junbo Niu, Zheng Liu, Zhuangcheng Gu, et al.

强化学习

LLM

Junkang Wu, Kexin Huang, Jiancan Wu, et al.

视频生成

文生视频

Shuai Yang, Wei Huang, Ruihang Chu, et al.

LLM

算法

Samuel Schapiro, Sumuk Shashidhar, Alexi Gladstone, et al.

多模态

统一多模态

Yuting Huang, Ziquan Fang, Zhihao Zeng, et al.

3D 生成

多模态

Team Hunyuan3D, Bowen Zhang, Chunchao Guo, et al.

文生图

扩散模型

Team Seedream, Yunpeng Chen, Yu Gao, et al.

强化学习

LLM

Yuxiang Ji, Ziyu Ma, Yong Wang, et al.

推理

LLM

Yizhou Wang, Chen Tang, Han Deng, et al.

多模态

推理

Sicong Leng, Jing Wang, Jiaxi Li, et al.

强化学习

LLM

Guochao Jiang, Wenfeng Feng, Guofeng Quan, et al.

图生图

多模态

Mingsong Li, Lin Liu, Hongjun Wang, et al.

语义分割

图像分类

Amirreza Fateh, Yasin Rezvani, Sara Moayedi, et al.

TruthRL：通过强化学习激励LLM说真话

强化学习

监督式微调

Zhepei Wei, Xiao Yang, Kai Sun, et al.

赢得剪枝赌局：一种面向高效监督微调的联合样本与token剪枝统一方法

监督式微调

LLM

Shaobo Wang, Jiaming Wang, Jiajun Zhang, et al.

Transformer

自然语言处理

Adrian Kosowski, Przemysław Uznański, Jan Chorowski, et al.

视觉问答

多模态

Qinsi Wang, Bo Liu, Tianyi Zhou, et al.

基准

Agent

Zijian Wu, Xiangyan Liu, Xinyuan Zhang, et al.

强化学习

推理

Haoran He, Yuxiao Ye, Qingpeng Cai, et al.

Agent

推理

Shanghua Gao, Richard Zhu, Pengwei Sui, et al.

推理

监督式微调

Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Kevin El-Haddad, et al.

偏好

强化学习

Fang Wu, Xu Huang, Weihao Xuan, et al.

音频和语音处理

Transformer

Yuhan Song, Linhao Zhang, Chuhan Wu, et al.

扩散模型

Transformer

Jintao Zhang, Haoxu Wang, Kai Jiang, et al.

Transformer

AI for Science

Yuyang Wang, Jiarui Lu, Navdeep Jaitly, et al.

文档理解

多模态

Yuan Liu, Zhongyin Zhao, Le Tian, et al.

图像描述

多模态

Yue Xin, Wenyuan Wang, Rui Pan, et al.

强化学习

监督式微调

Siwei Wang, Yifei Shen, Haoran Sun, et al.

LLM

Agent

Jinyeop Song, Jeff Gore, Max Kleiman-Weiner

LLM

强化学习

Renjie Luo, Zichen Liu, Xiangyan Liu, et al.

推理

LLM

Xiangxin Zhou, Zichen Liu, Haonan Wang, et al.

强化学习

LLM

Xu Wujiang, Wentian Zhao, Zhenting Wang, et al.

文档理解

多模态

Junbo Niu, Zheng Liu, Zhuangcheng Gu, et al.

强化学习

LLM

Junkang Wu, Kexin Huang, Jiancan Wu, et al.

视频生成

文生视频

Shuai Yang, Wei Huang, Ruihang Chu, et al.

LLM

算法

Samuel Schapiro, Sumuk Shashidhar, Alexi Gladstone, et al.

多模态

统一多模态

Yuting Huang, Ziquan Fang, Zhihao Zeng, et al.

3D 生成

多模态

Team Hunyuan3D, Bowen Zhang, Chunchao Guo, et al.

文生图

扩散模型

Team Seedream, Yunpeng Chen, Yu Gao, et al.

强化学习

LLM

Yuxiang Ji, Ziyu Ma, Yong Wang, et al.

推理

LLM

Yizhou Wang, Chen Tang, Han Deng, et al.

多模态

推理

Sicong Leng, Jing Wang, Jiaxi Li, et al.

强化学习

LLM

Guochao Jiang, Wenfeng Feng, Guofeng Quan, et al.

图生图

多模态

Mingsong Li, Lin Liu, Hongjun Wang, et al.

语义分割

图像分类

Amirreza Fateh, Yasin Rezvani, Sara Moayedi, et al.

龙之幼崽：Transformer与大脑模型之间的缺失环节

Vision-Zero：通过策略性游戏化自对弈实现可扩展的VLM自我提升

MCPMark：用于压力测试现实且全面的MCP使用的基准

可验证奖励下的LLM推理仅需随机策略评估

使用ToolUniverse实现AI科学家的民主化

推理何时才重要？一项关于推理对模型性能贡献的受控研究

多人博弈纳什偏好优化

StableToken：一种抗噪声的语义语音Tokenize，用于增强语音LLM的鲁棒性

SLA：通过可微调稀疏线性注意力实现扩散Transformer中的稀疏性突破

SimpleFold：蛋白质折叠比你想象的更简单

POINTS-Reader：面向文档转换的视觉-语言模型蒸馏-free适配

可泛化的几何图像描述生成

基于强化学习的语言模型规划：理论视角下的优势与陷阱

语言模型Agent的赋能估计

语言模型可以在没有标量奖励的情况下从口头反馈中学习

语言模型的变分推理

EPO：面向LLM Agent的熵正则化策略优化强化学习

MinerU2.5：一种用于高效高分辨率文档解析的解耦视觉-语言模型

分位数优势估计用于熵安全推理

LongLive：实时交互式长视频生成

组合式创造力：泛化能力的新前沿

因果时空预测：一种高效且有效的多模态方法

Hunyuan3D-Omni：一种用于可控生成3D资产的统一框架

Seedream 4.0：迈向下一代多模态图像生成

LLM Agent强化学习中的树搜索

SciReasoner：跨学科奠定科学推理基础

MMR1：通过方差感知采样与开放资源增强多模态推理

基于方差的课程强化学习用于大语言模型

MultiEdit：在多样且具有挑战性的任务上推进基于指令的图像编辑

BRISC：基于Swin-HAFNet的脑肿瘤分割与分类标注数据集

龙之幼崽：Transformer与大脑模型之间的缺失环节

Vision-Zero：通过策略性游戏化自对弈实现可扩展的VLM自我提升

MCPMark：用于压力测试现实且全面的MCP使用的基准

可验证奖励下的LLM推理仅需随机策略评估

使用ToolUniverse实现AI科学家的民主化

推理何时才重要？一项关于推理对模型性能贡献的受控研究

多人博弈纳什偏好优化

StableToken：一种抗噪声的语义语音Tokenize，用于增强语音LLM的鲁棒性

SLA：通过可微调稀疏线性注意力实现扩散Transformer中的稀疏性突破

SimpleFold：蛋白质折叠比你想象的更简单

POINTS-Reader：面向文档转换的视觉-语言模型蒸馏-free适配

可泛化的几何图像描述生成

基于强化学习的语言模型规划：理论视角下的优势与陷阱

语言模型Agent的赋能估计

语言模型可以在没有标量奖励的情况下从口头反馈中学习

语言模型的变分推理

EPO：面向LLM Agent的熵正则化策略优化强化学习

MinerU2.5：一种用于高效高分辨率文档解析的解耦视觉-语言模型

分位数优势估计用于熵安全推理

LongLive：实时交互式长视频生成

组合式创造力：泛化能力的新前沿

因果时空预测：一种高效且有效的多模态方法

Hunyuan3D-Omni：一种用于可控生成3D资产的统一框架

Seedream 4.0：迈向下一代多模态图像生成

LLM Agent强化学习中的树搜索

SciReasoner：跨学科奠定科学推理基础

MMR1：通过方差感知采样与开放资源增强多模态推理

基于方差的课程强化学习用于大语言模型

MultiEdit：在多样且具有挑战性的任务上推进基于指令的图像编辑

BRISC：基于Swin-HAFNet的脑肿瘤分割与分类标注数据集

Command Palette

论文

Command Palette

论文

Command Palette

论文