HyperAI超神经

FDABench：面向异构数据上分析查询的数据Agent基准测试

基准

Agent

Ziting Wang, Shize Zhang, Haitao Yuan, et al.

作画易，思辨难：文本到图像模型能否铺就舞台，却无法主导演出？

文生图

推理

Ouxiang Li, Yuan Wang, Xinting Hu, et al.

统一多模态

视频生成

Duomin Wang, Wei Zuo, Aojie Li, et al.

具身智能

基准

Dinura Dissanayake, Ahmed Heakl, Omkar Thawakar, et al.

LLM

Transformer

Yuqi Pan, Yupeng Feng, Jinghao Zhuang, et al.

基准

数据集

Samarth Goel, Reagan J. Lee, Kannan Ramchandran

Transformer

图像分类

Moshe Kimhi, Erez Koifman, Ehud Rivlin, et al.

LLM

Transformer

Henrique Schechter Vera, Sahil Dua, Biao Zhang, et al.

LLM

监督式微调

Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, et al.

基准

多模态

Songsong Yu, Yuxin Chen, Hao Ju, et al.

LLM

监督式微调

Xilin Wei, Xiaoran Liu, Yuhang Zang, et al.

智能问答

基准

Weihan Peng, Yuling Shi, Yuhang Wang, et al.

视频理解

多模态

Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, et al.

LLM

建模

Anthony Patera, Rohan Abeyaratne

视觉问答

检索增强生成

Hongda Jiang, Xinyuan Zhang, Siddhant Garg, et al.

强化学习

偏好

Wenke Huang, Quan Zhang, Yiyang Fang, et al.

统一多模态

扩散模型

Yanzuo Lu, Xin Xia, Manlin Zhang, et al.

强化学习

LLM

Siheng Li, Kejiao Li, Zenan Xu, et al.

机器人技术

具身智能

Juntu Zhao, Wenbo Lu, Di Zhang, et al.

OCR

LLM

Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, et al.

文生图

图像生成

Zhaokai Wang, Penghao Yin, Xiangyu Zhao, et al.

具身智能

强化学习

Qingxiang Liu, Ting Huang, Zeyu Zhang, et al.

LLM

Transformer

Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, et al.

Agent

基准

Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, et al.

扩散模型

强化学习

Kaiwen Zheng, Huayu Chen, Haotian Ye, et al.

强化学习

LLM

Yunheng Li, Jing Cheng, Shaoyong Jia, et al.

LLM

多任务学习

Sunhao Dai, Jiakai Tang, Jiahua Wu, et al.

OmniInsert：通过扩散Transformer模型实现无掩码的任意参考视频插入

视频生成

图生视频

Jinshu Chen, Xinghui Li, Xu Bai, et al.

Agent

LLM

Yang Xiao, Mohan Jiang, Jie Sun, et al.

卷积神经网络

深度学习

JIZHENG LI, CHANGXIN FAN, Hoi Ying LAU, et al.

语音生成

合成

Siyi Zhou, Yiquan Zhou, Yi He, et al.

扩散模型

文生图

Xiangwei Shen, Zhimin Li, Zhantao Yang, et al.

FDABench：面向异构数据上分析查询的数据Agent基准测试

基准

Agent

Ziting Wang, Shize Zhang, Haitao Yuan, et al.

作画易，思辨难：文本到图像模型能否铺就舞台，却无法主导演出？

文生图

推理

Ouxiang Li, Yuan Wang, Xinting Hu, et al.

统一多模态

视频生成

Duomin Wang, Wei Zuo, Aojie Li, et al.

具身智能

基准

Dinura Dissanayake, Ahmed Heakl, Omkar Thawakar, et al.

LLM

Transformer

Yuqi Pan, Yupeng Feng, Jinghao Zhuang, et al.

基准

数据集

Samarth Goel, Reagan J. Lee, Kannan Ramchandran

Transformer

图像分类

Moshe Kimhi, Erez Koifman, Ehud Rivlin, et al.

LLM

Transformer

Henrique Schechter Vera, Sahil Dua, Biao Zhang, et al.

LLM

监督式微调

Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, et al.

基准

多模态

Songsong Yu, Yuxin Chen, Hao Ju, et al.

LLM

监督式微调

Xilin Wei, Xiaoran Liu, Yuhang Zang, et al.

智能问答

基准

Weihan Peng, Yuling Shi, Yuhang Wang, et al.

视频理解

多模态

Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, et al.

LLM

建模

Anthony Patera, Rohan Abeyaratne

视觉问答

检索增强生成

Hongda Jiang, Xinyuan Zhang, Siddhant Garg, et al.

强化学习

偏好

Wenke Huang, Quan Zhang, Yiyang Fang, et al.

统一多模态

扩散模型

Yanzuo Lu, Xin Xia, Manlin Zhang, et al.

强化学习

LLM

Siheng Li, Kejiao Li, Zenan Xu, et al.

机器人技术

具身智能

Juntu Zhao, Wenbo Lu, Di Zhang, et al.

OCR

LLM

Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, et al.

文生图

图像生成

Zhaokai Wang, Penghao Yin, Xiangyu Zhao, et al.

具身智能

强化学习

Qingxiang Liu, Ting Huang, Zeyu Zhang, et al.

LLM

Transformer

Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, et al.

Agent

基准

Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, et al.

扩散模型

强化学习

Kaiwen Zheng, Huayu Chen, Haotian Ye, et al.

强化学习

LLM

Yunheng Li, Jing Cheng, Shaoyong Jia, et al.

LLM

多任务学习

Sunhao Dai, Jiakai Tang, Jiahua Wu, et al.

视频生成

图生视频

Jinshu Chen, Xinghui Li, Xu Bai, et al.

Agent

LLM

Yang Xiao, Mohan Jiang, Jie Sun, et al.

卷积神经网络

深度学习

JIZHENG LI, CHANGXIN FAN, Hoi Ying LAU, et al.

语音生成

合成

Siyi Zhou, Yiquan Zhou, Yi He, et al.

扩散模型

文生图

Xiangwei Shen, Zhimin Li, Zhantao Yang, et al.

UniVerse-1：通过专家拼接实现统一的音视频生成

基础模型在逐步具身推理中的表现如何？

脉冲脑技术报告：脉冲脑启发的大规模模型

SAGE：语义理解的现实基准

WAVECLIP：小波Token化用于自适应分辨率CLIP

EmbeddingGemma：强大且轻量的文本表示

通过GRPO提升语音感知语言模型中的语音理解能力

VLMs 距离视觉空间智能还有多远？一项基准驱动的视角

SIM-CoT：监督式隐式思维链

SWE-QA：语言模型能否回答仓库级代码问题？

视频模型是零样本学习者和推理者

用于机械工程分析问题关键求解的N-Plus-1 GPT Agent

Memory-QA：基于多模态记忆的回忆问答

MAPO：混合优势策略优化

Hyper-Bagel：一种用于多模态理解与生成的统一加速框架

预训练数据上的强化学习

视觉运动策略中是否需要本体感觉状态？

Baseer：用于阿拉伯文文档到Markdown OCR的视觉-语言模型

GenExam：跨学科文本到图像测评

Nav-R1：具身场景中的推理与导航

MoEs 比你想象的更强大：基于 RoE 的超并行推理扩展

ARE：扩展Agent环境与评估

DiffusionNFT：基于前向过程的在线扩散强化

TempSamp-R1：面向视频LLM的强化微调有效时间采样

OnePiece：将上下文工程与推理引入工业级级联排序系统

OmniInsert：通过扩散Transformer模型实现无掩码的任意参考视频插入

LIMI：Agent的少即是多

一种模块化融合神经网络方法，用于高效预测蛋白质序列中的多金属结合位点

IndexTTS2：在情感表达丰富且时长可控的自回归零样本文本转语音领域的突破

直接对齐完整扩散轨迹与细粒度人类偏好

UniVerse-1：通过专家拼接实现统一的音视频生成

基础模型在逐步具身推理中的表现如何？

脉冲脑技术报告：脉冲脑启发的大规模模型

SAGE：语义理解的现实基准

WAVECLIP：小波Token化用于自适应分辨率CLIP

EmbeddingGemma：强大且轻量的文本表示

通过GRPO提升语音感知语言模型中的语音理解能力

VLMs 距离视觉空间智能还有多远？一项基准驱动的视角

SIM-CoT：监督式隐式思维链

SWE-QA：语言模型能否回答仓库级代码问题？

视频模型是零样本学习者和推理者

用于机械工程分析问题关键求解的N-Plus-1 GPT Agent

Memory-QA：基于多模态记忆的回忆问答

MAPO：混合优势策略优化

Hyper-Bagel：一种用于多模态理解与生成的统一加速框架

预训练数据上的强化学习

视觉运动策略中是否需要本体感觉状态？

Baseer：用于阿拉伯文文档到Markdown OCR的视觉-语言模型

GenExam：跨学科文本到图像测评

Nav-R1：具身场景中的推理与导航

MoEs 比你想象的更强大：基于 RoE 的超并行推理扩展

ARE：扩展Agent环境与评估

DiffusionNFT：基于前向过程的在线扩散强化

TempSamp-R1：面向视频LLM的强化微调有效时间采样

OnePiece：将上下文工程与推理引入工业级级联排序系统

OmniInsert：通过扩散Transformer模型实现无掩码的任意参考视频插入

LIMI：Agent的少即是多

一种模块化融合神经网络方法，用于高效预测蛋白质序列中的多金属结合位点

IndexTTS2：在情感表达丰富且时长可控的自回归零样本文本转语音领域的突破

直接对齐完整扩散轨迹与细粒度人类偏好

Command Palette

论文

Command Palette

论文

Command Palette

论文