HyperAI超神经

GroundingME：通过多维评估揭示MLLMs中的视觉定位鸿沟

多模态

基准

Rang Li, Lei Li, Shuhuai Ren, et al.

语义与重构同样重要：使表示编码器适用于文本到图像生成与编辑

文生图

扩散模型

Shilong Zhang, He Zhang, Zhifei Zhang, et al.

视觉问答

多模态表征

Chiao-An Yang, Ryo Hachiuma, Sifei Liu, et al.

代码生成

Agent

Jiangjie Chen, Wenxiang Chen, Jiacheng Du, et al.

推理

基准

Junyu Zhang, Yifan Sun, Tianang Leng, et al.

基准

LLM

Wanghan Xu, Yuhao Zhou, Yifan Zhou, et al.

监督式微调

推理

Zhengzhong Liu, Liping Tang, Linghao Jin, et al.

基准

人机交互

Beitong Zhou, Zhexiao Huang, Yuan Guo, et al.

多模态

统一多模态

Sara Papi, Maike Züfle, Marco Gaido, et al.

计算机视觉

视频理解

Loic Magne, Anas Awadalla, Guanzhi Wang, et al.

LLM

自然语言处理

Cheng Gao, Huimin Chen, Chaojun Xiao, et al.

文生视频

图生视频

Hanlin Wang, Hao Ouyang, Qiuyu Wang, et al.

文生图

扩散模型

Kaixin Ding, Yang Zhou, Xi Chen, et al.

深度估计

机器视觉 3D

Xin Lin, Meixi Song, Dizhe Zhang, et al.

图生图

深度估计

Chun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

视频处理

图生图

Guibao Shen, Yihua Du, Wenhang Ge, et al.

Transformer

计算机视觉

Sihan Xu, Ziqiao Ma, Wenhao Chai, et al.

具身智能

多模态

Zane Durante, Qiuyuan Huang, Naoki Wake, et al.

推理

人工智能

Yuanhang Liu, Beichen Wang, Peng Li, et al.

文生图

基准

Amita Kamath, Kai-Wei Chang, Ranjay Krishna, et al.

情绪识别

多模态

Ripan Kumar Kundu, Istiak Ahmed, Khaza Anuarul Hoque

Yulun Jiang, Liangze Jiang, Damien Teney, et al.

Yuxin Ray Song, Jinzhou Li, Rao Fu, et al.

视频理解

视觉问答

Zhihong Zhang, Xiaojian Huang, Jin Xu, et al.

统一多模态

图生视频

Jiangning Zhang, Junwei Zhu, Zhenye Gan, et al.

视觉问答

基准

Tao Zhang, Yuyang Hong, Yang Xia, et al.

LLM

推理

Chao Yi, Dian Chen, Gaoyang Guo, et al.

图像分割

文生视频

Jooyeol Yun, Jaegul Choo

LLM

开源

Mengzhang Cai, Xin Gao, Yu Li, et al.

多模态

视频处理

Jiaqi Wang, Weijia Wu, Yi Zhan, et al.

GroundingME：通过多维评估揭示MLLMs中的视觉定位鸿沟

多模态

基准

Rang Li, Lei Li, Shuhuai Ren, et al.

语义与重构同样重要：使表示编码器适用于文本到图像生成与编辑

文生图

扩散模型

Shilong Zhang, He Zhang, Zhifei Zhang, et al.

视觉问答

多模态表征

Chiao-An Yang, Ryo Hachiuma, Sifei Liu, et al.

代码生成

Agent

Jiangjie Chen, Wenxiang Chen, Jiacheng Du, et al.

推理

基准

Junyu Zhang, Yifan Sun, Tianang Leng, et al.

基准

LLM

Wanghan Xu, Yuhao Zhou, Yifan Zhou, et al.

监督式微调

推理

Zhengzhong Liu, Liping Tang, Linghao Jin, et al.

基准

人机交互

Beitong Zhou, Zhexiao Huang, Yuan Guo, et al.

多模态

统一多模态

Sara Papi, Maike Züfle, Marco Gaido, et al.

计算机视觉

视频理解

Loic Magne, Anas Awadalla, Guanzhi Wang, et al.

LLM

自然语言处理

Cheng Gao, Huimin Chen, Chaojun Xiao, et al.

文生视频

图生视频

Hanlin Wang, Hao Ouyang, Qiuyu Wang, et al.

文生图

扩散模型

Kaixin Ding, Yang Zhou, Xi Chen, et al.

深度估计

机器视觉 3D

Xin Lin, Meixi Song, Dizhe Zhang, et al.

图生图

深度估计

Chun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

视频处理

图生图

Guibao Shen, Yihua Du, Wenhang Ge, et al.

Transformer

计算机视觉

Sihan Xu, Ziqiao Ma, Wenhao Chai, et al.

具身智能

多模态

Zane Durante, Qiuyuan Huang, Naoki Wake, et al.

推理

人工智能

Yuanhang Liu, Beichen Wang, Peng Li, et al.

文生图

基准

Amita Kamath, Kai-Wei Chang, Ranjay Krishna, et al.

情绪识别

多模态

Ripan Kumar Kundu, Istiak Ahmed, Khaza Anuarul Hoque

Yulun Jiang, Liangze Jiang, Damien Teney, et al.

Yuxin Ray Song, Jinzhou Li, Rao Fu, et al.

视频理解

视觉问答

Zhihong Zhang, Xiaojian Huang, Jin Xu, et al.

统一多模态

图生视频

Jiangning Zhang, Junwei Zhu, Zhenye Gan, et al.

视觉问答

基准

Tao Zhang, Yuyang Hong, Yang Xia, et al.

LLM

推理

Chao Yi, Dian Chen, Gaoyang Guo, et al.

图像分割

文生视频

Jooyeol Yun, Jaegul Choo

LLM

开源

Mengzhang Cai, Xin Gao, Yu Li, et al.

多模态

视频处理

Jiaqi Wang, Weijia Wu, Yi Zhan, et al.

4D-RGPT：通过感知蒸馏实现区域级4D理解

Seed-Prover 1.5：通过经验学习掌握本科水平定理证明

当推理遇见其法则

基于科学家对齐工作流的LLM科学通用智能探究

K2-V2：一个360-开放、推理增强的LLM

VenusBench-GD：面向多样化定位任务的综合性多平台GUI基准

MCIF：来自科学演讲的多模态跨语言指令遵循基准

NitroGen：面向通用游戏Agent的开源基础模型

H-神经元：关于LLM中与幻觉相关的神经元的存在性、影响及其起源

世界即你的画布：通过参考图像、轨迹与文本绘制可提示事件

炼金术师：通过元梯度数据选择解锁文本到图像模型训练的效率

深度任意全景图：一种全景深度估计的基础模型

生成式重聚焦：从单张图像实现灵活的失焦控制

StereoPilot：通过生成先验学习统一且高效的立体转换

下一代嵌入预测助力强大视觉学习器的构建

Agent AI：探索多模态交互的前沿

人工智能数学家作为推动数学发现的合作伙伴——均质化理论中的案例研究

GenEval 2：应对文本到图像评估中的基准漂移问题

PrivateXR：通过可解释AI引导的差分隐私防御扩展现实中的隐私攻击

时间摩擦与司法结果：基于2020—2024年库克县刑事判决中时间延迟影响的分析

元强化学习在语言智能体中激发探索行为

LLMCache：面向Transformer推理中加速复用的分层缓存策略

OPENTOUCH：将全手触觉带入现实世界交互

VideoRewardBench：面向视频理解的多模态Reward模型综合评估

Soul：为数字人注入生命力以实现高保真长期多模态动画

IF-Bench：基于生成视觉的红外图像MLLMs基准测试与增强

RecGPT-V2 技术报告

向量棱镜：通过分层语义结构实现向量图形的动画化

OpenDataArena：用于评估后训练数据集价值的公平开放平台

视频现实性测试：AI生成的ASMR视频能否欺骗视觉语言模型（VLMs）与人类？

4D-RGPT：通过感知蒸馏实现区域级4D理解

Seed-Prover 1.5：通过经验学习掌握本科水平定理证明

当推理遇见其法则

基于科学家对齐工作流的LLM科学通用智能探究

K2-V2：一个360-开放、推理增强的LLM

VenusBench-GD：面向多样化定位任务的综合性多平台GUI基准

MCIF：来自科学演讲的多模态跨语言指令遵循基准

NitroGen：面向通用游戏Agent的开源基础模型

H-神经元：关于LLM中与幻觉相关的神经元的存在性、影响及其起源

世界即你的画布：通过参考图像、轨迹与文本绘制可提示事件

炼金术师：通过元梯度数据选择解锁文本到图像模型训练的效率

深度任意全景图：一种全景深度估计的基础模型

生成式重聚焦：从单张图像实现灵活的失焦控制

StereoPilot：通过生成先验学习统一且高效的立体转换

下一代嵌入预测助力强大视觉学习器的构建

Agent AI：探索多模态交互的前沿

人工智能数学家作为推动数学发现的合作伙伴——均质化理论中的案例研究

GenEval 2：应对文本到图像评估中的基准漂移问题

PrivateXR：通过可解释AI引导的差分隐私防御扩展现实中的隐私攻击

时间摩擦与司法结果：基于2020—2024年库克县刑事判决中时间延迟影响的分析

元强化学习在语言智能体中激发探索行为

LLMCache：面向Transformer推理中加速复用的分层缓存策略

OPENTOUCH：将全手触觉带入现实世界交互

VideoRewardBench：面向视频理解的多模态Reward模型综合评估

Soul：为数字人注入生命力以实现高保真长期多模态动画

IF-Bench：基于生成视觉的红外图像MLLMs基准测试与增强

RecGPT-V2 技术报告

向量棱镜：通过分层语义结构实现向量图形的动画化

OpenDataArena：用于评估后训练数据集价值的公平开放平台

视频现实性测试：AI生成的ASMR视频能否欺骗视觉语言模型（VLMs）与人类？

Command Palette

论文

Command Palette

论文

Command Palette

论文