HyperAI超神经

利用基于验证器的强化学习进行图像编辑

图像生成

图像修复

Hanzhong Guo, Jie Wu, Jie Liu, et al.

使用RoundPipe在多个消费级GPU上实现高效训练

模型训练

LLM

Yibin Luo, Shiwei Gao, Huichuan Zheng, et al.

视频生成

具身智能

Yanghao Zhou, Jingyu Ma, Yibo Peng, et al.

模型训练

多模态

Naibin Gu, Chenxu Yang, Qingyi Si, et al.

图像生成

多模态

Keming Wu, Zuhao Yang, Kaichen Zhang, et al.

Agent

AI for Science

Zihao Li, Jiaru Zou, Feihao Fang, et al.

扩散模型

图像生成

Zhongjie Duan, Hong Zhang, Yingda Chen

多模态表征

机器视觉 3D

Zaid Nasser, Mikhail Iumanov, Tianhao Li, et al.

Agent

LLM

Fei Bai, Huatong Song, Shuang Sun, et al.

扩散模型

模型训练

Gongbo Zhang, Wen Wang, Ye Tian, et al.

LLM

文本生成

Yuanhao Zeng, Ao Lu, Lufei Li, et al.

多模态

Agent

V Team, Wenyi Hong, Xiaotao Gu, et al.

代码生成

Agent

Joachim Baumann, Vishakh Padmakumar, Xiang Li, et al.

代码生成

Agent

Weihua Du, Jingming Zhuo, Yixin Dong, et al.

文生图

图像生成

Jiayi Guo, Linqing Wang, Jiangshan Wang, et al.

Agent

基准

Lei Xiong, Kun Luo, Ziyi Xia, et al.

图像理解

视觉问答

Shiyi Zhang, Yiji Cheng, Tiankai Hang, et al.

基准

多模态表征

Jinxiang Meng, Shaoping Huang, Fangyu Lei, et al.

LLM

监督式微调

Chenkai Pan, Xinglong Xu, Yuhang Xu, et al.

Agent

LLM

Xiyuan Yang, Jiaru Zou, Rui Pan, et al.

检索增强生成

Agent

Weihang Su, Jianming Long, Qingyao Ai, et al.

视觉问答

多模态

Brandon Collins, Logan Bolton, Hung Huy Nguyen, et al.

视觉问答

检索增强生成

Roie Kazoom, Yotam Gigi, George Leifman, et al.

音频和语音处理

翻译

Fei Yang, Xuanfan Ni, Renyi Yang, et al.

Agent

基准

Fanqing Meng, Lingxiao Du, Zijian Wu, et al.

统一多模态

图像生成

Zhiheng Liu, Weiming Ren, Xiaoke Huang, et al.

通义千问

LLM

Qi Li, Bo Yin, Weiqi Huang, et al.

视觉问答

视频理解

Yiming Zhang, Jiacheng Chen, Jiaqi Tan, et al.

Agent

LLM

Zhengxu Yu, Yu Fu, Zhiyuan He, et al.

文生视频

视频生成

Weijie Wang, Xiaoxuan He, Youping Gu, et al.

视频生成

视频处理

Gal Metzer, Sagi Polaczek, Ali Mahdavi-Amiri, et al.

SmartPhotoCrafter：面向自动摄影图像编辑的统一推理、生成与优化框架

图生图

图像理解

Ying Zeng, Miaosen Luo, Guangyuan Li, et al.

利用基于验证器的强化学习进行图像编辑

图像生成

图像修复

Hanzhong Guo, Jie Wu, Jie Liu, et al.

使用RoundPipe在多个消费级GPU上实现高效训练

模型训练

LLM

Yibin Luo, Shiwei Gao, Huichuan Zheng, et al.

视频生成

具身智能

Yanghao Zhou, Jingyu Ma, Yibo Peng, et al.

模型训练

多模态

Naibin Gu, Chenxu Yang, Qingyi Si, et al.

图像生成

多模态

Keming Wu, Zuhao Yang, Kaichen Zhang, et al.

Agent

AI for Science

Zihao Li, Jiaru Zou, Feihao Fang, et al.

扩散模型

图像生成

Zhongjie Duan, Hong Zhang, Yingda Chen

多模态表征

机器视觉 3D

Zaid Nasser, Mikhail Iumanov, Tianhao Li, et al.

Agent

LLM

Fei Bai, Huatong Song, Shuang Sun, et al.

扩散模型

模型训练

Gongbo Zhang, Wen Wang, Ye Tian, et al.

LLM

文本生成

Yuanhao Zeng, Ao Lu, Lufei Li, et al.

多模态

Agent

V Team, Wenyi Hong, Xiaotao Gu, et al.

代码生成

Agent

Joachim Baumann, Vishakh Padmakumar, Xiang Li, et al.

代码生成

Agent

Weihua Du, Jingming Zhuo, Yixin Dong, et al.

文生图

图像生成

Jiayi Guo, Linqing Wang, Jiangshan Wang, et al.

Agent

基准

Lei Xiong, Kun Luo, Ziyi Xia, et al.

图像理解

视觉问答

Shiyi Zhang, Yiji Cheng, Tiankai Hang, et al.

基准

多模态表征

Jinxiang Meng, Shaoping Huang, Fangyu Lei, et al.

LLM

监督式微调

Chenkai Pan, Xinglong Xu, Yuhang Xu, et al.

Agent

LLM

Xiyuan Yang, Jiaru Zou, Rui Pan, et al.

检索增强生成

Agent

Weihang Su, Jianming Long, Qingyao Ai, et al.

视觉问答

多模态

Brandon Collins, Logan Bolton, Hung Huy Nguyen, et al.

视觉问答

检索增强生成

Roie Kazoom, Yotam Gigi, George Leifman, et al.

音频和语音处理

翻译

Fei Yang, Xuanfan Ni, Renyi Yang, et al.

Agent

基准

Fanqing Meng, Lingxiao Du, Zijian Wu, et al.

统一多模态

图像生成

Zhiheng Liu, Weiming Ren, Xiaoke Huang, et al.

通义千问

LLM

Qi Li, Bo Yin, Weiqi Huang, et al.

视觉问答

视频理解

Yiming Zhang, Jiacheng Chen, Jiaqi Tan, et al.

Agent

LLM

Zhengxu Yu, Yu Fu, Zhiyuan He, et al.

文生视频

视频生成

Weijie Wang, Xiaoxuan He, Youping Gu, et al.

视频生成

视频处理

Gal Metzer, Sagi Polaczek, Ali Mahdavi-Amiri, et al.

图生图

图像理解

Ying Zeng, Miaosen Luo, Guangyuan Li, et al.

ExoActor：作为可泛化交互人形控制的偏中心视频生成

联合演化的策略蒸馏

新时代视觉生成：从原子映射到代理世界建模的演变

异构科学基础模型协作

扩散模板：一种用于可控扩散的统一插件框架

RADIO-ViPE：动态环境中开放词汇语义SLAM的在线紧耦合多模态融合

ClawGym：构建高效Claw代理的可扩展框架

扭转局势：扩散大型语言模型的跨架构知识蒸馏

大语言模型通过潜在蒸馏进行探索

GLM-5V-Turbo：迈向面向多模态 agents 的原生基础模型

SWE-chat：来自真实用户在自然环境下编码智能体交互的研究

AdaExplore：面向高效内核生成的失败驱动自适应与多样性保持搜索

通过再生进行优化：扩展修改空间可提升统一多模态模型中的图像优化效果

AutoResearchBench: 在复杂科学文献发现中评估AI代理的基准测试

Meta-CoT：增强图像编辑的粒度与泛化能力

DV-World：在真实世界场景中基准测试数据可视化智能体

使用数据进行编程：来自原始语料的自我改进大型语言模型的测试驱动数据工程

递归多智能体系统

面向智能体 AI 的技能检索增强

SketchVLM：视觉语言模型能够对图像进行注释以解释思维过程并引导用户

RSRCC：通过检索增强最佳-N排序构建的遥感区域变化理解基准

LongSpeech：一个用于长语音转录、翻译与理解的可扩展基准

ClawMark：面向多轮、多日、多模态协作智能体的真实世界基准测试

Tuna-2：像素嵌入在多模态理解与生成中优于视觉编码器

视觉-语言-动作安全：威胁、挑战、评估与机制

ReVSI: 重建视觉空间智能评估，以实现对VLM 3D推理的准确评估

从技能到人才：组织异质代理作为真实世界的公司

World-R1: 强化三维约束以实现文生视频生成

基于语义进展函数的视频分析与生成

SmartPhotoCrafter：面向自动摄影图像编辑的统一推理、生成与优化框架

ExoActor：作为可泛化交互人形控制的偏中心视频生成

联合演化的策略蒸馏

新时代视觉生成：从原子映射到代理世界建模的演变

异构科学基础模型协作

扩散模板：一种用于可控扩散的统一插件框架

RADIO-ViPE：动态环境中开放词汇语义SLAM的在线紧耦合多模态融合

ClawGym：构建高效Claw代理的可扩展框架

扭转局势：扩散大型语言模型的跨架构知识蒸馏

大语言模型通过潜在蒸馏进行探索

GLM-5V-Turbo：迈向面向多模态 agents 的原生基础模型

SWE-chat：来自真实用户在自然环境下编码智能体交互的研究

AdaExplore：面向高效内核生成的失败驱动自适应与多样性保持搜索

通过再生进行优化：扩展修改空间可提升统一多模态模型中的图像优化效果

AutoResearchBench: 在复杂科学文献发现中评估AI代理的基准测试

Meta-CoT：增强图像编辑的粒度与泛化能力

DV-World：在真实世界场景中基准测试数据可视化智能体

使用数据进行编程：来自原始语料的自我改进大型语言模型的测试驱动数据工程

递归多智能体系统

面向智能体 AI 的技能检索增强

SketchVLM：视觉语言模型能够对图像进行注释以解释思维过程并引导用户

RSRCC：通过检索增强最佳-N排序构建的遥感区域变化理解基准

LongSpeech：一个用于长语音转录、翻译与理解的可扩展基准

ClawMark：面向多轮、多日、多模态协作智能体的真实世界基准测试

Tuna-2：像素嵌入在多模态理解与生成中优于视觉编码器

视觉-语言-动作安全：威胁、挑战、评估与机制

ReVSI: 重建视觉空间智能评估，以实现对VLM 3D推理的准确评估

从技能到人才：组织异质代理作为真实世界的公司

World-R1: 强化三维约束以实现文生视频生成

基于语义进展函数的视频分析与生成

SmartPhotoCrafter：面向自动摄影图像编辑的统一推理、生成与优化框架

Command Palette

论文

Command Palette

论文

Command Palette

论文