HyperAI超神经

SVG-T2I：在无需变分自编码器的情况下扩展文本到图像的潜在扩散模型

文生图

扩散模型

Minglei Shi, Haolin Wang, Borui Zhang, et al.

DentalGPT：激励牙科领域的多模态复杂推理

视觉问答

多模态表征

Zhenyang Cai, Jiaming Zhang, Junjie Zhao, et al.

检索增强生成

自然语言处理

Xin Zhang, Mingxin Li, Yanzhao Zhang, et al.

视觉问答

多模态表征

Yue Feng, Jinwei Hu, Qijia Lu, et al.

视频理解

机器人技术

Coline Devin, Yilun Du, Debidatta Dwibedi, et al.

图生图

视频生成

Yixin Wan, Lei Ke, Wenhao Yu, et al.

视觉问答

Agent

Haiteng Zhao, Junhao Shen, Yiming Zhang, et al.

LLM

推理

Zijian Wu, Lingkai Kong, Wenwei Zhang, et al.

强化学习

3D 生成

Yiwen Tang, Zoey Guo, Kaixin Zhu, et al.

LLM

推理

Songyang Gao, Yuzhe Gu, Zijian Wu, et al.

LLM

推理

Dmitrii Stoianov, Danil Taranets, Olga Tsymboi, et al.

Agent

LLM

Xiao Liu, Bo Qin, Dongzhu Liang, et al.

基准

机器学习

Bowen Fan, Yuming Ai, Xunkai Li, et al.

强化学习

LLM

Charlie Zhang, Graham Neubig, Xiang Yue

代码生成

检索增强生成

Zongwei Li, Zhonghang Li, Zirui Guo, et al.

InfiniteVL：融合线性与稀疏注意力机制以实现高效、无限输入的视觉-语言模型

Transformer

统一多模态

Hongyuan Tao, Bencheng Liao, Shaoyu Chen, et al.

扩散模型

图像生成

Cheng Liu, Yiren Song, Haofan Wang, et al.

统一多模态

机器人技术

Minghui Lin, Pengxiang Ding, Shu Wang, et al.

LLM

推理

Monishwaran Maheswaran, Rishabh Tiwari, Yuezhou Hu, et al.

多模态

统一多模态

Xianghao Kong, Zeyu Zhang, Yuwei Guo, et al.

视频生成

3D 生成

Ke Xing, Longfei Li, Yuyang Yin, et al.

LLM

基准

Daogao Liu, Edith Cohen, Badih Ghazi, et al.

LLM

监督式微调

Manas Joglekar, Jeremy Chen, Gabriel Wu, et al.

Agent

推理

Melissa Z. Pan, Negar Arabzadeh, Riccardo Cogo, et al.

LLM

推理

Yiming Wang, Pei Zhang, Jialong Tang, et al.

LLM

推理

Long Lian, Sida Wang, Felix Juefei-Xu, et al.

强化学习

监督式微调

Salman Rahman, Sruthi Gorantla, Arpit Gupta, et al.

视频生成

图生视频

Zhaochong An, Menglin Jia, Haonan Qiu, et al.

视频处理

计算机视觉

Zekai Luo, Zongze Du, Zhouhang Zhu, et al.

3D 模型

3D 生成

Yuning Gong, Yifei Liu, Yifan Zhan, et al.

视频生成

图生视频

Ruihang Chu, Yefei He, Zhekai Chen, et al.

强化学习

LLM

Chang Gao, Chujie Zheng, Xiong-Hui Chen, et al.

SVG-T2I：在无需变分自编码器的情况下扩展文本到图像的潜在扩散模型

文生图

扩散模型

Minglei Shi, Haolin Wang, Borui Zhang, et al.

DentalGPT：激励牙科领域的多模态复杂推理

视觉问答

多模态表征

Zhenyang Cai, Jiaming Zhang, Junjie Zhao, et al.

检索增强生成

自然语言处理

Xin Zhang, Mingxin Li, Yanzhao Zhang, et al.

视觉问答

多模态表征

Yue Feng, Jinwei Hu, Qijia Lu, et al.

视频理解

机器人技术

Coline Devin, Yilun Du, Debidatta Dwibedi, et al.

图生图

视频生成

Yixin Wan, Lei Ke, Wenhao Yu, et al.

视觉问答

Agent

Haiteng Zhao, Junhao Shen, Yiming Zhang, et al.

LLM

推理

Zijian Wu, Lingkai Kong, Wenwei Zhang, et al.

强化学习

3D 生成

Yiwen Tang, Zoey Guo, Kaixin Zhu, et al.

LLM

推理

Songyang Gao, Yuzhe Gu, Zijian Wu, et al.

LLM

推理

Dmitrii Stoianov, Danil Taranets, Olga Tsymboi, et al.

Agent

LLM

Xiao Liu, Bo Qin, Dongzhu Liang, et al.

基准

机器学习

Bowen Fan, Yuming Ai, Xunkai Li, et al.

强化学习

LLM

Charlie Zhang, Graham Neubig, Xiang Yue

代码生成

检索增强生成

Zongwei Li, Zhonghang Li, Zirui Guo, et al.

Transformer

统一多模态

Hongyuan Tao, Bencheng Liao, Shaoyu Chen, et al.

扩散模型

图像生成

Cheng Liu, Yiren Song, Haofan Wang, et al.

统一多模态

机器人技术

Minghui Lin, Pengxiang Ding, Shu Wang, et al.

LLM

推理

Monishwaran Maheswaran, Rishabh Tiwari, Yuezhou Hu, et al.

多模态

统一多模态

Xianghao Kong, Zeyu Zhang, Yuwei Guo, et al.

视频生成

3D 生成

Ke Xing, Longfei Li, Yuyang Yin, et al.

LLM

基准

Daogao Liu, Edith Cohen, Badih Ghazi, et al.

LLM

监督式微调

Manas Joglekar, Jeremy Chen, Gabriel Wu, et al.

Agent

推理

Melissa Z. Pan, Negar Arabzadeh, Riccardo Cogo, et al.

LLM

推理

Yiming Wang, Pei Zhang, Jialong Tang, et al.

LLM

推理

Long Lian, Sida Wang, Felix Juefei-Xu, et al.

强化学习

监督式微调

Salman Rahman, Sruthi Gorantla, Arpit Gupta, et al.

视频生成

图生视频

Zhaochong An, Menglin Jia, Haonan Qiu, et al.

视频处理

计算机视觉

Zekai Luo, Zongze Du, Zhouhang Zhu, et al.

3D 模型

3D 生成

Yuning Gong, Yifei Liu, Yifan Zhan, et al.

视频生成

图生视频

Ruihang Chu, Yefei He, Zhekai Chen, et al.

强化学习

LLM

Chang Gao, Chujie Zheng, Xiong-Hui Chen, et al.

SSRB：对大规模异构半结构化数据的直接自然语言查询

MUVR：具有多层级视觉对应关系的多模态未剪辑视频检索基准

在Veo世界模拟器中评估Gemini Robotics策略

MotionEdit：面向运动中心图像编辑的基准测试与学习

通过复杂度增强强化学习实现奥运级几何大语言模型智能体

OPV：基于结果的流程验证器，用于高效长链推理验证

文本到3D生成中的强化学习：我们准备好了吗？一项渐进式探究

面向奥数级数学问题求解的长时程推理Agent

T-pro 2.0：一种高效的俄语混合推理LLM与实验平台

AutoGLM：用于GUI的自主基础Agent

OpenGU：图去学习的综合基准

预训练、中段训练与强化学习在推理语言模型中的相互作用

DeepCode：开放的智能体编码

InfiniteVL：融合线性与稀疏注意力机制以实现高效、无限输入的视觉-语言模型

OmniPSD：基于扩散Transformer的分层PSD生成

HiF-VLA：通过运动表征实现的回望、洞察与前瞻，用于视觉-语言-动作模型

套利：通过优势感知推测实现高效推理

通过概念提示绑定从图像和视频中组合概念

StereoWorld：面向几何感知的单目到立体视频生成

Urania：面向AI使用的差分隐私洞察

通过忏悔训练LLM实现诚实性

生产环境中的Agent评估

PolyMath：多语言情境下的数学推理评估

ThreadWeaver：面向语言模型高效并行推理的自适应线程调度

SPARK：面向无参考强化学习的分步过程感知奖励

OneStory：基于自适应记忆的一致性多轮视频生成

保持源视频真实感：面向电影级画质的高保真人脸替换

Visionary：基于WebGPU驱动的高斯点渲染平台构建的世界模型载体

Wan-Move：基于潜在轨迹引导的可控制运动视频生成

软适应性策略优化

SSRB：对大规模异构半结构化数据的直接自然语言查询

MUVR：具有多层级视觉对应关系的多模态未剪辑视频检索基准

在Veo世界模拟器中评估Gemini Robotics策略

MotionEdit：面向运动中心图像编辑的基准测试与学习

通过复杂度增强强化学习实现奥运级几何大语言模型智能体

OPV：基于结果的流程验证器，用于高效长链推理验证

文本到3D生成中的强化学习：我们准备好了吗？一项渐进式探究

面向奥数级数学问题求解的长时程推理Agent

T-pro 2.0：一种高效的俄语混合推理LLM与实验平台

AutoGLM：用于GUI的自主基础Agent

OpenGU：图去学习的综合基准

预训练、中段训练与强化学习在推理语言模型中的相互作用

DeepCode：开放的智能体编码

InfiniteVL：融合线性与稀疏注意力机制以实现高效、无限输入的视觉-语言模型

OmniPSD：基于扩散Transformer的分层PSD生成

HiF-VLA：通过运动表征实现的回望、洞察与前瞻，用于视觉-语言-动作模型

套利：通过优势感知推测实现高效推理

通过概念提示绑定从图像和视频中组合概念

StereoWorld：面向几何感知的单目到立体视频生成

Urania：面向AI使用的差分隐私洞察

通过忏悔训练LLM实现诚实性

生产环境中的Agent评估

PolyMath：多语言情境下的数学推理评估

ThreadWeaver：面向语言模型高效并行推理的自适应线程调度

SPARK：面向无参考强化学习的分步过程感知奖励

OneStory：基于自适应记忆的一致性多轮视频生成

保持源视频真实感：面向电影级画质的高保真人脸替换

Visionary：基于WebGPU驱动的高斯点渲染平台构建的世界模型载体

Wan-Move：基于潜在轨迹引导的可控制运动视频生成

软适应性策略优化

Command Palette

论文

Command Palette

论文

Command Palette

论文