HyperAI超神经

近未来策略优化

强化学习

模型训练

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

LLaDA2.0-Uni：通过扩散大语言模型统一多模态理解与生成

扩散模型

多模态

Inclusion AI, Tiwei Bie, Haoxing Chen, et al.

BioInstruct：面向生物医学自然语言处理的 Large Language Models 指令微调研究

监督式微调

LLM

Hieu Tran, Zhichao Yang, Zonghai Yao, et al.

Ron Vainshtein, Zohar Rimon, Shie Mannor, et al.

Zhiyuan Peng, Wei Tao, Xin Yin, et al.

TEMPO：扩展大语言推理模型的测试时训练（Test-time Training）规模

Qingyang Zhang, Xinke Kong, Haitao Wu, et al.

扩散模型

机器视觉 3D

Yutian Chen, Shi Guo, Renbiao Jin, et al.

Agent

LLM

Pengcheng Wang, Jerry Huang, Jiarui Yao, et al.

视频生成

图生视频

Xiangyang Luo, Xiaozhe Xin, Tao Feng, et al.

图生图

图像生成

Mengting Chen, Zhengrui Chen, Yongchao Du, et al.

用于 Large Language Model 推理的快速 NF4 量化反量化 Kernel

LLM

Transformer

Xiangbo Qi, Chaoyi Jiang, Murali Annavaram

视频理解

多模态

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

Haoyu Wu, Jiwen Yu, Yingtian Zou, et al.

代码生成

Agent

Yilei Jiang, Jinyuan Hu, Qianyin Xiao, et al.

Agent

LLM

Guanting Dong, Junting Lu, Junjie Huang, et al.

多模态

自动驾驶

Jinghui Lu, Jiayi Guan, Zhijian Huang, et al.

图像生成

文生图

Chenxi Zhao, Chen Zhu, Xiaokun Feng, et al.

ScribblePrompt: 面向各类生物医学图像的高效且灵活的交互式分割方法

图像分割

医学影像

Halle E. Wong, Marianne Rakic, John Guttag, et al.

Long-VITA: 将 Large Multi-modal Models 扩展至 100 万 tokens 并保持领先的短上下文准确率

多模态

视频理解

Yunhang Shen, Chaoyou Fu, Shaoqi Dong, et al.

Agent

多模态

Yujia Qin, Yining Ye, Junjie Fang, et al.

视频生成

文生视频

Hunyuan Foundation Model Team

检索增强生成

数学

Shaden Alshammari, Kevin Wen, Abrar Zainal, et al.

Agent

LLM

Chenyu Zhou, Huacan Chai, Wenteng Chen, et al.

Jiaxi Bi, Tongxu Luo, Wenyu Du, et al.

Uday Allu, Sonu Kedia, Tanmay Odapally, et al.

Chang Nie, Chaoyou Fu, Yifan Zhang, et al.

无需数据或优化实现最大脑损伤：通过 Sign-Bit Flips 破坏 Neural Networks

深度学习

LLM

Ido Galil, Moshe Kimhi, Ran El-Yaniv

扩散模型

图像生成

Meng Yu, Lei Sun, Jianhao Zeng, et al.

近未来策略优化

强化学习

模型训练

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

LLaDA2.0-Uni：通过扩散大语言模型统一多模态理解与生成

扩散模型

多模态

Inclusion AI, Tiwei Bie, Haoxing Chen, et al.

监督式微调

LLM

Hieu Tran, Zhichao Yang, Zonghai Yao, et al.

Ron Vainshtein, Zohar Rimon, Shie Mannor, et al.

Zhiyuan Peng, Wei Tao, Xin Yin, et al.

Qingyang Zhang, Xinke Kong, Haitao Wu, et al.

扩散模型

机器视觉 3D

Yutian Chen, Shi Guo, Renbiao Jin, et al.

Agent

LLM

Pengcheng Wang, Jerry Huang, Jiarui Yao, et al.

视频生成

图生视频

Xiangyang Luo, Xiaozhe Xin, Tao Feng, et al.

图生图

图像生成

Mengting Chen, Zhengrui Chen, Yongchao Du, et al.

LLM

Transformer

Xiangbo Qi, Chaoyi Jiang, Murali Annavaram

视频理解

多模态

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

Haoyu Wu, Jiwen Yu, Yingtian Zou, et al.

代码生成

Agent

Yilei Jiang, Jinyuan Hu, Qianyin Xiao, et al.

Agent

LLM

Guanting Dong, Junting Lu, Junjie Huang, et al.

多模态

自动驾驶

Jinghui Lu, Jiayi Guan, Zhijian Huang, et al.

图像生成

文生图

Chenxi Zhao, Chen Zhu, Xiaokun Feng, et al.

图像分割

医学影像

Halle E. Wong, Marianne Rakic, John Guttag, et al.

多模态

视频理解

Yunhang Shen, Chaoyou Fu, Shaoqi Dong, et al.

Agent

多模态

Yujia Qin, Yining Ye, Junjie Fang, et al.

视频生成

文生视频

Hunyuan Foundation Model Team

检索增强生成

数学

Shaden Alshammari, Kevin Wen, Abrar Zainal, et al.

Agent

LLM

Chenyu Zhou, Huacan Chai, Wenteng Chen, et al.

Jiaxi Bi, Tongxu Luo, Wenyu Du, et al.

Uday Allu, Sonu Kedia, Tanmay Odapally, et al.

Chang Nie, Chaoyou Fu, Yifan Zhang, et al.

深度学习

LLM

Ido Galil, Moshe Kimhi, Ran El-Yaniv

扩散模型

图像生成

Meng Yu, Lei Sun, Jianhao Zeng, et al.

BioInstruct：面向生物医学自然语言处理的 Large Language Models 指令微调研究

Logics-Parsing-Omni 技术报告

Task Tokens：一种适配行为基础模型的灵活方法

Explainable AI for Blind and Low-Vision Users: Navigating Trust, Modality, and Interpretability in the Agentic Era

PlayCoder：使 LLM 生成的 GUI 代码具备可玩性

TEMPO：扩展大语言推理模型的测试时训练（Test-time Training）规模

AnyRecon：基于视频扩散模型的任意视角 3D 重建

AgentSPEX：一种 agent 规范与执行语言

CoInteract：通过空间结构化协同生成实现物理一致性的人机交互视频合成

Tstars-Tryon 1.0：针对多样化时尚单品的鲁棒且逼真的虚拟试穿研究

用于 Large Language Model 推理的快速 NF4 量化反量化 Kernel

EasyVideoR1：面向视频理解的更简便强化学习方法

MultiWorld：可扩展的多 agent 多视角视频世界模型

OpenGame：面向游戏的开放式 agentic 编程

Agent-World：为演进式通用 agent intelligence 扩展真实世界环境合成规模

OneVL：结合视觉-语言解释的一步式潜在推理与规划

通过判别式文本表示将单步图像生成从类别标签扩展至文本

ScribblePrompt: 面向各类生物医学图像的高效且灵活的交互式分割方法

Long-VITA: 将 Large Multi-modal Models 扩展至 100 万 tokens 并保持领先的短上下文准确率

UI-TARS：开创基于 Native Agent 的自动化 GUI 交互研究

HunyuanVideo: 大规模视频生成模型的系统性框架

MathNet：一个用于数学推理与检索的全球多模态基准测试

LLM Agents 中的外部化：关于 Memory、Skills、Protocols 与 Harness Engineering 的统一综述

主动上下文压缩：LLM Agents 中的自主内存管理

及时止损！通过早期路径剪枝实现高效的并行推理学习

Qwen3.5-Omni 技术报告

面向高效与低成本检索增强生成系统的网页检索感知分块方法（W-RAC）

PersonaVLM：长期的个性化 Multimodal LLMs

无需数据或优化实现最大脑损伤：通过 Sign-Bit Flips 破坏 Neural Networks

阐明扩散概率模型中的 SNR-t 偏差

BioInstruct：面向生物医学自然语言处理的 Large Language Models 指令微调研究

Logics-Parsing-Omni 技术报告

Task Tokens：一种适配行为基础模型的灵活方法

Explainable AI for Blind and Low-Vision Users: Navigating Trust, Modality, and Interpretability in the Agentic Era

PlayCoder：使 LLM 生成的 GUI 代码具备可玩性

TEMPO：扩展大语言推理模型的测试时训练（Test-time Training）规模

AnyRecon：基于视频扩散模型的任意视角 3D 重建

AgentSPEX：一种 agent 规范与执行语言

CoInteract：通过空间结构化协同生成实现物理一致性的人机交互视频合成

Tstars-Tryon 1.0：针对多样化时尚单品的鲁棒且逼真的虚拟试穿研究

用于 Large Language Model 推理的快速 NF4 量化反量化 Kernel

EasyVideoR1：面向视频理解的更简便强化学习方法

MultiWorld：可扩展的多 agent 多视角视频世界模型

OpenGame：面向游戏的开放式 agentic 编程

Agent-World：为演进式通用 agent intelligence 扩展真实世界环境合成规模

OneVL：结合视觉-语言解释的一步式潜在推理与规划

通过判别式文本表示将单步图像生成从类别标签扩展至文本

ScribblePrompt: 面向各类生物医学图像的高效且灵活的交互式分割方法

Long-VITA: 将 Large Multi-modal Models 扩展至 100 万 tokens 并保持领先的短上下文准确率

UI-TARS：开创基于 Native Agent 的自动化 GUI 交互研究

HunyuanVideo: 大规模视频生成模型的系统性框架

MathNet：一个用于数学推理与检索的全球多模态基准测试

LLM Agents 中的外部化：关于 Memory、Skills、Protocols 与 Harness Engineering 的统一综述

主动上下文压缩：LLM Agents 中的自主内存管理

及时止损！通过早期路径剪枝实现高效的并行推理学习

Qwen3.5-Omni 技术报告

面向高效与低成本检索增强生成系统的网页检索感知分块方法（W-RAC）

PersonaVLM：长期的个性化 Multimodal LLMs

无需数据或优化实现最大脑损伤：通过 Sign-Bit Flips 破坏 Neural Networks

阐明扩散概率模型中的 SNR-t 偏差

Command Palette

论文

Command Palette

论文

Command Palette

论文