HyperAI超神经

MinerU-Diffusion：通过 Diffusion 解码将文档 OCR 重新构想为逆渲染

OCR

扩散模型

Hejun Dong, Junbo Niu, Bin Wang, et al.

PivotRL：低计算成本下的高精度 Agentic Post-Training

监督式微调

强化学习

Junkeun Yi, Damon Mosk-Aoyama, Baihe Huang, et al.

F4Splat：面向前馈 3D Gaussian Splatting 的前馈预测性致密化方法

3D 生成

3D 模型

Injae Kim, Chaehyeon Kim, Minseong Bae, et al.

多模态

多模态表征

Byungwoo Jeon, Dongyoung Kim, Huiwon Jang, et al.

视频理解

视觉问答

Ruoliu Yang, Chu Wu, Caifeng Shan, et al.

LLM

推理

Jianing Wang, Jianfei Zhang, Qi Guo, et al.

通义千问

多模态

SII-GAIR, Sand. ai, Ethan Chern, et al.

视频生成

3D 生成

Meiqi Wu, Zhixin Cai, Fufangchen Zhao, et al.

音频生成

多模态

Huadai Liu, Kaicheng Luo, Wen Wang, et al.

深度学习

多模态表征

Lucas Maes, Quentin Le Lidec, Damien Scieur, et al.

3D 生成

多模态

Zhifei Yang, Guangyao Zhai, Keyang Lu, et al.

文生视频

扩散模型

Jiazheng Xing, Fei Du, Hangjie Yuan, et al.

LLM

文本生成

Amartya Roy, Rasul Tutunov, Xiaotong Ji, et al.

多模态

视觉问答

Thomas De Min, Subhankar Roy, Stéphane Lathuilière, et al.

多模态

视觉问答

Yan Shu, Bin Ren, Zhitong Xiong, et al.

视频生成

模型训练

Songchun Zhang, Zeyue Xue, Siming Fu, et al.

视觉问答

LLM

Shenzhi Wang, Shixuan Liu, Jing Zhou, et al.

扩散模型

视频生成

Chenyang Gu, Mingyuan Zhang, Haozhe Xie, et al.

多模态

扩散模型

Yuxiang Lu, Zhe Liu, Xianzhe Fan, et al.

3D 生成

文生视频

Hyun-kyu Ko, Jihyeon Park, Younghyun Kim, et al.

视频生成

扩散模型

Xinyao Zhang, Wenkai Dong, Yuxin Song, et al.

3D 生成

视频生成

Xianjin Wu, Dingkang Liang, Tianrui Feng, et al.

LLM

推理

Yulin Li, Tengyao Tu, Li Ding, et al.

多模态

多模态表征

Yulin Luo, Hao Chen, Zhuangzhe Wu, et al.

强化学习

Agent

Dilxat Muhtar, Jiashun Liu, Wei Gao, et al.

LLM

偏好

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

视频生成

扩散模型

Wei Yu, Runjia Qian, Yumeng Li, et al.

LLM

Agent

Peng Xia, Jianwen Chen, Xinyu Yang, et al.

视频理解

多模态

Qile Su, Jing Tang, Rui Chen, et al.

FunCineForge：面向多样化电影场景的零样本电影配音统一数据集工具包与模型

语音生成

多模态

Jiaxuan Liu, Yang Xiang, Han Zhao, et al.

面向 Large Language Models 的 In-Context Watermarks

LLM

文本生成

Yepeng Liu, Xuandong Zhao, Christopher Kruegel, et al.

扩散模型

视频生成

Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, et al.

MinerU-Diffusion：通过 Diffusion 解码将文档 OCR 重新构想为逆渲染

OCR

扩散模型

Hejun Dong, Junbo Niu, Bin Wang, et al.

PivotRL：低计算成本下的高精度 Agentic Post-Training

监督式微调

强化学习

Junkeun Yi, Damon Mosk-Aoyama, Baihe Huang, et al.

3D 生成

3D 模型

Injae Kim, Chaehyeon Kim, Minseong Bae, et al.

多模态

多模态表征

Byungwoo Jeon, Dongyoung Kim, Huiwon Jang, et al.

视频理解

视觉问答

Ruoliu Yang, Chu Wu, Caifeng Shan, et al.

LLM

推理

Jianing Wang, Jianfei Zhang, Qi Guo, et al.

通义千问

多模态

SII-GAIR, Sand. ai, Ethan Chern, et al.

视频生成

3D 生成

Meiqi Wu, Zhixin Cai, Fufangchen Zhao, et al.

音频生成

多模态

Huadai Liu, Kaicheng Luo, Wen Wang, et al.

深度学习

多模态表征

Lucas Maes, Quentin Le Lidec, Damien Scieur, et al.

3D 生成

多模态

Zhifei Yang, Guangyao Zhai, Keyang Lu, et al.

文生视频

扩散模型

Jiazheng Xing, Fei Du, Hangjie Yuan, et al.

LLM

文本生成

Amartya Roy, Rasul Tutunov, Xiaotong Ji, et al.

多模态

视觉问答

Thomas De Min, Subhankar Roy, Stéphane Lathuilière, et al.

多模态

视觉问答

Yan Shu, Bin Ren, Zhitong Xiong, et al.

视频生成

模型训练

Songchun Zhang, Zeyue Xue, Siming Fu, et al.

视觉问答

LLM

Shenzhi Wang, Shixuan Liu, Jing Zhou, et al.

扩散模型

视频生成

Chenyang Gu, Mingyuan Zhang, Haozhe Xie, et al.

多模态

扩散模型

Yuxiang Lu, Zhe Liu, Xianzhe Fan, et al.

3D 生成

文生视频

Hyun-kyu Ko, Jihyeon Park, Younghyun Kim, et al.

视频生成

扩散模型

Xinyao Zhang, Wenkai Dong, Yuxin Song, et al.

3D 生成

视频生成

Xianjin Wu, Dingkang Liang, Tianrui Feng, et al.

LLM

推理

Yulin Li, Tengyao Tu, Li Ding, et al.

多模态

多模态表征

Yulin Luo, Hao Chen, Zhuangzhe Wu, et al.

强化学习

Agent

Dilxat Muhtar, Jiashun Liu, Wei Gao, et al.

LLM

偏好

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

视频生成

扩散模型

Wei Yu, Runjia Qian, Yumeng Li, et al.

LLM

Agent

Peng Xia, Jianwen Chen, Xinyu Yang, et al.

视频理解

多模态

Qile Su, Jing Tang, Rui Chen, et al.

语音生成

多模态

Jiaxuan Liu, Yang Xiang, Han Zhao, et al.

LLM

文本生成

Yepeng Liu, Xuandong Zhao, Christopher Kruegel, et al.

扩散模型

视频生成

Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, et al.

F4Splat：面向前馈 3D Gaussian Splatting 的前馈预测性致密化方法

SpatialBoost：通过语言引导推理增强视觉表征

VideoDetective：通过外在查询与内在相关性进行线索挖掘以实现长视频理解

LongCat-Flash-Prover：通过智能体工具集成强化学习推进原生形式化推理

速度源于简约：一种用于快速音视频生成基础模型的单流架构

Omni-WorldBench：面向以交互为核心的世界模型综合评估

PrismAudio：面向视频到音频生成的分解式思维链与多维奖励机制

LeWorldModel：基于像素的稳定端到端联合嵌入预测架构

FlowScene：基于多模态图校正流的风格一致室内场景生成

LumosX：将任意身份与其属性关联以实现个性化视频生成

面向大语言模型的 Y Combinator：用 λ 演算解决长上下文退化问题

ProactiveBench：多模态大语言模型主动性基准测试

TerraScope：面向对地观测的像素级视觉推理

Astrolabe：为蒸馏自回归视频模型引导前向过程强化学习

HopChain：面向可泛化视觉 - 语言推理的多跳数据合成

弥合语义与运动学条件：基于 Diffusion 的离散运动 Tokenizer

FASTER：重新思考实时流式视觉语言动作模型

3DreamBooth：高保真度以主体为中心的 3D 视频生成模型

SAMA：面向指令驱动视频编辑的因子化语义锚定与运动对齐

生成模型感知空间：释放隐式3D先验以增强场景理解

高效推理与平衡思维

行动前审视：增强面向视觉 - 语言 - 动作模型的视觉基础表征

互补强化学习

对齐使语言模型具备规范性，而非描述性。

MosaicMem：用于可控视频世界模型的混合空间记忆机制

MetaClaw：仅需对话——一种在开放环境中进行元学习并持续演化的 Agent

Video-CoE：通过事件链增强视频事件预测

FunCineForge：面向多样化电影场景的零样本电影配音统一数据集工具包与模型

面向 Large Language Models 的 In-Context Watermarks

WorldCam：以相机姿态为统一几何表示的交互式自回归3D游戏世界

F4Splat：面向前馈 3D Gaussian Splatting 的前馈预测性致密化方法

SpatialBoost：通过语言引导推理增强视觉表征

VideoDetective：通过外在查询与内在相关性进行线索挖掘以实现长视频理解

LongCat-Flash-Prover：通过智能体工具集成强化学习推进原生形式化推理

速度源于简约：一种用于快速音视频生成基础模型的单流架构

Omni-WorldBench：面向以交互为核心的世界模型综合评估

PrismAudio：面向视频到音频生成的分解式思维链与多维奖励机制

LeWorldModel：基于像素的稳定端到端联合嵌入预测架构

FlowScene：基于多模态图校正流的风格一致室内场景生成

LumosX：将任意身份与其属性关联以实现个性化视频生成

面向大语言模型的 Y Combinator：用 λ 演算解决长上下文退化问题

ProactiveBench：多模态大语言模型主动性基准测试

TerraScope：面向对地观测的像素级视觉推理

Astrolabe：为蒸馏自回归视频模型引导前向过程强化学习

HopChain：面向可泛化视觉 - 语言推理的多跳数据合成

弥合语义与运动学条件：基于 Diffusion 的离散运动 Tokenizer

FASTER：重新思考实时流式视觉语言动作模型

3DreamBooth：高保真度以主体为中心的 3D 视频生成模型

SAMA：面向指令驱动视频编辑的因子化语义锚定与运动对齐

生成模型感知空间：释放隐式3D先验以增强场景理解

高效推理与平衡思维

行动前审视：增强面向视觉 - 语言 - 动作模型的视觉基础表征

互补强化学习

对齐使语言模型具备规范性，而非描述性。

MosaicMem：用于可控视频世界模型的混合空间记忆机制

MetaClaw：仅需对话——一种在开放环境中进行元学习并持续演化的 Agent

Video-CoE：通过事件链增强视频事件预测

FunCineForge：面向多样化电影场景的零样本电影配音统一数据集工具包与模型

面向 Large Language Models 的 In-Context Watermarks

WorldCam：以相机姿态为统一几何表示的交互式自回归3D游戏世界

Command Palette

论文

Command Palette

论文

Command Palette

论文