HyperAI超神经

VideoAgentTrek：从无标签视频中进行计算机使用预训练

动作识别

人机交互

Dunjie Lu, Yiheng Xu, Junli Wang, et al.

GigaBrain-0：基于世界模型的视觉-语言-行动模型

具身智能

机器人技术

GigaBrain Team, Angen Ye, Boyuan Wang, et al.

LLM

推理

Siyuan Wang, Gaokai Zhang, Li Lyna Zhang, et al.

强化学习

LLM

Zhiheng Xi, Xin Guo, Yang Nan, et al.

Transformer

模型训练

Ling Team, Bin Han, Caizhi Tang, et al.

图像修复

扩散模型

Sung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, et al.

视觉问答

多模态

Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, et al.

监督式微调

图像识别

Jiahao Chen, Zhiyuan Huang, Yurou Liu, et al.

LLM

统一多模态

Moritz Reuss, Hongyi Zhou, Marcel Rühle, et al.

强化学习

扩散模型

Siyan Zhao, Mengchen Liu, Jing Huang, et al.

基准

Agent

Zikang Guo, Benfeng Xu, Chiwei Zhu, et al.

扩散模型

多模态

Jiacheng Liu, Xinyu Wang, Yuqi Lin, et al.

视频生成

自动驾驶

Kai Zeng, Zhanqian Wu, Kaixin Xiong, et al.

深度估计

计算机视觉

Yingsi Qin, Aswin C. Sankaranarayanan, Matthew O'Toole

LLM

Transformer

Heecheol Yun, Kwangmin Ki, Junghyun Lee, et al.

检索增强生成

多模态

Chenghao Zhang, Guanting Dong, Xinyu Yang, et al.

多模态

统一多模态

Luis Wiedmann, Orr Zohar, Amir Mahla, et al.

视觉问答

文档理解

Jiale Cheng, Yusen Liu, Xinyu Zhang, et al.

图像修复

图生图

Yuandong Pu, Le Zhuo, Songhao Han, et al.

LLM

Agent

Shaolei Zhang, Ju Fan, Meihao Fan, et al.

AI for Science

Transformer

Zhen Huang, Hong Wang, Wenkai Yang, et al.

多模态

推理

Aaron Bell, Amit Aides, Amr Helmy, et al.

LLM

自然语言处理

Vihari Piratla, Purvam Jain, Darshan Singh, et al.

推理

LLM

Haoran Sun, Yankai Jiang, Zhenyu Tang, et al.

3D 生成

扩散模型

Jie-Ying Lee, Yi-Ruei Liu, Shr-Ruei Tsai, et al.

LLM

推理

Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, et al.

3D 模型

图像修复

Junliang Ye, Shenghao Xie, Ruowen Zhao, et al.

统一多模态

合成

Qingyan Bai, Qiuyu Wang, Hao Ouyang, et al.

多模态表征

统一多模态

Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, et al.

推理

LLM

Zhi Zhou, Yuhao Tan, Zenan Li, et al.

OCR

LLM

Haoran Wei, Yaofeng Sun, Yukun Li

偏好

LLM

Keertana Chidambaram, Karthik Vinary Seetharaman, Vasilis Syrgkanis

VideoAgentTrek：从无标签视频中进行计算机使用预训练

动作识别

人机交互

Dunjie Lu, Yiheng Xu, Junli Wang, et al.

GigaBrain-0：基于世界模型的视觉-语言-行动模型

具身智能

机器人技术

GigaBrain Team, Angen Ye, Boyuan Wang, et al.

LLM

推理

Siyuan Wang, Gaokai Zhang, Li Lyna Zhang, et al.

强化学习

LLM

Zhiheng Xi, Xin Guo, Yang Nan, et al.

Transformer

模型训练

Ling Team, Bin Han, Caizhi Tang, et al.

图像修复

扩散模型

Sung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, et al.

视觉问答

多模态

Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, et al.

监督式微调

图像识别

Jiahao Chen, Zhiyuan Huang, Yurou Liu, et al.

LLM

统一多模态

Moritz Reuss, Hongyi Zhou, Marcel Rühle, et al.

强化学习

扩散模型

Siyan Zhao, Mengchen Liu, Jing Huang, et al.

基准

Agent

Zikang Guo, Benfeng Xu, Chiwei Zhu, et al.

扩散模型

多模态

Jiacheng Liu, Xinyu Wang, Yuqi Lin, et al.

视频生成

自动驾驶

Kai Zeng, Zhanqian Wu, Kaixin Xiong, et al.

深度估计

计算机视觉

Yingsi Qin, Aswin C. Sankaranarayanan, Matthew O'Toole

LLM

Transformer

Heecheol Yun, Kwangmin Ki, Junghyun Lee, et al.

检索增强生成

多模态

Chenghao Zhang, Guanting Dong, Xinyu Yang, et al.

多模态

统一多模态

Luis Wiedmann, Orr Zohar, Amir Mahla, et al.

视觉问答

文档理解

Jiale Cheng, Yusen Liu, Xinyu Zhang, et al.

图像修复

图生图

Yuandong Pu, Le Zhuo, Songhao Han, et al.

LLM

Agent

Shaolei Zhang, Ju Fan, Meihao Fan, et al.

AI for Science

Transformer

Zhen Huang, Hong Wang, Wenkai Yang, et al.

多模态

推理

Aaron Bell, Amit Aides, Amr Helmy, et al.

LLM

自然语言处理

Vihari Piratla, Purvam Jain, Darshan Singh, et al.

推理

LLM

Haoran Sun, Yankai Jiang, Zhenyu Tang, et al.

3D 生成

扩散模型

Jie-Ying Lee, Yi-Ruei Liu, Shr-Ruei Tsai, et al.

LLM

推理

Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, et al.

3D 模型

图像修复

Junliang Ye, Shenghao Xie, Ruowen Zhao, et al.

统一多模态

合成

Qingyan Bai, Qiuyu Wang, Hao Ouyang, et al.

多模态表征

统一多模态

Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, et al.

推理

LLM

Zhi Zhou, Yuhao Tan, Zenan Li, et al.

OCR

LLM

Haoran Wei, Yaofeng Sun, Yukun Li

偏好

LLM

Keertana Chidambaram, Karthik Vinary Seetharaman, Vasilis Syrgkanis

LoongRL：面向长上下文的高级推理强化学习

BAPO：通过自适应裁剪的平衡策略优化稳定化LLM的离策略强化学习

每个Attention都至关重要：一种用于长上下文推理的高效混合架构

正确着色：连接感知色彩空间与文本嵌入以提升扩散生成效果

基于视觉-语言模型的自指多视角场景空间推理

LoFT：面向开放世界场景中长尾半监督学习的参数高效微调

FLOWER：通过高效的视觉-语言-动作流策略实现通用机器人策略的民主化

基于图像修复引导的扩散型大语言模型策略优化

MCP-AgentBench：通过MCP中介工具评估真实世界语言Agent性能

扩散模型中的缓存方法综述：面向高效多模态生成

重新思考驾驶世界模型作为感知任务的合成数据生成器

空间可变对焦

何时进行集成：识别用于稳定且快速LLM集成的token级点

面向通用检索增强生成的混合模态检索

FineVision：开放数据即所需全部

Glyph：通过视觉-文本压缩扩展上下文窗口

PICABench：我们离物理上真实的图像编辑还有多远？

DeepAnalyze：用于自主数据科学的智能体大型语言模型

基于自注意力机制的算子学习3D-IC热仿真

Earth AI：基于基础模型与跨模态推理解锁地理空间洞察

从统计学视角重新思考跨语言鸿沟

通过结构化组件化奖励机制释放科学推理能力以生成生物实验协议

Skyfall-GS：从卫星影像合成沉浸式3D城市场景

上下文学习导致的涌现性错位：有限的上下文示例可导致广泛错位的LLM

NANO3D：一种无需训练的高效3D编辑方法，无需掩码

基于指令的视频编辑的规模化：高质量合成数据集

OmniVinci：提升架构与数据以实现全模态理解 LLM

关于LLM推理中内部概率与自洽性衔接的理论研究

DeepSeek-OCR：上下文光学压缩

带有未观测偏好异质性的直接偏好优化：三元偏好必要性

LoongRL：面向长上下文的高级推理强化学习

BAPO：通过自适应裁剪的平衡策略优化稳定化LLM的离策略强化学习

每个Attention都至关重要：一种用于长上下文推理的高效混合架构

正确着色：连接感知色彩空间与文本嵌入以提升扩散生成效果

基于视觉-语言模型的自指多视角场景空间推理

LoFT：面向开放世界场景中长尾半监督学习的参数高效微调

FLOWER：通过高效的视觉-语言-动作流策略实现通用机器人策略的民主化

基于图像修复引导的扩散型大语言模型策略优化

MCP-AgentBench：通过MCP中介工具评估真实世界语言Agent性能

扩散模型中的缓存方法综述：面向高效多模态生成

重新思考驾驶世界模型作为感知任务的合成数据生成器

空间可变对焦

何时进行集成：识别用于稳定且快速LLM集成的token级点

面向通用检索增强生成的混合模态检索

FineVision：开放数据即所需全部

Glyph：通过视觉-文本压缩扩展上下文窗口

PICABench：我们离物理上真实的图像编辑还有多远？

DeepAnalyze：用于自主数据科学的智能体大型语言模型

基于自注意力机制的算子学习3D-IC热仿真

Earth AI：基于基础模型与跨模态推理解锁地理空间洞察

从统计学视角重新思考跨语言鸿沟

通过结构化组件化奖励机制释放科学推理能力以生成生物实验协议

Skyfall-GS：从卫星影像合成沉浸式3D城市场景

上下文学习导致的涌现性错位：有限的上下文示例可导致广泛错位的LLM

NANO3D：一种无需训练的高效3D编辑方法，无需掩码

基于指令的视频编辑的规模化：高质量合成数据集

OmniVinci：提升架构与数据以实现全模态理解 LLM

关于LLM推理中内部概率与自洽性衔接的理论研究

DeepSeek-OCR：上下文光学压缩

带有未观测偏好异质性的直接偏好优化：三元偏好必要性

Command Palette

论文

Command Palette

论文

Command Palette

论文