Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

CUA-Suite:面向计算机使用 Agent 的大规模人工标注视频演示数据集

EVA:面向端到端视频 Agent 的高效强化学习

Foveated Diffusion:高效的空间自适应图像与视频生成

Ego2Web:一种基于第一视角视频的 Web Agent 基准测试

从静态模板到动态运行时图:LLM Agent 工作流优化综述

SpecEyes:通过推测性感知与规划加速代理式多模态LLM

DA-Flow:基于 Diffusion 模型的退化感知光流估计

PEARL:个性化流式视频理解模型

WildWorld:面向生成式 ARPG 的、具备动作与显式状态的大规模动态世界建模数据集

MinerU-Diffusion:通过 Diffusion 解码将文档 OCR 重新构想为逆渲染

PivotRL:低计算成本下的高精度 Agentic Post-Training

F4Splat:面向前馈 3D Gaussian Splatting 的前馈预测性致密化方法

SpatialBoost:通过语言引导推理增强视觉表征

VideoDetective:通过外在查询与内在相关性进行线索挖掘以实现长视频理解

LongCat-Flash-Prover:通过智能体工具集成强化学习推进原生形式化推理

速度源于简约:一种用于快速音视频生成基础模型的单流架构

Omni-WorldBench:面向以交互为核心的世界模型综合评估

PrismAudio:面向视频到音频生成的分解式思维链与多维奖励机制

LeWorldModel:基于像素的稳定端到端联合嵌入预测架构

FlowScene:基于多模态图校正流的风格一致室内场景生成

LumosX:将任意身份与其属性关联以实现个性化视频生成

面向大语言模型的 Y Combinator:用 λ 演算解决长上下文退化问题

ProactiveBench:多模态大语言模型主动性基准测试

TerraScope:面向对地观测的像素级视觉推理

Astrolabe:为蒸馏自回归视频模型引导前向过程强化学习

HopChain:面向可泛化视觉 - 语言推理的多跳数据合成

弥合语义与运动学条件:基于 Diffusion 的离散运动 Tokenizer

FASTER:重新思考实时流式视觉语言动作模型

3DreamBooth:高保真度以主体为中心的 3D 视频生成模型

SAMA:面向指令驱动视频编辑的因子化语义锚定与运动对齐

生成模型感知空间:释放隐式3D先验以增强场景理解

高效推理与平衡思维

CUA-Suite:面向计算机使用 Agent 的大规模人工标注视频演示数据集

EVA:面向端到端视频 Agent 的高效强化学习

Foveated Diffusion:高效的空间自适应图像与视频生成

Ego2Web:一种基于第一视角视频的 Web Agent 基准测试

从静态模板到动态运行时图:LLM Agent 工作流优化综述

SpecEyes:通过推测性感知与规划加速代理式多模态LLM

DA-Flow:基于 Diffusion 模型的退化感知光流估计

PEARL:个性化流式视频理解模型

WildWorld:面向生成式 ARPG 的、具备动作与显式状态的大规模动态世界建模数据集

MinerU-Diffusion:通过 Diffusion 解码将文档 OCR 重新构想为逆渲染

PivotRL:低计算成本下的高精度 Agentic Post-Training

F4Splat:面向前馈 3D Gaussian Splatting 的前馈预测性致密化方法

SpatialBoost:通过语言引导推理增强视觉表征

VideoDetective:通过外在查询与内在相关性进行线索挖掘以实现长视频理解

LongCat-Flash-Prover:通过智能体工具集成强化学习推进原生形式化推理

速度源于简约:一种用于快速音视频生成基础模型的单流架构

Omni-WorldBench:面向以交互为核心的世界模型综合评估

PrismAudio:面向视频到音频生成的分解式思维链与多维奖励机制

LeWorldModel:基于像素的稳定端到端联合嵌入预测架构

FlowScene:基于多模态图校正流的风格一致室内场景生成

LumosX:将任意身份与其属性关联以实现个性化视频生成

面向大语言模型的 Y Combinator:用 λ 演算解决长上下文退化问题

ProactiveBench:多模态大语言模型主动性基准测试

TerraScope:面向对地观测的像素级视觉推理

Astrolabe:为蒸馏自回归视频模型引导前向过程强化学习

HopChain:面向可泛化视觉 - 语言推理的多跳数据合成

弥合语义与运动学条件:基于 Diffusion 的离散运动 Tokenizer

FASTER:重新思考实时流式视觉语言动作模型

3DreamBooth:高保真度以主体为中心的 3D 视频生成模型

SAMA:面向指令驱动视频编辑的因子化语义锚定与运动对齐

生成模型感知空间:释放隐式3D先验以增强场景理解

高效推理与平衡思维