Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

行动前审视:增强面向视觉 - 语言 - 动作模型的视觉基础表征

互补强化学习































行动前审视:增强面向视觉 - 语言 - 动作模型的视觉基础表征

互补强化学习






























对齐使语言模型具备规范性,而非描述性。
MosaicMem:用于可控视频世界模型的混合空间记忆机制
MetaClaw:仅需对话——一种在开放环境中进行元学习并持续演化的 Agent
Video-CoE:通过事件链增强视频事件预测
FunCineForge:面向多样化电影场景的零样本电影配音统一数据集工具包与模型
面向 Large Language Models 的 In-Context Watermarks
WorldCam:以相机姿态为统一几何表示的交互式自回归3D游戏世界
揭秘视频推理
Kinema4D:面向时空具身模拟的运动学四维世界建模
Qianfan-OCR:一种面向文档智能的统一端到端模型
InCoder-32B:面向工业场景的代码基础模型
MiroThinker-1.7 与 H1:迈向基于验证的重型研究 Agent
HSImul3R:物理在环的人机场景交互重建,生成仿真就绪数据
深度混合注意力
注意力残差
将世界模拟模型锚定于真实世界大都市
OpenSeeker:通过完全开源训练数据,推动前沿搜索 Agent 的民主化
人工智能能够习得科学品味
MM-CondChain:用于视觉推理的深度组合能力程序化验证基准
视觉 - 语言模型能否破解“三仙归洞”难题?
OmniForcing:释放实时音视频联合生成能力
daVinci-Env:大规模开源软件工程环境合成
Cheers:解耦图像块细节与语义表示,实现统一的多模态理解与生成
LMEB:长程记忆嵌入基准测试
DreamVideo-Omni:通过潜在身份强化学习实现全动作控制的多主体视频定制
ShotVerse:推动文本驱动多镜头视频创作中的电影级相机控制进展
面向计算机使用智能体的视频奖励建模
IndexCache:通过跨层索引复用加速稀疏注意力机制
战略导航还是随机搜索?Agent 与人类如何在文档集合中进行推理
Spatial-TTT:基于流式视觉的测试时训练空间智能
对齐使语言模型具备规范性,而非描述性。
MosaicMem:用于可控视频世界模型的混合空间记忆机制
MetaClaw:仅需对话——一种在开放环境中进行元学习并持续演化的 Agent
Video-CoE:通过事件链增强视频事件预测
FunCineForge:面向多样化电影场景的零样本电影配音统一数据集工具包与模型
面向 Large Language Models 的 In-Context Watermarks
WorldCam:以相机姿态为统一几何表示的交互式自回归3D游戏世界
揭秘视频推理
Kinema4D:面向时空具身模拟的运动学四维世界建模
Qianfan-OCR:一种面向文档智能的统一端到端模型
InCoder-32B:面向工业场景的代码基础模型
MiroThinker-1.7 与 H1:迈向基于验证的重型研究 Agent
HSImul3R:物理在环的人机场景交互重建,生成仿真就绪数据
深度混合注意力
注意力残差
将世界模拟模型锚定于真实世界大都市
OpenSeeker:通过完全开源训练数据,推动前沿搜索 Agent 的民主化
人工智能能够习得科学品味
MM-CondChain:用于视觉推理的深度组合能力程序化验证基准
视觉 - 语言模型能否破解“三仙归洞”难题?
OmniForcing:释放实时音视频联合生成能力
daVinci-Env:大规模开源软件工程环境合成
Cheers:解耦图像块细节与语义表示,实现统一的多模态理解与生成
LMEB:长程记忆嵌入基准测试
DreamVideo-Omni:通过潜在身份强化学习实现全动作控制的多主体视频定制
ShotVerse:推动文本驱动多镜头视频创作中的电影级相机控制进展
面向计算机使用智能体的视频奖励建模
IndexCache:通过跨层索引复用加速稀疏注意力机制
战略导航还是随机搜索?Agent 与人类如何在文档集合中进行推理
Spatial-TTT:基于流式视觉的测试时训练空间智能