Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

ST-Raptor:基于LLM的半结构化表格问答

OmniSpatial:面向视觉语言模型的全面空间推理基准































ST-Raptor:基于LLM的半结构化表格问答

OmniSpatial:面向视觉语言模型的全面空间推理基准






























理解谈判博弈中人类代理与AI代理之间的经济权衡
Jupiter:通过Notebook与推理时价值引导搜索增强LLM数据分析能力
Hunyuan-MT 技术报告
P3-SAM:原生3D部件分割
AgentGym-RL:通过多轮强化学习训练LLM Agent实现长时程决策
三维与四维世界建模:一项综述
RewardDance:视觉生成中的奖励缩放
分享即关爱:基于集体强化学习经验共享的高效LM后训练
FinReflectKG:金融知识图谱的智能体构建与评估
大规模推理模型的强化学习研究综述
衡量并缓解过度依赖对于构建与人类兼容的AI至关重要
F1:一种连接理解与生成到行动的视觉-语言-行动模型
UMO:通过匹配奖励实现图像定制中的多身份一致性扩展
重建对齐提升统一多模态模型
Mini-o3:面向视觉搜索的推理模式与交互轮次的扩展
多模态大语言模型的视觉表征对齐
并行-R1:通过强化学习实现并行思维
WenetSpeech-Yue:一个具有多维度标注的大规模粤语语音语料库
SheetDesigner:基于规则与视觉反馈的MLLM驱动电子表格布局生成
自主代码演化邂逅NP-完全性
深度研究系统中的强化学习基础:一项综述
工具增强的视觉感知
DINOv3 是否设定了新的医学视觉标准?
用于扩散大语言模型的强化学习框架的革命性革新
WebExplorer:用于训练长时序Web Agent的探索与演化
逆向工程推理用于开放式生成
OSC:多智能体LLM协作中的动态知识对齐认知编排
CURE:用于鲁棒嵌入的可控遗忘——缓解预训练语言模型中的概念捷径
MedVista3D:用于减少三维CT疾病检测、理解与报告中诊断错误的视觉-语言建模
LuxDiT:基于视频扩散Transformer的光照估计
理解谈判博弈中人类代理与AI代理之间的经济权衡
Jupiter:通过Notebook与推理时价值引导搜索增强LLM数据分析能力
Hunyuan-MT 技术报告
P3-SAM:原生3D部件分割
AgentGym-RL:通过多轮强化学习训练LLM Agent实现长时程决策
三维与四维世界建模:一项综述
RewardDance:视觉生成中的奖励缩放
分享即关爱:基于集体强化学习经验共享的高效LM后训练
FinReflectKG:金融知识图谱的智能体构建与评估
大规模推理模型的强化学习研究综述
衡量并缓解过度依赖对于构建与人类兼容的AI至关重要
F1:一种连接理解与生成到行动的视觉-语言-行动模型
UMO:通过匹配奖励实现图像定制中的多身份一致性扩展
重建对齐提升统一多模态模型
Mini-o3:面向视觉搜索的推理模式与交互轮次的扩展
多模态大语言模型的视觉表征对齐
并行-R1:通过强化学习实现并行思维
WenetSpeech-Yue:一个具有多维度标注的大规模粤语语音语料库
SheetDesigner:基于规则与视觉反馈的MLLM驱动电子表格布局生成
自主代码演化邂逅NP-完全性
深度研究系统中的强化学习基础:一项综述
工具增强的视觉感知
DINOv3 是否设定了新的医学视觉标准?
用于扩散大语言模型的强化学习框架的革命性革新
WebExplorer:用于训练长时序Web Agent的探索与演化
逆向工程推理用于开放式生成
OSC:多智能体LLM协作中的动态知识对齐认知编排
CURE:用于鲁棒嵌入的可控遗忘——缓解预训练语言模型中的概念捷径
MedVista3D:用于减少三维CT疾病检测、理解与报告中诊断错误的视觉-语言建模
LuxDiT:基于视频扩散Transformer的光照估计