Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

ELV-Halluc:长视频理解中语义聚合幻觉的基准测试

MedChatZH:一个更优的医疗顾问通过更优的指令学习































ELV-Halluc:长视频理解中语义聚合幻觉的基准测试

MedChatZH:一个更优的医疗顾问通过更优的指令学习






























AlphaEarth Foundations:一种基于嵌入场的模型,用于从稀疏标签数据中实现精确且高效的全球制图
AetherCode:评估LLMs在顶级编程竞赛中获胜的能力
TileLang:一种面向AI系统的可组合分块编程模型
DeepSeek-R1 思维学:让我们探讨 LLM 推理
基于双轴传播的多本体集成用于医学概念表示
使用协作式多Agent LLM架构从SOAP病历中自动检测临床问题
SmolDocling:一种超紧凑的视觉-语言模型,用于端到端多模态文档转换
VA-MoE:面向增量天气预报的变量自适应专家混合模型
华佗GPT-Vision,面向大规模注入医学视觉知识到多模态LLM
输入重构如何提升复杂动态环境中工具使用准确性?基于τ-bench 的研究
ALLaM 34B 的 UI 级评估:通过 HUMAIN Chat 测量以阿拉伯语为中心的 LLM
从反应式到认知式:面向具身Agent的类脑空间智能
无标签遗漏:适用于所有监督模式的统一表面缺陷检测模型
T2R-bench:一个从真实工业表格生成文章级报告的基准测试
PVPO:面向智能体推理的预估价值策略优化
UQ:在未解问题上评估语言模型
CARJAN:基于Agent的交通场景生成与仿真方法——AJAN
TiKMiX:在语言模型预训练中引入数据影响的动态混合机制
TalkVid:一个大规模多样化音频驱动说话头合成数据集
Droplet3D:来自视频的常识先验促进3D生成
A.S.E:面向AI生成代码安全性的仓库级基准测试
EmbodiedOneVision:面向通用机器人控制的交织视觉-文本-动作预训练
R-4B:通过双模式退火与强化学习激励多模态大模型的通用自动思考能力
激发小规模语言模型的创意写作:基于LLM的评判与多智能体精炼奖励
TMUAD:通过文本记忆库增强统一异常检测模型的逻辑能力
思维链动态分析:主动引导还是不忠实的事后合理化?
AWorld:面向智能体AI训练配方的编排
MCP-Bench:通过MCP服务器对复杂现实世界任务中使用工具的LLM Agent进行基准测试
rStar2-Agent:代理式推理技术报告
Pref-GRPO:基于成对偏好奖励的GRPO用于稳定文本到图像强化学习
AlphaEarth Foundations:一种基于嵌入场的模型,用于从稀疏标签数据中实现精确且高效的全球制图
AetherCode:评估LLMs在顶级编程竞赛中获胜的能力
TileLang:一种面向AI系统的可组合分块编程模型
DeepSeek-R1 思维学:让我们探讨 LLM 推理
基于双轴传播的多本体集成用于医学概念表示
使用协作式多Agent LLM架构从SOAP病历中自动检测临床问题
SmolDocling:一种超紧凑的视觉-语言模型,用于端到端多模态文档转换
VA-MoE:面向增量天气预报的变量自适应专家混合模型
华佗GPT-Vision,面向大规模注入医学视觉知识到多模态LLM
输入重构如何提升复杂动态环境中工具使用准确性?基于τ-bench 的研究
ALLaM 34B 的 UI 级评估:通过 HUMAIN Chat 测量以阿拉伯语为中心的 LLM
从反应式到认知式:面向具身Agent的类脑空间智能
无标签遗漏:适用于所有监督模式的统一表面缺陷检测模型
T2R-bench:一个从真实工业表格生成文章级报告的基准测试
PVPO:面向智能体推理的预估价值策略优化
UQ:在未解问题上评估语言模型
CARJAN:基于Agent的交通场景生成与仿真方法——AJAN
TiKMiX:在语言模型预训练中引入数据影响的动态混合机制
TalkVid:一个大规模多样化音频驱动说话头合成数据集
Droplet3D:来自视频的常识先验促进3D生成
A.S.E:面向AI生成代码安全性的仓库级基准测试
EmbodiedOneVision:面向通用机器人控制的交织视觉-文本-动作预训练
R-4B:通过双模式退火与强化学习激励多模态大模型的通用自动思考能力
激发小规模语言模型的创意写作:基于LLM的评判与多智能体精炼奖励
TMUAD:通过文本记忆库增强统一异常检测模型的逻辑能力
思维链动态分析:主动引导还是不忠实的事后合理化?
AWorld:面向智能体AI训练配方的编排
MCP-Bench:通过MCP服务器对复杂现实世界任务中使用工具的LLM Agent进行基准测试
rStar2-Agent:代理式推理技术报告
Pref-GRPO:基于成对偏好奖励的GRPO用于稳定文本到图像强化学习