HyperAIHyperAI

Command Palette

Search for a command to run...

WebSailor-V2:通过合成数据与可扩展强化学习弥合专有Agent的鸿沟

Abstract

突破人类认知局限,是大语言模型(LLM)训练领域的一项关键前沿。诸如DeepResearch等专有智能体系统已在BrowseComp等极复杂的资讯检索基准测试中展现出超越人类的能力,这一成就此前在开源模型中尚属不可企及。我们认为,其成功的关键在于一种在开源模型中尚不存在的复杂推理模式:即在面对海量信息环境时,系统性降低极端不确定性的能力。基于这一洞察,我们提出了WebSailor——一种完整的后训练方法论,旨在赋予模型这一至关重要的能力。我们的方法包括:通过结构化采样与信息模糊化生成新型高不确定性任务,采用RFT冷启动策略,并结合一种高效的智能体强化学习训练算法——重复采样策略优化(DUPO)。通过这一集成化流程,WebSailor在复杂信息检索任务中显著超越所有现有开源智能体,性能逼近专有智能体水平,有效缩小了能力差距。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
WebSailor-V2:通过合成数据与可扩展强化学习弥合专有Agent的鸿沟 | Papers | HyperAI超神经