HyperAIHyperAI

Command Palette

Search for a command to run...

6 个月前
Agent
推理
LLM

WebSailor:用于网络代理的超人类推理导航

Abstract

超越人类认知限制是大型语言模型(LLM)训练中的一个关键前沿。像DeepResearch这样的专有代理系统已经在极其复杂的寻息基准测试中展示了超人的能力,例如BrowseComp,这是以前无法实现的壮举。我们认为,它们的成功在于一种在开源模型中缺失的复杂推理模式:即在导航广阔的信息空间时,能够系统地减少极端不确定性。基于这一见解,我们引入了WebSailor,这是一种完整的后训练方法论,旨在培养这种关键能力。我们的方法包括通过结构化采样和信息混淆生成新的高不确定性任务、RFT冷启动以及一种高效的代理强化学习算法——重复采样策略优化(DUPO)。通过这一集成管道,WebSailor在复杂的信息寻息任务中显著优于所有开源代理,其性能与专有代理相当,从而缩小了能力差距。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
WebSailor:用于网络代理的超人类推理导航 | Papers | HyperAI超神经