8 个月前

摘要

我们提出了对话式网络导航问题，其中数字代理控制网页浏览器并遵循用户指令，以多轮对话的形式解决现实世界中的任务。为了支持这一问题，我们引入了WEBLINX——一个包含2300个专家演示的10万次交互的大规模基准数据集，涵盖了对话式网络导航的各种模式。该基准数据集覆盖了150多个真实网站上的广泛模式，可用于在多种场景下训练和评估代理。由于信息量巨大，大型语言模型（LLMs）无法实时处理整个网页。为了解决这一瓶颈，我们设计了一种基于检索的模型，通过排名相关元素高效地修剪HTML页面。我们利用选定的元素、截图和操作历史来评估各种模型在模拟人类网络导航行为方面的能力。我们的实验范围从小型纯文本模型到专有的多模态大型语言模型（LLMs）。我们发现，经过微调的小型解码器超过了最佳的零样本大型语言模型（包括GPT-4V），但显式预训练过截图的更大规模的微调多模态模型也表现优异。然而，所有微调后的模型在泛化到未见过的网站时都存在困难。我们的研究结果突显了需要能够泛化到新环境的大规模多模态模型。我们的代码、数据和模型已开放用于研究：https://mcgill-nlp.github.io/weblinx

源 PDF