4 个月前

WebLINX:基于多轮对话的现实世界网站导航

WebLINX:基于多轮对话的现实世界网站导航

摘要

我们提出了对话式网络导航问题,其中数字代理控制网页浏览器并遵循用户指令,以多轮对话的形式解决现实世界中的任务。为了支持这一问题,我们引入了WEBLINX——一个包含2300个专家演示的10万次交互的大规模基准数据集,涵盖了对话式网络导航的各种模式。该基准数据集覆盖了150多个真实网站上的广泛模式,可用于在多种场景下训练和评估代理。由于信息量巨大,大型语言模型(LLMs)无法实时处理整个网页。为了解决这一瓶颈,我们设计了一种基于检索的模型,通过排名相关元素高效地修剪HTML页面。我们利用选定的元素、截图和操作历史来评估各种模型在模拟人类网络导航行为方面的能力。我们的实验范围从小型纯文本模型到专有的多模态大型语言模型(LLMs)。我们发现,经过微调的小型解码器超过了最佳的零样本大型语言模型(包括GPT-4V),但显式预训练过截图的更大规模的微调多模态模型也表现优异。然而,所有微调后的模型在泛化到未见过的网站时都存在困难。我们的研究结果突显了需要能够泛化到新环境的大规模多模态模型。我们的代码、数据和模型已开放用于研究:https://mcgill-nlp.github.io/weblinx

代码仓库

McGill-NLP/webllama
官方
pytorch
McGill-NLP/weblinx
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
conversational-web-navigation-on-weblinxGPT-3.5T (Zero-Shot)
Element (IoU): 8.62
Intent Match: 42.77
Overall score: 8.51
Text (F1): 3.45
conversational-web-navigation-on-weblinxS-LLaMA-1.3B
Element (IoU): 20.54
Intent Match: 83.32
Overall score: 23.73
Text (F1): 25.85
conversational-web-navigation-on-weblinxPix2Act-1.3B
Element (IoU): 8.28
Intent Match: 81.80
Overall score: 16.88
Text (F1): 25.21
conversational-web-navigation-on-weblinxMindAct-3B
Element (IoU): 16.50
Intent Match: 79.89
Overall score: 20.94
Text (F1): 23.16
conversational-web-navigation-on-weblinxFuyu-8B
Element (IoU): 15.70
Intent Match: 80.07
Overall score: 19.97
Text (F1): 22.30
conversational-web-navigation-on-weblinxLlama-2-13B
Element (IoU): 22.82
Intent Match: 81.91
Overall score: 25.21
Text (F1): 26.60
conversational-web-navigation-on-weblinxGPT-3.5F
Element (IoU): 18.64
Intent Match: 77.56
Overall score: 21.22
Text (F1): 22.39
conversational-web-navigation-on-weblinxMindAct-780M
Element (IoU): 13.39
Intent Match: 75.87
Overall score: 15.13
Text (F1): 13.58
conversational-web-navigation-on-weblinxFlan-T5-780M
Element (IoU): 15.36
Intent Match: 80.02
Overall score: 17.27
Text (F1): 14.05
conversational-web-navigation-on-weblinxMindAct-250M
Element (IoU): 12.05
Intent Match: 74.25
Overall score: 12.63
Text (F1): 7.67
conversational-web-navigation-on-weblinxPix2Act-282M
Element (IoU): 6.20
Intent Match: 79.71
Overall score: 12.51
Text (F1): 16.40
conversational-web-navigation-on-weblinxS-LLaMA-2.7B
Element (IoU): 22.60
Intent Match: 84.00
Overall score: 25.02
Text (F1): 27.17
conversational-web-navigation-on-weblinxGPT-4T (Zero-Shot)
Element (IoU): 10.85
Intent Match: 41.66
Overall score: 10.72
Text (F1): 6.75
conversational-web-navigation-on-weblinxFlan-T5-250M
Element (IoU): 14.86
Intent Match: 79.69
Overall score: 14.99
Text (F1): 9.21
conversational-web-navigation-on-weblinxFlan-T5-3B
Element (IoU): 20.31
Intent Match: 81.14
Overall score: 23.77
Text (F1): 25.75
conversational-web-navigation-on-weblinxGPT-4V (Zero-Shot)
Element (IoU): 10.91
Intent Match: 42.36
Overall score: 10.45
Text (F1): 6.21
conversational-web-navigation-on-weblinxLlama-2-7B
Element (IoU): 22.26
Intent Match: 82.64
Overall score: 24.57
Text (F1): 26.50

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
WebLINX:基于多轮对话的现实世界网站导航 | 论文 | HyperAI超神经