BaechlerGilles ; SunkaraSrinivas ; WangMaria ; ZubachFedir ; MansoorHassan ; EtterVincent ; CărbuneVictor ; LinJason ; ChenJindong ; SharmaAbhanshu

摘要
屏幕用户界面(UI)和信息图在视觉语言和设计原则方面具有相似性,在人类交流和人机交互中发挥着重要作用。我们介绍了ScreenAI,这是一种专门用于理解和分析UI及信息图的视觉-语言模型。该模型在PaLI架构的基础上,采用了pix2struct的灵活补丁策略,并在一个独特的数据集组合上进行了训练。这一组合的核心是一项新颖的屏幕注释任务,要求模型识别UI元素的类型和位置。我们利用这些文本注释向大型语言模型描述屏幕,并自动生成大规模的问题回答(QA)、UI导航和总结训练数据集。我们通过消融实验展示了这些设计选择的影响。尽管参数量仅为50亿,ScreenAI在基于UI和信息图的任务(多页文档问答Multi-page DocVQA、WebSRC、MoTIF和Widget Captioning)上取得了新的最先进结果,并在其他任务(图表问答Chart QA、DocVQA和InfographicVQA)上相比类似规模的模型表现出色。最后,我们发布了三个新数据集:一个专注于屏幕注释任务,另外两个则分别专注于问题回答。以上翻译遵循了内容准确、表达流畅、表述正式以及忠于原文的要求,并对专业术语进行了适当的处理。
代码仓库
google-research-datasets/screen_qa
官方
GitHub 中提及
google-research-datasets/screen_annotation
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| chart-question-answering-on-chartqa | ScreenAI 5B (4.62 B params, w/ OCR) | 1:1 Accuracy: 76.7 |
| visual-question-answering-on-docvqa-test | ScreenAI 5B (4.62 B params, w/OCR) | ANLS: 0.8988 |
| visual-question-answering-vqa-on | ScreenAI 5B (4.62 B params, w/ OCR) | ANLS: 65.90 |