4 个月前

ScreenAI:一种用于UI和信息图理解的视觉-语言模型

ScreenAI:一种用于UI和信息图理解的视觉-语言模型

摘要

屏幕用户界面(UI)和信息图在视觉语言和设计原则方面具有相似性,在人类交流和人机交互中发挥着重要作用。我们介绍了ScreenAI,这是一种专门用于理解和分析UI及信息图的视觉-语言模型。该模型在PaLI架构的基础上,采用了pix2struct的灵活补丁策略,并在一个独特的数据集组合上进行了训练。这一组合的核心是一项新颖的屏幕注释任务,要求模型识别UI元素的类型和位置。我们利用这些文本注释向大型语言模型描述屏幕,并自动生成大规模的问题回答(QA)、UI导航和总结训练数据集。我们通过消融实验展示了这些设计选择的影响。尽管参数量仅为50亿,ScreenAI在基于UI和信息图的任务(多页文档问答Multi-page DocVQA、WebSRC、MoTIF和Widget Captioning)上取得了新的最先进结果,并在其他任务(图表问答Chart QA、DocVQA和InfographicVQA)上相比类似规模的模型表现出色。最后,我们发布了三个新数据集:一个专注于屏幕注释任务,另外两个则分别专注于问题回答。以上翻译遵循了内容准确、表达流畅、表述正式以及忠于原文的要求,并对专业术语进行了适当的处理。

代码仓库

基准测试

基准方法指标
chart-question-answering-on-chartqaScreenAI 5B (4.62 B params, w/ OCR)
1:1 Accuracy: 76.7
visual-question-answering-on-docvqa-testScreenAI 5B (4.62 B params, w/OCR)
ANLS: 0.8988
visual-question-answering-vqa-onScreenAI 5B (4.62 B params, w/ OCR)
ANLS: 65.90

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ScreenAI:一种用于UI和信息图理解的视觉-语言模型 | 论文 | HyperAI超神经