8 个月前

自然语言处理

Gilles Baechler Srinivas Sunkara Maria Wang Fedir Zubach Hassan Mansoor Vincent Etter Victor Carbune Jason Lin Jindong Chen Abhanshu Sharma

摘要

屏幕用户界面（UI）和信息图在视觉语言和设计原则方面具有相似性，在人类交流和人机交互中发挥着重要作用。我们介绍了ScreenAI，这是一种专门用于理解和分析UI及信息图的视觉-语言模型。该模型在PaLI架构的基础上，采用了pix2struct的灵活补丁策略，并在一个独特的数据集组合上进行了训练。这一组合的核心是一项新颖的屏幕注释任务，要求模型识别UI元素的类型和位置。我们利用这些文本注释向大型语言模型描述屏幕，并自动生成大规模的问题回答（QA）、UI导航和总结训练数据集。我们通过消融实验展示了这些设计选择的影响。尽管参数量仅为50亿，ScreenAI在基于UI和信息图的任务（多页文档问答Multi-page DocVQA、WebSRC、MoTIF和Widget Captioning）上取得了新的最先进结果，并在其他任务（图表问答Chart QA、DocVQA和InfographicVQA）上相比类似规模的模型表现出色。最后，我们发布了三个新数据集：一个专注于屏幕注释任务，另外两个则分别专注于问题回答。以上翻译遵循了内容准确、表达流畅、表述正式以及忠于原文的要求，并对专业术语进行了适当的处理。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

Gilles Baechler Srinivas Sunkara Maria Wang Fedir Zubach Hassan Mansoor Vincent Etter Victor Carbune Jason Lin Jindong Chen Abhanshu Sharma

摘要

屏幕用户界面（UI）和信息图在视觉语言和设计原则方面具有相似性，在人类交流和人机交互中发挥着重要作用。我们介绍了ScreenAI，这是一种专门用于理解和分析UI及信息图的视觉-语言模型。该模型在PaLI架构的基础上，采用了pix2struct的灵活补丁策略，并在一个独特的数据集组合上进行了训练。这一组合的核心是一项新颖的屏幕注释任务，要求模型识别UI元素的类型和位置。我们利用这些文本注释向大型语言模型描述屏幕，并自动生成大规模的问题回答（QA）、UI导航和总结训练数据集。我们通过消融实验展示了这些设计选择的影响。尽管参数量仅为50亿，ScreenAI在基于UI和信息图的任务（多页文档问答Multi-page DocVQA、WebSRC、MoTIF和Widget Captioning）上取得了新的最先进结果，并在其他任务（图表问答Chart QA、DocVQA和InfographicVQA）上相比类似规模的模型表现出色。最后，我们发布了三个新数据集：一个专注于屏幕注释任务，另外两个则分别专注于问题回答。以上翻译遵循了内容准确、表达流畅、表述正式以及忠于原文的要求，并对专业术语进行了适当的处理。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供