HyperAIHyperAI

Command Palette

Search for a command to run...

SheetDesigner:基于规则与视觉反馈的MLLM驱动电子表格布局生成

Qin Chen Yuanyi Ren Xiaojun Ma Mugeng Liu Han Shi Dongmei Zhang

Abstract

电子表格在以数据为中心的任务中至关重要,其丰富且结构化的布局有助于高效传递信息。由于手动设计电子表格布局需要大量时间和专业知识,因此迫切需要自动化解决方案。然而,现有的自动化布局模型并不适用于电子表格,主要原因在于:(1)它们通常将组件视为具有连续坐标的轴对齐矩形,忽视了电子表格固有的离散化、网格化结构;(2)忽略了电子表格中特有的语义关联,如数据依赖关系和上下文链接等。本文首先形式化了电子表格布局生成任务,并构建了一个包含七项评估标准的评测协议以及一个包含3,326个电子表格的基准数据集。随后,我们提出SheetDesigner——一种无需训练、零样本的框架,利用多模态大语言模型(MLLMs)结合规则推理与视觉反思机制,实现组件的精准布局与内容填充。实验结果表明,SheetDesigner在性能上优于五种基线方法,提升幅度至少达22.6%。我们进一步发现,通过视觉模态,MLLMs在处理重叠与平衡方面表现良好,但在对齐方面仍存在困难,因此亟需采用融合规则与视觉反思的混合策略。本文的代码与数据已开源,可访问GitHub获取。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SheetDesigner:基于规则与视觉反馈的MLLM驱动电子表格布局生成 | Papers | HyperAI超神经