Command Palette

Search for a command to run...

3 个月前

SheetDesigner:基于规则与视觉反馈的MLLM驱动电子表格布局生成

Qin Chen Yuanyi Ren Xiaojun Ma Mugeng Liu Han Shi Dongmei Zhang

SheetDesigner:基于规则与视觉反馈的MLLM驱动电子表格布局生成

摘要

电子表格在以数据为中心的任务中至关重要,其丰富且结构化的布局有助于高效传递信息。由于手动设计电子表格布局需要大量时间和专业知识,因此迫切需要自动化解决方案。然而,现有的自动化布局模型并不适用于电子表格,主要原因在于:(1)它们通常将组件视为具有连续坐标的轴对齐矩形,忽视了电子表格固有的离散化、网格化结构;(2)忽略了电子表格中特有的语义关联,如数据依赖关系和上下文链接等。本文首先形式化了电子表格布局生成任务,并构建了一个包含七项评估标准的评测协议以及一个包含3,326个电子表格的基准数据集。随后,我们提出SheetDesigner——一种无需训练、零样本的框架,利用多模态大语言模型(MLLMs)结合规则推理与视觉反思机制,实现组件的精准布局与内容填充。实验结果表明,SheetDesigner在性能上优于五种基线方法,提升幅度至少达22.6%。我们进一步发现,通过视觉模态,MLLMs在处理重叠与平衡方面表现良好,但在对齐方面仍存在困难,因此亟需采用融合规则与视觉反思的混合策略。本文的代码与数据已开源,可访问GitHub获取。

代码仓库

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SheetDesigner:基于规则与视觉反馈的MLLM驱动电子表格布局生成 | 论文 | HyperAI超神经