Command Palette
Search for a command to run...
Qin Chen Yuanyi Ren Xiaojun Ma Mugeng Liu Han Shi Dongmei Zhang

摘要
电子表格在以数据为中心的任务中至关重要,其丰富且结构化的布局有助于高效传递信息。由于手动设计电子表格布局需要大量时间和专业知识,因此迫切需要自动化解决方案。然而,现有的自动化布局模型并不适用于电子表格,主要原因在于:(1)它们通常将组件视为具有连续坐标的轴对齐矩形,忽视了电子表格固有的离散化、网格化结构;(2)忽略了电子表格中特有的语义关联,如数据依赖关系和上下文链接等。本文首先形式化了电子表格布局生成任务,并构建了一个包含七项评估标准的评测协议以及一个包含3,326个电子表格的基准数据集。随后,我们提出SheetDesigner——一种无需训练、零样本的框架,利用多模态大语言模型(MLLMs)结合规则推理与视觉反思机制,实现组件的精准布局与内容填充。实验结果表明,SheetDesigner在性能上优于五种基线方法,提升幅度至少达22.6%。我们进一步发现,通过视觉模态,MLLMs在处理重叠与平衡方面表现良好,但在对齐方面仍存在困难,因此亟需采用融合规则与视觉反思的混合策略。本文的代码与数据已开源,可访问GitHub获取。