Command Palette
Search for a command to run...
Maoyuan Ye Jing Zhang, Senior Member, IEEE Juhua Liu, Member, IEEE Chenyu Liu Baocai Yin Cong Liu Bo Du, Senior Member, IEEE Dacheng Tao, Fellow, IEEE

摘要
Segment Anything 模型(SAM)是一种在大规模数据集上预训练的深度视觉基础模型,它打破了通用分割的界限,激发了各种下游应用。本文介绍了 Hi-SAM,一种利用 SAM 实现层次文本分割的统一模型。Hi-SAM 在四个层次上的分割表现优异,包括像素级文本、单词、文本行和段落,并且能够实现布局分析。具体而言,我们首先通过参数高效的微调方法将 SAM 转变为高质量的像素级文本分割(TS)模型。然后,我们使用该 TS 模型以半自动的方式迭代生成 HierText 数据集中四个文本层次的像素级标签。接下来,基于这些完整的标签,我们在 TS 架构的基础上设计了一个定制化的层次掩码解码器,构建了端到端可训练的 Hi-SAM 模型。在推理过程中,Hi-SAM 提供了自动掩码生成(AMG)模式和可提示分割(PS)模式两种选择。在 AMG 模式下,Hi-SAM 首先生成像素级文本前景掩码,然后采样前景点进行层次文本掩码生成,并在此过程中实现布局分析。而在 PS 模式下,Hi-SAM 可以通过单点点击提供单词、文本行和段落的掩码。实验结果表明,我们的 TS 模型在像素级文本分割方面达到了最先进的性能:在 Total-Text 数据集上实现了 84.86% 的前景交并比(fgIOU),在 TextSeg 数据集上实现了 88.96% 的 fgIOU。此外,与之前专门用于联合层次检测和布局分析的方法相比,Hi-SAM 在 HierText 数据集上取得了显著改进:在文本行级别上提高了 4.73% 的 Panoptic Quality(PQ)和 5.39% 的 F1 分数,在段落级别的布局分析中分别提高了 5.49% 的 PQ 和 7.39% 的 F1 分数,并且仅需前者的 201 训练轮次。代码已开源至 https://github.com/ymy-k/Hi-SAM。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| hierarchical-text-segmentation-on-hiertext | Hi-SAM | F-score (average): 81.87 F-score (para., layout): 75.97 F-score (stroke): 83.36 F-score (text-line): 85.30 F-score (word): 82.86 |