Command Palette
Search for a command to run...
Zixuan Liu Siavash H. Khajavi Guangkai Jiang

摘要
近年来,多模态模型在图像生成、推理等任务中展现出强大的性能。然而,由于缺乏高质量、公开可用的火灾领域标注数据集,将这些模型应用于火灾领域仍面临诸多挑战。为弥补这一空白,我们提出了 DetectiumFire——一个大规模、多模态数据集,包含22,500张高分辨率火灾相关图像和2,500段真实世界中的火灾相关视频,覆盖了多种火灾类型、环境场景及风险等级。数据集同时标注了传统计算机视觉标签(如边界框)以及详尽的文本提示,用以描述场景内容,从而支持合成数据生成、火灾风险推理等应用。与现有基准相比,DetectiumFire在数据规模、多样性与质量方面均具有显著优势,有效降低了数据冗余,显著提升了对真实场景的覆盖能力。我们在多个任务中验证了 DetectiumFire 的实用性,包括目标检测、基于扩散模型的图像生成以及视觉-语言推理。实验结果表明,该数据集在推动火灾相关研究、支持智能安全系统开发方面具有巨大潜力。我们已公开发布 DetectiumFire,以促进人工智能领域对火灾理解的更广泛探索。