Command Palette

Search for a command to run...

视觉语言地理基础模型 VLGFM

日期

1 年前

视觉语言地理基础模型(Vision-Language Geo-Foundation Models,简称 VLGFM)是一种专门设计用于处理和分析地球观测数据的人工智能模型,它结合了视觉和语言信息,以提高对地理空间数据的理解和分析能力。 VLGFM 能够执行多种任务,包括图像描述、图像-文本检索、视觉问题回答和视觉定位等多模态任务。

VLGFM 的概念首次在论文「Towards Vision-Language Geo-Foundation Model: A Survey」中被提出,这篇综述论文由南洋理工大学、商汤科技、上海 AI Lab 和上海交通大学的研究人员合作完成,并在 2024 年发表。这篇论文是关于 VLGFM 的首篇文献综述,它讨论了 VLGFM 与视觉地理基础模型以及视觉语言专有模型的区别,并总结了现有 VLGFM 的模型架构和常用的数据集。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供