日期

2 年前

视觉语言地理基础模型（Vision-Language Geo-Foundation Models，简称 VLGFM）是一种专门设计用于处理和分析地球观测数据的人工智能模型，它结合了视觉和语言信息，以提高对地理空间数据的理解和分析能力。 VLGFM 能够执行多种任务，包括图像描述、图像-文本检索、视觉问题回答和视觉定位等多模态任务。

VLGFM 的概念首次在论文「Towards Vision-Language Geo-Foundation Model: A Survey」中被提出，这篇综述论文由南洋理工大学、商汤科技、上海 AI Lab 和上海交通大学的研究人员合作完成，并在 2024 年发表。这篇论文是关于 VLGFM 的首篇文献综述，它讨论了 VLGFM 与视觉地理基础模型以及视觉语言专有模型的区别，并总结了现有 VLGFM 的模型架构和常用的数据集。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

2 年前

视觉语言模型 VLM

VLM 能够通过图像与文本信息对齐与融合实现跨模态理解、推理与生成任务。

1 个月前

视觉语言动作模型 VLA

VLA 能直接根据视觉画面和语言指令，生成机器人动作。

1 个月前

Lancelot 框架

Lancelot 框架将全同态加密融入 BRFL 以实现严格的隐私保护。

2 个月前

智能体上下文工程 Agentic Context Engineering

ACE 通过动态优化输入上下文使智能体能够自我改进。

3 个月前

猜测-思考-回答 Guess–Think–Answer

GTA 在多个文本分类基准测试中均显著优于标准 SFT 基线和最先进的 RL 方法。

3 个月前

Cache-to-Cache（C2C）

C2C 通过转换和融合模型间的键值（KV）缓存，实现直接的语义交流。

2 个月前

多编程语言 MoE 架构：MultiPL-MoE

MultiPL-MoE 是后预训练阶段扩展低源编程语言的一种有效方法。

2 个月前

门控注意力 Gated Attention

通义千问团队系统地研究了门控机制在标准 softmax 注意力中的作用。

2 个月前

组方差策略优化 GVPO

基于 GRPO 等微调技术现有局限性，GVPO 作为一种可靠、多功能的后训练范式应运而生。

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

视觉语言地理基础模型 VLGFM

用 AI 构建 AI

HyperAI Newsletters

Command Palette

视觉语言地理基础模型 VLGFM

相关百科

视觉语言模型 VLM

视觉语言动作模型 VLA

Lancelot 框架

智能体上下文工程 Agentic Context Engineering

猜测-思考-回答 Guess–Think–Answer

Cache-to-Cache（C2C）

多编程语言 MoE 架构：MultiPL-MoE

门控注意力 Gated Attention

组方差策略优化 GVPO

用 AI 构建 AI

HyperAI Newsletters

Command Palette

视觉语言地理基础模型 VLGFM

相关百科

视觉语言模型 VLM

视觉语言动作模型 VLA

Lancelot 框架

智能体上下文工程 Agentic Context Engineering

猜测-思考-回答 Guess–Think–Answer

Cache-to-Cache（C2C）

多编程语言 MoE 架构：MultiPL-MoE

门控注意力 Gated Attention

组方差策略优化 GVPO

用 AI 构建 AI

HyperAI Newsletters

相关百科

视觉语言模型 VLM

视觉语言动作模型 VLA

Lancelot 框架

智能体上下文工程 Agentic Context Engineering

猜测-思考-回答 Guess–Think–Answer

Cache-to-Cache（C2C）

多编程语言 MoE 架构：MultiPL-MoE

门控注意力 Gated Attention

组方差策略优化 GVPO

相关百科

视觉语言模型 VLM

视觉语言动作模型 VLA

Lancelot 框架

智能体上下文工程 Agentic Context Engineering

猜测-思考-回答 Guess–Think–Answer

Cache-to-Cache（C2C）

多编程语言 MoE 架构：MultiPL-MoE

门控注意力 Gated Attention

组方差策略优化 GVPO