HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodal ArXiv 科学理解数据集

在 Discord 上讨论

日期

1 年前

数据集组织

Peking University
The University of Hong Kong

论文 URL

arxiv.org

Multimodal ArXiv 由香港大学和北京大学于 2024 年推出,相关论文为「Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models」,该成果已被 ACL 2024 接受。

该数据集由 ArXivCap 和 ArXivQA 组成,以增强 LVLM 的科学理解能力。

ArXivCap 是一个图形标题数据集,包含 640 万张图像和 390 万条标题,来源于 572K 篇涵盖各个科学领域的 ArXiv 论文。

借鉴 ArXivCap,研究团队引入了 ArXivQA,这是一个通过提示基于科学图形的 GPT-4V 生成的问答数据集。 ArXivQA 极大地增强了开源 LVLM 的数学推理能力,在多模态数学推理基准上实现了 10.4% 的绝对准确率提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供