HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodal-Textbook-6.5M 多模态教科书数据集

在 Discord 上讨论

日期

7 个月前

数据集组织

Alibaba Group

论文 URL

arxiv.org

标签

该数据集是由阿里巴巴达摩院于 2025 年发布的一个多模态教科书数据集,相关论文成果为:「2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining」,旨在增强多模态预训练,并扩展模型处理交错视觉和文本输入的能力。

该数据集包含 650 万张图像与来自教学视频的 8 亿文本数据,所有图像和文本均从在线教学视频(22,000 课时)中提取,覆盖数学、物理、化学等 6 个基础学科,为图像文本对齐提供了更连贯的背景和更丰富的知识。

从教学视频构建数据集示例

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供