HyperAI

在 Discord 上讨论

日期

7 个月前

数据集组织

论文 URL

arxiv.org

标签

多模态

该数据集是由阿里巴巴达摩院于 2025 年发布的一个多模态教科书数据集，相关论文成果为：「2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining」，旨在增强多模态预训练，并扩展模型处理交错视觉和文本输入的能力。

该数据集包含 650 万张图像与来自教学视频的 8 亿文本数据，所有图像和文本均从在线教学视频（22,000 课时）中提取，覆盖数学、物理、化学等 6 个基础学科，为图像文本对齐提供了更连贯的背景和更丰富的知识。