大模型新突破：从教学视频中提炼高质量多模态教科书

文章来源：放心AI网发布时间：2025-05-01 09:59:18

近日，浙江大学与阿里巴巴达摩院联合发布了一项引人瞩目的研究，旨在通过教学视频创建高质量的多模态教科书。这一创新的研究成果不仅为大规模语言模型（VLMs）的训练提供了新的思路，也可能改变教育资源的利用方式。

随着人工智能技术的迅猛发展，VLMs 的预训练语料主要依赖图文对数据与图文交织语料。然而，当前的这些数据多来自网页，文本与图像的关联性较弱，知识密度也相对较低，无法有效支持复杂的视觉推理。

为了应对这一挑战，研究团队决定从互联网上海量的教学视频中提炼高质量的知识语料。他们收集了超过15.9万个教学视频，经过精细的过滤和处理，最终保留了75，000个高质量视频，涵盖数学、物理、化学等多个学科，总时长超过22，000小时。

研究者们设计了一条复杂的 “视频到教科书” 处理管道。首先，使用自动语音识别（ASR）技术将视频中的讲解内容转录为文本，接着通过图像分析和文字匹配，筛选出与知识点高度相关的片段。最终，这些处理过的关键帧、OCR 文本和转录文本被交错组织，形成了一个内容丰富、结构严谨的多模态教科书。

这一研究的初步结果显示，与以往的网页中心数据集相比，新生成的教科书数据集在知识密度和图像关联性上显著提升，为 VLMs 的学习提供了更为坚实的基础。此外，研究还引起了学术界的广泛关注，相关数据集在 Hugging Face 平台上迅速攀升至热门榜单，短短两周内下载量便超过7000次。

通过这一创新的尝试，研究者们希望不仅能推动 VLMs 的发展，更能在教育资源的整合与应用上开启新的可能性。

论文地址：https://arxiv.org/pdf/2501.00958

上一篇: Kimi发布全新SOTA模型：k1.5多模态思考模型登场

近日，北京月之暗面科技有限公司宣布其旗下智能助手 Kimi 迎来了重大技术升级，推出了全新的 k1 5多模态思考模型。这一模型在多模态推理和通用推理能力上达到了行业领先水平，标志着 Kimi 在人工智能领域的又一次

下一篇: 中国石化推出了首位“AI数字员工”星火大模型提供支持

近日，中国石化正式推出了首位 “AI 数字员工”。这位虚拟助手将在全国40余座加油站进行试点，其中包括广西南宁的新阳加能站。作为我国石油石化行业的首个 AI 加油数字员工，这一创新举措旨在提升客户的自助加油体