文章来源:放心AI网发布时间:2025-06-30 10:34:04
维基百科近日宣布,将通过与谷歌旗下的数据科学社区平台 Kaggle 的合作,发布一份专门优化用于人工智能模型训练的数据集。这一举措旨在减少 AI 开发者通过爬虫程序抓取维基百科数据的行为,保护平台的带宽和服务器资源。
该数据集的内容包括英语和法语的结构化维基百科信息,具有良好的机器可读性,便于 AI 开发者进行建模、微调和数据分析。维基媒体基金会表示,这份数据集以开放许可的方式发布,内容涵盖了研究摘要、简短描述、图像链接、信息框数据以及文章的各个部分,但不包括参考文献和音频文件等非文本元素。
维基媒体希望,Kaggle 用户能够通过这份数据集,获得更为便利的获取信息的方式,从而避免直接抓取原始文章文本所带来的技术挑战。随着越来越多的自动化 AI 程序对维基百科的访问,爬虫抓取行为正在给维基百科的服务器带来沉重负担。
Kaggle 的合作伙伴关系负责人布伦达・弗林表示,Kaggle 非常高兴能够成为维基媒体基金会数据的承载平台。她指出,Kaggle 致力于保持数据的可访问性、可用性和实用性,以服务更广泛的机器学习社区。
通过此次合作,维基百科不仅保护了自身资源,也为小型企业和独立数据科学家提供了更为便利的访问途径,推动了人工智能的发展和应用。
相关攻略 更多
最新资讯 更多
维基百科发布AI训练数据集,旨在阻止爬虫抓取
更新时间:2025-06-30
印孚瑟斯开发超200个AI代理,2025财年净利润下降12%
更新时间:2025-06-30
研究:越来越多的人开始通过AI获取新闻
更新时间:2025-06-30
OpenAI的“星际之门计划”将拓展国际市场,目标直指欧洲
更新时间:2025-06-30
InterviewKickstart推出应用生成式AI课程,助力科技人才把握未来机遇
更新时间:2025-06-30
腾讯旗下InstantCharacter框架正式开源可高度个性化任何角色
更新时间:2025-06-30
LinkedIn首席运营官分享如何在工作中巧妙运用AI
更新时间:2025-06-30
AWS与Intuit研究团队提出零信任安全框架,保护模型上下文协议免受工具中毒和未授权访问
更新时间:2025-06-29
OpenAI发布34页智能体实践指南:从网络搜索到代码编写
更新时间:2025-06-29
腾讯混元开源定制化图像生成插件InstantCharacter
更新时间:2025-06-29