AI缺数据，MIT发现网页共享越来越难了

在当今的人工智能领域，获取丰富的训练数据是实现技术突破的关键。然而，近期的研究揭示了一个令人不安的趋势：曾经开放获取的网络数据，现在正逐渐变得难以触及。

随着人工智能技术的飞速发展，数据采集的合法性问题日益受到重视。著名学者吴恩达在《The Batch》网站上分享了一项关于数据采集权限的研究，其结果似乎预示着AI领域的一个潜在危机。

这项由MIT等机构的研究人员进行的研究发现，包括C4、RefineWeb、Dolma在内的多个开源数据集所依赖的网站，正在迅速加强其数据使用的许可限制。这意味着，那些曾经容易获取的开放数据，现在正变得越发难以获得。

这种趋势不仅对商业AI模型的训练构成了挑战，也可能阻碍学术界和非营利组织的研究工作。领导这项研究的是非营利组织The Data Provenance Initiative，它由全球AI研究者组成，并在GitHub上公开了研究相关的数据标注和分析过程，供未来研究者参考。

论文的主要结论包括：AI数据共享空间的限制正在迅速增加。在短短一年的时间内，C4、RefineWeb、Dolma等数据集中有超过5%的token总量和超过25%的关键网页在robots.txt中受到了限制。此外，服务条款的结果显示，C4数据集的45%已经被限制，预示着未来开放网络数据的减少将成为常态。

研究还指出了许可的不对称性和不一致性问题。例如，OpenAI的爬虫在多个网站上受到了更严格的限制，而其他开发者的爬虫则相对宽松。这种不一致性反映出，目前用于表达数据使用意图的工具存在效率问题。

此外，从网络爬取的公开训练语料与AI模型训练的实际需求之间存在不匹配。这些语料中包含了大量的用户生成内容、多模态内容和商业广告，而敏感或露骨内容的比例相对较低。与此同时，排名靠前的网站域名主要是新闻、百科和社交媒体网站，而非组织机构官网、博客和电子商务网站。

研究方法涵盖了对机器人排除协议（Robots Exclusion Protocol，REP）和网站服务条款（Terms of Service，ToS）的分析。REP要求网站包含robots.txt文件来管理网络爬虫等机器人的活动，而ToS则是网站与用户之间的法律协议。

研究通过对3个数据集的网站来源进行调查，整理出了3.95k个网站域名，并进行了人工标注，以涵盖内容的各种属性和访问权限。这些标注内容已经公开，以方便未来研究的复现。

研究结果概述显示，数据限制的增加是一个持续的趋势。SARIMA模型预测，无论是robots.txt还是ToS，限制数量的增长将会继续。此外，不同组织的AI agent在各网站上的许可程度存在显著差异，其中OpenAI、Anthropic和Common Crawl的受限占比最高。

论文还讨论了网页内容与AI常见用例之间的不匹配问题。通过将网页内容与WildChat数据集中的问题分布进行对比，发现二者之间的差异十分显著。

最后，论文提出了对现有协议的讨论和改进建议。它呼吁需要一种更灵活、更能反映网站所有者意愿的新协议，以区分有许可和不被允许的用例，并与服务条款同步。

The Batch在转述这篇文章时表达了对未来AI发展的期望，希望AI开发人员能够继续使用开放网络上的数据进行训练，并希望法院判决和立法能够支持这一点。

微信扫一扫：分享

相关文章

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代

智驾生死竞速：仅7家坚守自研，新势力如何破局？

中国车机系统革命！蔚来天枢OS硬刚特斯拉 算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型 准确率破91%

AI军火库战略曝光！联想CTO揭秘三大「智能体梦工厂」作战图

OpenAI宫斗再揭秘：投资人示警未果 阿尔特曼险遭资本驱逐

发表回复 取消回复

中国车机系统革命！蔚来天枢OS硬刚特斯拉算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型准确率破91%

OpenAI宫斗再揭秘：投资人示警未果阿尔特曼险遭资本驱逐

发表回复取消回复