在当今的人工智能领域,获取丰富的训练数据是实现技术突破的关键。然而,近期的研究揭示了一个令人不安的趋势:曾经开放获取的网络数据,现在正逐渐变得难以触及。
随着人工智能技术的飞速发展,数据采集的合法性问题日益受到重视。著名学者吴恩达在《The Batch》网站上分享了一项关于数据采集权限的研究,其结果似乎预示着AI领域的一个潜在危机。
这项由MIT等机构的研究人员进行的研究发现,包括C4、RefineWeb、Dolma在内的多个开源数据集所依赖的网站,正在迅速加强其数据使用的许可限制。这意味着,那些曾经容易获取的开放数据,现在正变得越发难以获得。
这种趋势不仅对商业AI模型的训练构成了挑战,也可能阻碍学术界和非营利组织的研究工作。领导这项研究的是非营利组织The Data Provenance Initiative,它由全球AI研究者组成,并在GitHub上公开了研究相关的数据标注和分析过程,供未来研究者参考。
论文的主要结论包括:AI数据共享空间的限制正在迅速增加。在短短一年的时间内,C4、RefineWeb、Dolma等数据集中有超过5%的token总量和超过25%的关键网页在robots.txt中受到了限制。此外,服务条款的结果显示,C4数据集的45%已经被限制,预示着未来开放网络数据的减少将成为常态。
研究还指出了许可的不对称性和不一致性问题。例如,OpenAI的爬虫在多个网站上受到了更严格的限制,而其他开发者的爬虫则相对宽松。这种不一致性反映出,目前用于表达数据使用意图的工具存在效率问题。
此外,从网络爬取的公开训练语料与AI模型训练的实际需求之间存在不匹配。这些语料中包含了大量的用户生成内容、多模态内容和商业广告,而敏感或露骨内容的比例相对较低。与此同时,排名靠前的网站域名主要是新闻、百科和社交媒体网站,而非组织机构官网、博客和电子商务网站。
研究方法涵盖了对机器人排除协议(Robots Exclusion Protocol,REP)和网站服务条款(Terms of Service,ToS)的分析。REP要求网站包含robots.txt文件来管理网络爬虫等机器人的活动,而ToS则是网站与用户之间的法律协议。
研究通过对3个数据集的网站来源进行调查,整理出了3.95k个网站域名,并进行了人工标注,以涵盖内容的各种属性和访问权限。这些标注内容已经公开,以方便未来研究的复现。
研究结果概述显示,数据限制的增加是一个持续的趋势。SARIMA模型预测,无论是robots.txt还是ToS,限制数量的增长将会继续。此外,不同组织的AI agent在各网站上的许可程度存在显著差异,其中OpenAI、Anthropic和Common Crawl的受限占比最高。
论文还讨论了网页内容与AI常见用例之间的不匹配问题。通过将网页内容与WildChat数据集中的问题分布进行对比,发现二者之间的差异十分显著。
最后,论文提出了对现有协议的讨论和改进建议。它呼吁需要一种更灵活、更能反映网站所有者意愿的新协议,以区分有许可和不被允许的用例,并与服务条款同步。
The Batch在转述这篇文章时表达了对未来AI发展的期望,希望AI开发人员能够继续使用开放网络上的数据进行训练,并希望法院判决和立法能够支持这一点。