在网络世界的深处,Meta 公司悄然启动了一项新的数据搜集行动。这家科技巨头最近推出了一款名为 Meta External Agent 的网络爬虫,旨在遍历互联网,搜集海量信息,以滋养其人工智能算法的成长。
据几家专门监测网络爬虫活动的机构透露,Meta 的这一新工具在上个月悄然上线。它与 OpenAI 的 GPTBot 有着相似的使命,即从新闻报道、社交媒体对话等网络资源中抓取数据,为人工智能的训练提供素材。
通过查阅公开的档案记录,我们可以发现 Meta 在 7 月底对其面向开发者的网站进行了更新,其中隐晦地提到了这款新爬虫的存在。尽管如此,Meta 并未对外正式宣布这一消息。
Meta 的 Llama 模型是当前最庞大的语言模型之一。尽管公司并未公开其最新版本 Llama 3 的训练数据来源,但我们知道,其早期版本是利用了 Common Crawl 等机构收集的数据集。
今年初,Meta 的联合创始人兼 CEO 马克・扎克伯格在一次财报电话会议中自豪地表示,他们的社交平台已经积累了一套庞大的人工智能训练数据集,其规模甚至超过了 Common Crawl。
Meta 新爬虫的推出,可能意味着公司现有的数据储备已不足以支撑其不断增长的需求。随着 Meta 不断推进 Llama 模型的更新和 Meta AI 的扩展,对新鲜且高质量的训练数据的需求也在不断上升。
根据 Dark Visitors 的统计,全球大约有 25% 的顶级网站已经对 GPTBot 进行了屏蔽,但仅有 2% 的网站对 Meta 的新爬虫机器人采取了同样的措施。