678CHAT AI资讯 Meta 新推网络爬虫，AI 大脑狂吸数据

Meta 新推网络爬虫，AI 大脑狂吸数据

作者: 678chat 发布: 2024 年 8 月 21 日 280阅读 0评论

在网络世界的深处，Meta 公司悄然启动了一项新的数据搜集行动。这家科技巨头最近推出了一款名为 Meta External Agent 的网络爬虫，旨在遍历互联网，搜集海量信息，以滋养其人工智能算法的成长。

据几家专门监测网络爬虫活动的机构透露，Meta 的这一新工具在上个月悄然上线。它与 OpenAI 的 GPTBot 有着相似的使命，即从新闻报道、社交媒体对话等网络资源中抓取数据，为人工智能的训练提供素材。

通过查阅公开的档案记录，我们可以发现 Meta 在 7 月底对其面向开发者的网站进行了更新，其中隐晦地提到了这款新爬虫的存在。尽管如此，Meta 并未对外正式宣布这一消息。

Meta 的 Llama 模型是当前最庞大的语言模型之一。尽管公司并未公开其最新版本 Llama 3 的训练数据来源，但我们知道，其早期版本是利用了 Common Crawl 等机构收集的数据集。

今年初，Meta 的联合创始人兼 CEO 马克・扎克伯格在一次财报电话会议中自豪地表示，他们的社交平台已经积累了一套庞大的人工智能训练数据集，其规模甚至超过了 Common Crawl。

Meta 新爬虫的推出，可能意味着公司现有的数据储备已不足以支撑其不断增长的需求。随着 Meta 不断推进 Llama 模型的更新和 Meta AI 的扩展，对新鲜且高质量的训练数据的需求也在不断上升。

根据 Dark Visitors 的统计，全球大约有 25% 的顶级网站已经对 GPTBot 进行了屏蔽，但仅有 2% 的网站对 Meta 的新爬虫机器人采取了同样的措施。

本文来自网络，不代表678CHAT立场，转载请注明出处：https://www.678chat.com/ai/1743.html

31赞

标签:Meta OpenAI 人工智能

发表回复取消回复