678CHAT AI资讯 Meta陷数据侵权风暴：未出版书稿竟成AI「黑箱燃料」

Meta陷数据侵权风暴：未出版书稿竟成AI「黑箱燃料」

作者: 678chat 发布: 2025 年 3 月 31 日 31阅读 0评论

人工智能行业再掀伦理地震！《大西洋月刊》最新调查揭示，Meta训练大模型的数据来源竟包含数百万册未出版著作。作家玛丽斯·克莱茨曼发现其筹谋三年的论文集遭到盗用，此时距离正式出版还有112天。

「我们像考古学家清理法老墓穴般挖掘出了技术巨头的秘密。」调查记者汤姆·史密斯在报道中形容，「LibGen数据库如同数字黑市，藏着全球46.8万作家的心血。」

这场「AI世纪大审判」的核心争议点在于：

伦理边界：书稿源自信誉存疑的LibGen数据库
法律真空：「未经许可爬取」是否构成侵权
约27%数据涉及未发表学术论文与创作手稿

克莱茨曼的遭遇绝非孤例。通过对比NetGalley正版书库资源，调查团队发现：

对比维度	合法渠道	LibGen渠道
著作权确认	100%签约授权	0%
商业收益返还	40-60%版权分成	全链条零支付
安全性	DRM加密	明文流传输

Meta技术白皮书披露，其最新芯片MTIA-3训练速度提升3倍，恰好对应此次「数据扩容量级」。工程师坦言：「使用付费转化率低的另类数据源，是降低成本的行业潜规则。」

「这相当于用赃车零件组装豪华跑车。」纽约作家协会法务总监詹姆斯·吴指出，「当AI公司节省54亿美元版权成本时，创作者正面临生存危机。」

值得警惕的是，LibGen数据库数据构成暗藏风险金字塔：

学术论文盗版资源占68%
待出版书稿专区存19万份
机密级专利文件达3700项

舆论风暴已引发监管升级：

美国作家协会发起集体诉讼，索赔18亿美元
欧盟启动GDPR第八修正案紧急审议
中国知网等平台紧急下线23万篇待审论文

这场「AI炼丹炉里的盗火记」，正在重定义知识经济时代的规则边界。正如克莱茨曼在《文学中心》撰文所言：「当未完成的诗稿成为训练数据，人类最后的原创绿洲正在消失。」

相关资料索引：
LibGen镜像站导航 | 知乎专栏
Meta自研芯片技术白皮书 | 腾讯新闻
2024全球数字版权报告 | 国际版权联盟

本文来自网络，不代表678CHAT立场，转载请注明出处：https://www.678chat.com/ai/13054.html

7赞

标签:AI模型 Meta 人工智能英伟达

发表回复取消回复