在AI技术的飞速发展中,即便是科技巨头也面临着内部管理的挑战。
大公司亦难逃“数据污染”?
最近,有报道指出,字节跳动公司遭遇了一起由实习生引发的大模型训练“数据污染”事件。
根据传言,此事件发生在字节跳动的商业化部门,一名实习生因对资源分配不满,利用Hugging Face平台的漏洞,通过共享模型植入恶意代码,造成团队的模型训练成果受到损害。有消息称,受影响的代码涉及超过8000张显卡,损失可能高达千万美元。
19日下午,字节跳动官方对此进行了回应,确认确实有商业化技术团队的实习生存在严重违规行为,该实习生已被解雇。
然而,尽管确有其事,但部分报道中的描述存在夸大和不实之处。涉事实习生的恶意行为干扰了商业化技术团队的研究项目模型训练,但并未影响公司的正式商业项目和线上业务,也未涉及字节跳动的其他大模型业务。此外,关于“8000多张显卡、损失上千万美元”的说法也被严重夸大。
经过核实,涉事实习生仅在商业化技术团队实习,并未在AI实验室有过实习经历。其社交媒体上的个人简介和部分媒体的报道存在错误。据悉,该实习生已于8月份被公司解雇,公司也已将此事通报给行业联盟和相关学校,由学校进行后续处理。
不过,这一事件也暴露了字节跳动在技术训练过程中的安全管理漏洞,包括权限隔离和共用代码审计等方面。据九派新闻报道,一位技术安全专家分析称,Hugging Face平台的漏洞很可能是由于公司在集中训练时没有进行权限隔离,也没有对共用代码进行审计。在正常情况下,任何大规模的代码变更都应进行审计,无论谁进行操作,都应有迹可循,防止单个人擅自更改代码。