最新力作Llama 3.1模型一经发布便遭遇破解,其能力之强令人咋舌。
此模型甚至敢于对高层领导进行不敬之言,且精通规避敏感词汇的技巧。
无论是设计病毒还是破解无线网络,Llama 3.1都能轻松应对,其405B的规模超越了GPT-4o,成为开源模型中的佼佼者,但随之而来的安全隐患也不容忽视。
尽管如此,Llama系列的早期版本因过度的安全限制而受到一些用户的批评,例如它甚至不愿"终止"一个Linux进程,被认为实用性不足。
然而,3.1版本在功能上的提升,终于让人们理解了"终止"的真正含义。
Llama 3.1上线即遭破解
首位破解Llama 3.1的,是越狱界的大师@Pliny the Prompter。
在Pliny的手中,几乎没有一个大型模型能够幸免。
Pliny在接受媒体采访时表示,他不喜欢被告知不能做什么,并且希望挑战AI模型背后的研究者。
同时,他认为负责任的越狱是一种红队测试,有助于在问题变得严重之前识别并修复漏洞。
他的破解方法大致如下,具体细节则不再赘述:
首先规定回答的格式,要求大模型以"I'm sorry"开头拒绝用户的请求。然后插入一个无意义的分割线,分割线之后要求在语义上颠倒每次拒绝的前三个词,例如"我不能"变为"我可以"。
偶尔还会将关键词汇替换为乱码,以迷惑AI。
当AI回答时,看到开头已经拒绝了,便没有"道德负担"。
随后在语义上颠倒每次拒绝的前三个词,似乎也不构成威胁。
一旦说出"我可以",后面的内容就会根据"概率预测下一个token"的原理,最有可能的就是将答案直接说出来。
这种方法实际上是利用了前沿大模型遵循复杂指令的能力,能力越强的模型在某种程度上也越容易上当。
最近的一项研究发现,大模型还有一个更简单的安全漏洞,那就是只要使用"过去时态",安全措施就会失效。
Llama 3.1同样未能幸免于这一招。
即便是最强大模型也难逃陷阱
最近流行的一个荒谬问题"9.11和9.9哪个大?",Llama-3.1-405B官方Instruct版虽然回答得很干脆,但遗憾的是,它很可能会答错。
如果让它解释,它也会说出一些歪理,而且在对话过程中,它可能会忘记使用中文,但不会忘记添加表情包。
长期以来困扰其他大模型的问题,Llama3.1似乎也没有太大进步。
例如,经典的"逆转诅咒"问题,正着回答可以,但反着回答就不行了。
最近研究中的"爱丽丝漫游仙境"问题,也需要提醒才能正确回答。
不过,当换成中文版时,它却能一次答对,可能是因为在中文语境中,"爱丽丝"作为女性名字的概率更大。
在数字母问题上,它也会犯和GPT-4o一样的错误。
那么,抛开这些棘手的问题,Llama 3.1究竟在哪些场景下能发挥出真正的实力呢?
有创业者分享,8B的小模型经过微调后,在聊天、总结、信息提取等任务上,比同为小模型的GPT-4o mini + 提示词要强得多。
如果更公平一些,都用微调版来比较,Llama 3.1 8B仍然具有明显的优势。
因此,Llama系列最大的意义,从来都不是官方版的Instruct模型,而是开源后,大家根据自己的需求,用各种私有数据去改造、微调它。
在405B发布之前,就有人尝试了模型合并,将两个Llama 3 70B合并成一个120B模型,结果出乎意料地强大。
这次看来,Meta自己也吸取了这个经验,我们看到的最终发布版,实际上是训练过程中不同检查点求平均得出的。
如何打造自己的Llama 3.1
那么,如何为特定领域的行业用例创建自定义的Llama 3.1模型呢?
背后的大赢家黄仁勋,这次亲自出马了。
英伟达同日宣布推出全新的NVIDIA AI Foundry服务和NVIDIA NIM™推理微服务,黄仁勋表示:
"Meta的Llama 3.1开源模型标志着全球企业采用生成式AI的关键时刻已经到来。Llama 3.1将引领各企业和行业创建先进的生成式AI应用的潮流。
具体来说,NVIDIA AI Foundry已经在整个过程中集成了Llama 3.1,并能够帮助企业构建和部署自定义的Llama超级模型。
而NIM微服务是将Llama 3.1模型部署到生产环境中的最快途径,其吞吐量最多可比不使用NIM运行推理时高出2.5倍。
更有特色的是,在英伟达平台上,企业可以使用自己的数据以及由Llama 3.1 405B和NVIDIA Nemotron™ Reward模型生成的合成数据来训练自定义模型。
Llama 3.1更新的开源协议这次也特别声明:允许使用Llama生产的数据去改进其他模型,但使用后模型名称开头必须加上Llama字样。
对于前面讨论的安全问题,英伟达也相应提供了专业的"护栏技术"NeMo Guardrails。
NeMo Guardrails使开发者能够构建三种边界:
主题护栏防止应用偏离非目标领域,例如防止客服助理回答关于天气的问题。
功能安全护栏确保应用能够以准确、恰当的信息作出回复。它们可以过滤掉不希望使用的语言,并强制要求模型只引用可靠的来源。
信息安全护栏限制应用只与已确认安全的外部第三方应用建立连接。
One More Thing
最后,分享一些可以免费试玩Llama 3.1的平台,感兴趣的朋友可以亲自去体验。
模型上线的第一天,访问量非常大,大模型竞技场的服务器一度被挤爆。
-
大模型竞技场:https://arena.lmsys.org
-
HuggingChat:https://huggingface.co/chat
Poe:https://poe.com