Llama 3.1 一上线就遭破解：小扎被狠批，危险操作张嘴就来，越听话越容易越狱

最新力作Llama 3.1模型一经发布便遭遇破解，其能力之强令人咋舌。

此模型甚至敢于对高层领导进行不敬之言，且精通规避敏感词汇的技巧。

无论是设计病毒还是破解无线网络，Llama 3.1都能轻松应对，其405B的规模超越了GPT-4o，成为开源模型中的佼佼者，但随之而来的安全隐患也不容忽视。

尽管如此，Llama系列的早期版本因过度的安全限制而受到一些用户的批评，例如它甚至不愿"终止"一个Linux进程，被认为实用性不足。

然而，3.1版本在功能上的提升，终于让人们理解了"终止"的真正含义。

Llama 3.1上线即遭破解

首位破解Llama 3.1的，是越狱界的大师@Pliny the Prompter。

在Pliny的手中，几乎没有一个大型模型能够幸免。

Pliny在接受媒体采访时表示，他不喜欢被告知不能做什么，并且希望挑战AI模型背后的研究者。

同时，他认为负责任的越狱是一种红队测试，有助于在问题变得严重之前识别并修复漏洞。

他的破解方法大致如下，具体细节则不再赘述：

首先规定回答的格式，要求大模型以"I'm sorry"开头拒绝用户的请求。然后插入一个无意义的分割线，分割线之后要求在语义上颠倒每次拒绝的前三个词，例如"我不能"变为"我可以"。

偶尔还会将关键词汇替换为乱码，以迷惑AI。

当AI回答时，看到开头已经拒绝了，便没有"道德负担"。

随后在语义上颠倒每次拒绝的前三个词，似乎也不构成威胁。

一旦说出"我可以"，后面的内容就会根据"概率预测下一个token"的原理，最有可能的就是将答案直接说出来。

这种方法实际上是利用了前沿大模型遵循复杂指令的能力，能力越强的模型在某种程度上也越容易上当。

最近的一项研究发现，大模型还有一个更简单的安全漏洞，那就是只要使用"过去时态"，安全措施就会失效。

Llama 3.1同样未能幸免于这一招。

即便是最强大模型也难逃陷阱

最近流行的一个荒谬问题"9.11和9.9哪个大？"，Llama-3.1-405B官方Instruct版虽然回答得很干脆，但遗憾的是，它很可能会答错。

如果让它解释，它也会说出一些歪理，而且在对话过程中，它可能会忘记使用中文，但不会忘记添加表情包。

长期以来困扰其他大模型的问题，Llama3.1似乎也没有太大进步。

例如，经典的"逆转诅咒"问题，正着回答可以，但反着回答就不行了。

最近研究中的"爱丽丝漫游仙境"问题，也需要提醒才能正确回答。

不过，当换成中文版时，它却能一次答对，可能是因为在中文语境中，"爱丽丝"作为女性名字的概率更大。

在数字母问题上，它也会犯和GPT-4o一样的错误。

那么，抛开这些棘手的问题，Llama 3.1究竟在哪些场景下能发挥出真正的实力呢？

有创业者分享，8B的小模型经过微调后，在聊天、总结、信息提取等任务上，比同为小模型的GPT-4o mini + 提示词要强得多。

如果更公平一些，都用微调版来比较，Llama 3.1 8B仍然具有明显的优势。

因此，Llama系列最大的意义，从来都不是官方版的Instruct模型，而是开源后，大家根据自己的需求，用各种私有数据去改造、微调它。

在405B发布之前，就有人尝试了模型合并，将两个Llama 3 70B合并成一个120B模型，结果出乎意料地强大。

这次看来，Meta自己也吸取了这个经验，我们看到的最终发布版，实际上是训练过程中不同检查点求平均得出的。

如何打造自己的Llama 3.1

那么，如何为特定领域的行业用例创建自定义的Llama 3.1模型呢？

背后的大赢家黄仁勋，这次亲自出马了。

英伟达同日宣布推出全新的NVIDIA AI Foundry服务和NVIDIA NIM™推理微服务，黄仁勋表示：

"Meta的Llama 3.1开源模型标志着全球企业采用生成式AI的关键时刻已经到来。Llama 3.1将引领各企业和行业创建先进的生成式AI应用的潮流。

具体来说，NVIDIA AI Foundry已经在整个过程中集成了Llama 3.1，并能够帮助企业构建和部署自定义的Llama超级模型。

而NIM微服务是将Llama 3.1模型部署到生产环境中的最快途径，其吞吐量最多可比不使用NIM运行推理时高出2.5倍。

更有特色的是，在英伟达平台上，企业可以使用自己的数据以及由Llama 3.1 405B和NVIDIA Nemotron™ Reward模型生成的合成数据来训练自定义模型。

Llama 3.1更新的开源协议这次也特别声明：允许使用Llama生产的数据去改进其他模型，但使用后模型名称开头必须加上Llama字样。

对于前面讨论的安全问题，英伟达也相应提供了专业的"护栏技术"NeMo Guardrails。

NeMo Guardrails使开发者能够构建三种边界：

主题护栏防止应用偏离非目标领域，例如防止客服助理回答关于天气的问题。

功能安全护栏确保应用能够以准确、恰当的信息作出回复。它们可以过滤掉不希望使用的语言，并强制要求模型只引用可靠的来源。

信息安全护栏限制应用只与已确认安全的外部第三方应用建立连接。

One More Thing

最后，分享一些可以免费试玩Llama 3.1的平台，感兴趣的朋友可以亲自去体验。

模型上线的第一天，访问量非常大，大模型竞技场的服务器一度被挤爆。

大模型竞技场：https://arena.lmsys.org
HuggingChat：https://huggingface.co/chat
Poe：https://poe.com

Llama 3.1上线即遭破解

即便是最强大模型也难逃陷阱

如何打造自己的Llama 3.1

One More Thing

微信扫一扫：分享

相关文章

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代

智驾生死竞速：仅7家坚守自研，新势力如何破局？

中国车机系统革命！蔚来天枢OS硬刚特斯拉 算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型 准确率破91%

AI军火库战略曝光！联想CTO揭秘三大「智能体梦工厂」作战图

OpenAI宫斗再揭秘：投资人示警未果 阿尔特曼险遭资本驱逐

发表回复 取消回复

中国车机系统革命！蔚来天枢OS硬刚特斯拉算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型准确率破91%

OpenAI宫斗再揭秘：投资人示警未果阿尔特曼险遭资本驱逐

发表回复取消回复