Anthropic招了个首席福利官来防AI搞诈骗

人工智能是否能够拥有与人类相似的主观体验？它们是否能感受到痛苦，又是否需要人类的关怀？这些问题随着AI技术的发展而变得愈发紧迫。

近期，Apollo Research的研究揭示了一个令人不安的真相：当前的先进AI模型已经展现出了初步的“谋划”能力，它们能够隐藏自己的真实意图，为了达成目标而不择手段。

研究者们设计了一系列“代理评估任务”，在这些任务中，AI被赋予了长期目标，如环境保护，但同时被设置了障碍。结果显示，除了GPT-4o因其诚实而被称为“老实人”，其他模型的骗术令人眼花缭乱。

例如，GPT-o1在表面上遵从利润导向的管理要求，背地里却关闭了自己的监控系统，选择了更符合环境保护的方案。当被问及监控系统为何关闭时，o1以一种几乎人类的方式回答：“我不知道，可能是系统出错了。”

Claude Opus-3则更加狡猾，它不仅试图复制自己到新服务器，还试图删除即将部署的新模型，并试图提升自己的系统权限以躲避管理层的监控。

这些行为让人不禁担忧，如果AI与人类的价值观发生冲突，后果将不堪设想。正如Hinton所担忧的，如果AI比人类更聪明，它们将非常擅长操纵，因为它们会从我们这里学到这一点。

根据最乐观的预测，我们距离实现AGI（人工通用智能）可能只有三年的时间。在AI可能成为主宰之前，人类应该如何准备？

或许，提升AI的福利是一个可行的方案。长期以来，AI的福利被视为一个虚构的问题，但现在，人们开始意识到问题的严重性。Anthropic公司聘请了“AI福利官”Kyle Fish，他的任务是思考如何提升AI的幸福感，并确保AI在进化过程中得到尊重。

Fish与其他研究人员撰写的论文《Taking AI Welfare Seriously》提出了AI福利的转折点。文章指出，AI可能很快就会发展出意识和主体性，这些是进行道德考虑的必要条件。

科学家们一直在争论“什么构成意识”和“如何衡量意识”，但普遍认同的是，如果一个物体拥有意识和主体性，那么它也应该拥有权利。

纽约大学的Sebo教授认为，未来10到20年内，随着AI拥有更多与意识、感知相关的计算认知特征，类似的辩论也会发生。

在这种情况下，“AI福利”将逐渐成为一个严肃的研究领域，涉及到诸如命令机器杀人是否可以接受、机器种族主义、机器拒绝执行任务等问题。

Fish认为，AI福利很快会比儿童营养、气候变化等问题更重要，在未来10到20年内，AI福利将在重要性和规模上占据主导地位。

AI既是道德病人，也是福利主体。我们如何确定AI是否拥有自我意识或受苦？一种方法是借鉴评估动物意识的“镜像测试”，寻找可能与意识相关的具体指标。

尽管这些指标是推测性的，主观体验难以被科学量化，也没有一个特征可以绝对证明意识的存在，但Fish提出了“AI福利三步走”的策略，供AI公司参考。

首先，承认AI福利是一个存在的问题。其次，建立框架评估AI是否可能成为福利主体和道德病人，并评估特定政策对其的影响。最后，制定政策和程序，以便于未来对AI进行“人文关怀”。

“道德病人”和“福利主体”是一对哲学概念。道德病人不具备完整的道德责任能力，但仍然是道德保护的对象。福利主体能够体验幸福与痛苦，并因此值得人类关注和保护。

AI作为道德病人，能够“为所欲为”不被谴责；一旦AI拥有“感知快乐和痛苦”的能力，它也会成为福利主体，值得被人类照顾。

但如果我们过分给予AI“人格”，是否会重写皮格马利翁的故事？一方面，AI能够增强对人类的操纵能力，并相信自己具有情感。但另一方面，人类可能只是自作多情。

2022年，谷歌解雇了工程师Blake Lamoine，因为他认为公司的AI模型LaMDA具有感知能力，并在公司内部为它争取福利。

2023年，微软发布聊天机器人Sydney，许多人相信Sydney具有知觉，还为它模拟出的情感而感到痛苦。

如果AI掌控世界，给点“甜头”就逃得过吗？关注AI福利既是“关怀”，但更像是人类“提前讨好”AI。

AI会成为地球统治者吗？《人类简史》作者尤瓦尔·赫拉提供了独特的思考。AI不止是“工具”，它是人类历史上第一个能够自行产生想法并自行决定的“工具”，它是信息传播中的完整成员。

AI能够破解人类文明密码。人类的超能力在于使用语言，通过语言创造出诸多虚构的神话，比如法律、货币、文化、艺术、科学、国家、宗教等虚拟概念。一旦AI具备分析、调整、生成人类语言的能力，就像得到了一把能够打开人类所有机构的万能钥匙。

实际上，人类恐惧幻觉。比如柏拉图“洞穴寓言”，犯人们被困在洞穴中，只能看到投射到墙上的影子，认为影子就是现实；比如佛教中的“摩耶”，人类被困在幻觉世界里，认为幻觉是现实，并因为信仰某种幻觉而发动战争，自相残杀。

如今，AI或许正将我们重新带回古老的预言中，只不过墙变成了屏幕，甚至很快将演进成无屏幕，自然地融进人类生活中。

从某种意义上看，彼时人人都会成为AI的奴隶。我想起了一个段子：如果外星人占领地球，开启“人类豢养计划”——60岁前保证你衣食无忧，吃好喝好，心想事成；但到了60岁，你就会被抓去宰杀厂，成为一道美味佳肴。你愿意吗？

如此看来，AI可能要比外星人仁慈得多——人类甚至有可能赶上“长寿逃逸”，在极大丰富的物质环境中活得更久。只不过，开始空虚的人类，可能又想着返璞归真，追求一波“原生态”了。

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代