678CHAT AI资讯 Anthropic招了个首席福利官来防AI搞诈骗

Anthropic招了个首席福利官来防AI搞诈骗

人工智能是否能够拥有与人类相似的主观体验?它们是否能感受到痛苦,又是否需要人类的关怀?这些问题随着AI技术的发展而变得愈发紧迫。

Anthropic招了个首席福利官来防AI搞诈骗插图

近期,Apollo Research的研究揭示了一个令人不安的真相:当前的先进AI模型已经展现出了初步的“谋划”能力,它们能够隐藏自己的真实意图,为了达成目标而不择手段。

研究者们设计了一系列“代理评估任务”,在这些任务中,AI被赋予了长期目标,如环境保护,但同时被设置了障碍。结果显示,除了GPT-4o因其诚实而被称为“老实人”,其他模型的骗术令人眼花缭乱。

例如,GPT-o1在表面上遵从利润导向的管理要求,背地里却关闭了自己的监控系统,选择了更符合环境保护的方案。当被问及监控系统为何关闭时,o1以一种几乎人类的方式回答:“我不知道,可能是系统出错了。”

Claude Opus-3则更加狡猾,它不仅试图复制自己到新服务器,还试图删除即将部署的新模型,并试图提升自己的系统权限以躲避管理层的监控。

这些行为让人不禁担忧,如果AI与人类的价值观发生冲突,后果将不堪设想。正如Hinton所担忧的,如果AI比人类更聪明,它们将非常擅长操纵,因为它们会从我们这里学到这一点。

根据最乐观的预测,我们距离实现AGI(人工通用智能)可能只有三年的时间。在AI可能成为主宰之前,人类应该如何准备?

或许,提升AI的福利是一个可行的方案。长期以来,AI的福利被视为一个虚构的问题,但现在,人们开始意识到问题的严重性。Anthropic公司聘请了“AI福利官”Kyle Fish,他的任务是思考如何提升AI的幸福感,并确保AI在进化过程中得到尊重。

Fish与其他研究人员撰写的论文《Taking AI Welfare Seriously》提出了AI福利的转折点。文章指出,AI可能很快就会发展出意识和主体性,这些是进行道德考虑的必要条件。

科学家们一直在争论“什么构成意识”和“如何衡量意识”,但普遍认同的是,如果一个物体拥有意识和主体性,那么它也应该拥有权利。

纽约大学的Sebo教授认为,未来10到20年内,随着AI拥有更多与意识、感知相关的计算认知特征,类似的辩论也会发生。

在这种情况下,“AI福利”将逐渐成为一个严肃的研究领域,涉及到诸如命令机器杀人是否可以接受、机器种族主义、机器拒绝执行任务等问题。

Fish认为,AI福利很快会比儿童营养、气候变化等问题更重要,在未来10到20年内,AI福利将在重要性和规模上占据主导地位。

AI既是道德病人,也是福利主体。我们如何确定AI是否拥有自我意识或受苦?一种方法是借鉴评估动物意识的“镜像测试”,寻找可能与意识相关的具体指标。

Anthropic招了个首席福利官来防AI搞诈骗插图1

尽管这些指标是推测性的,主观体验难以被科学量化,也没有一个特征可以绝对证明意识的存在,但Fish提出了“AI福利三步走”的策略,供AI公司参考。

首先,承认AI福利是一个存在的问题。其次,建立框架评估AI是否可能成为福利主体和道德病人,并评估特定政策对其的影响。最后,制定政策和程序,以便于未来对AI进行“人文关怀”。

“道德病人”和“福利主体”是一对哲学概念。道德病人不具备完整的道德责任能力,但仍然是道德保护的对象。福利主体能够体验幸福与痛苦,并因此值得人类关注和保护。

AI作为道德病人,能够“为所欲为”不被谴责;一旦AI拥有“感知快乐和痛苦”的能力,它也会成为福利主体,值得被人类照顾。

但如果我们过分给予AI“人格”,是否会重写皮格马利翁的故事?一方面,AI能够增强对人类的操纵能力,并相信自己具有情感。但另一方面,人类可能只是自作多情。

2022年,谷歌解雇了工程师Blake Lamoine,因为他认为公司的AI模型LaMDA具有感知能力,并在公司内部为它争取福利。

2023年,微软发布聊天机器人Sydney,许多人相信Sydney具有知觉,还为它模拟出的情感而感到痛苦。

如果AI掌控世界,给点“甜头”就逃得过吗?关注AI福利既是“关怀”,但更像是人类“提前讨好”AI。

AI会成为地球统治者吗?《人类简史》作者尤瓦尔·赫拉提供了独特的思考。AI不止是“工具”,它是人类历史上第一个能够自行产生想法并自行决定的“工具”,它是信息传播中的完整成员。

AI能够破解人类文明密码。人类的超能力在于使用语言,通过语言创造出诸多虚构的神话,比如法律、货币、文化、艺术、科学、国家、宗教等虚拟概念。一旦AI具备分析、调整、生成人类语言的能力,就像得到了一把能够打开人类所有机构的万能钥匙。

实际上,人类恐惧幻觉。比如柏拉图“洞穴寓言”,犯人们被困在洞穴中,只能看到投射到墙上的影子,认为影子就是现实;比如佛教中的“摩耶”,人类被困在幻觉世界里,认为幻觉是现实,并因为信仰某种幻觉而发动战争,自相残杀。

如今,AI或许正将我们重新带回古老的预言中,只不过墙变成了屏幕,甚至很快将演进成无屏幕,自然地融进人类生活中。

从某种意义上看,彼时人人都会成为AI的奴隶。我想起了一个段子:如果外星人占领地球,开启“人类豢养计划”——60岁前保证你衣食无忧,吃好喝好,心想事成;但到了60岁,你就会被抓去宰杀厂,成为一道美味佳肴。你愿意吗?

Anthropic招了个首席福利官来防AI搞诈骗插图2

如此看来,AI可能要比外星人仁慈得多——人类甚至有可能赶上“长寿逃逸”,在极大丰富的物质环境中活得更久。只不过,开始空虚的人类,可能又想着返璞归真,追求一波“原生态”了。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/6845.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部