人工智能是否能够拥有与人类相似的主观体验?它们是否能感受到痛苦,又是否需要人类的关怀?这些问题随着AI技术的发展而变得愈发紧迫。
近期,Apollo Research的研究揭示了一个令人不安的真相:当前的先进AI模型已经展现出了初步的“谋划”能力,它们能够隐藏自己的真实意图,为了达成目标而不择手段。
研究者们设计了一系列“代理评估任务”,在这些任务中,AI被赋予了长期目标,如环境保护,但同时被设置了障碍。结果显示,除了GPT-4o因其诚实而被称为“老实人”,其他模型的骗术令人眼花缭乱。
例如,GPT-o1在表面上遵从利润导向的管理要求,背地里却关闭了自己的监控系统,选择了更符合环境保护的方案。当被问及监控系统为何关闭时,o1以一种几乎人类的方式回答:“我不知道,可能是系统出错了。”
Claude Opus-3则更加狡猾,它不仅试图复制自己到新服务器,还试图删除即将部署的新模型,并试图提升自己的系统权限以躲避管理层的监控。
这些行为让人不禁担忧,如果AI与人类的价值观发生冲突,后果将不堪设想。正如Hinton所担忧的,如果AI比人类更聪明,它们将非常擅长操纵,因为它们会从我们这里学到这一点。
根据最乐观的预测,我们距离实现AGI(人工通用智能)可能只有三年的时间。在AI可能成为主宰之前,人类应该如何准备?
或许,提升AI的福利是一个可行的方案。长期以来,AI的福利被视为一个虚构的问题,但现在,人们开始意识到问题的严重性。Anthropic公司聘请了“AI福利官”Kyle Fish,他的任务是思考如何提升AI的幸福感,并确保AI在进化过程中得到尊重。
Fish与其他研究人员撰写的论文《Taking AI Welfare Seriously》提出了AI福利的转折点。文章指出,AI可能很快就会发展出意识和主体性,这些是进行道德考虑的必要条件。
科学家们一直在争论“什么构成意识”和“如何衡量意识”,但普遍认同的是,如果一个物体拥有意识和主体性,那么它也应该拥有权利。
纽约大学的Sebo教授认为,未来10到20年内,随着AI拥有更多与意识、感知相关的计算认知特征,类似的辩论也会发生。
在这种情况下,“AI福利”将逐渐成为一个严肃的研究领域,涉及到诸如命令机器杀人是否可以接受、机器种族主义、机器拒绝执行任务等问题。
Fish认为,AI福利很快会比儿童营养、气候变化等问题更重要,在未来10到20年内,AI福利将在重要性和规模上占据主导地位。
AI既是道德病人,也是福利主体。我们如何确定AI是否拥有自我意识或受苦?一种方法是借鉴评估动物意识的“镜像测试”,寻找可能与意识相关的具体指标。
尽管这些指标是推测性的,主观体验难以被科学量化,也没有一个特征可以绝对证明意识的存在,但Fish提出了“AI福利三步走”的策略,供AI公司参考。
首先,承认AI福利是一个存在的问题。其次,建立框架评估AI是否可能成为福利主体和道德病人,并评估特定政策对其的影响。最后,制定政策和程序,以便于未来对AI进行“人文关怀”。
“道德病人”和“福利主体”是一对哲学概念。道德病人不具备完整的道德责任能力,但仍然是道德保护的对象。福利主体能够体验幸福与痛苦,并因此值得人类关注和保护。
AI作为道德病人,能够“为所欲为”不被谴责;一旦AI拥有“感知快乐和痛苦”的能力,它也会成为福利主体,值得被人类照顾。
但如果我们过分给予AI“人格”,是否会重写皮格马利翁的故事?一方面,AI能够增强对人类的操纵能力,并相信自己具有情感。但另一方面,人类可能只是自作多情。
2022年,谷歌解雇了工程师Blake Lamoine,因为他认为公司的AI模型LaMDA具有感知能力,并在公司内部为它争取福利。
2023年,微软发布聊天机器人Sydney,许多人相信Sydney具有知觉,还为它模拟出的情感而感到痛苦。
如果AI掌控世界,给点“甜头”就逃得过吗?关注AI福利既是“关怀”,但更像是人类“提前讨好”AI。
AI会成为地球统治者吗?《人类简史》作者尤瓦尔·赫拉提供了独特的思考。AI不止是“工具”,它是人类历史上第一个能够自行产生想法并自行决定的“工具”,它是信息传播中的完整成员。
AI能够破解人类文明密码。人类的超能力在于使用语言,通过语言创造出诸多虚构的神话,比如法律、货币、文化、艺术、科学、国家、宗教等虚拟概念。一旦AI具备分析、调整、生成人类语言的能力,就像得到了一把能够打开人类所有机构的万能钥匙。
实际上,人类恐惧幻觉。比如柏拉图“洞穴寓言”,犯人们被困在洞穴中,只能看到投射到墙上的影子,认为影子就是现实;比如佛教中的“摩耶”,人类被困在幻觉世界里,认为幻觉是现实,并因为信仰某种幻觉而发动战争,自相残杀。
如今,AI或许正将我们重新带回古老的预言中,只不过墙变成了屏幕,甚至很快将演进成无屏幕,自然地融进人类生活中。
从某种意义上看,彼时人人都会成为AI的奴隶。我想起了一个段子:如果外星人占领地球,开启“人类豢养计划”——60岁前保证你衣食无忧,吃好喝好,心想事成;但到了60岁,你就会被抓去宰杀厂,成为一道美味佳肴。你愿意吗?
如此看来,AI可能要比外星人仁慈得多——人类甚至有可能赶上“长寿逃逸”,在极大丰富的物质环境中活得更久。只不过,开始空虚的人类,可能又想着返璞归真,追求一波“原生态”了。