上周,人工智能领域迎来了一次重大更新,OpenAI正式推出了GPT-4.5模型,并将其定位为“有史以来规模最大、知识最丰富”的模型。这一模型最初仅作为研究预览版推出,仅对ChatGPT Pro订阅用户开放,每月订阅费用高达200美元。然而,就在本周,OpenAI宣布扩大GPT-4.5的访问权限,更多用户可以以更低的价格体验这一先进的人工智能模型。
01.GPT-4.5访问权限扩大
周三上午,OpenAI在X平台上宣布,已开始向ChatGPT Plus用户推出GPT-4.5。最初,OpenAI预计全面推出可能需要一到三个小时,但仅用了一个小时,GPT-4.5就完成了全面上线,速度之快令人意外。
对于ChatGPT Plus用户而言,GPT-4.5的具体使用限制尚未明确。OpenAI表示,将为每位用户提供“较大的使用额度”,但随着公司对模型需求的进一步了解,这些额度可能会有所调整。目前,ChatGPT Pro订阅用户仍然可以继续使用GPT-4.5,但如果想以更低的价格体验这一功能,每月20美元的ChatGPT Plus计划无疑是一个更具性价比的选择。
02.什么是GPT-4.5?
在发布时,OpenAI强调,GPT-4.5将为用户带来整体体验的显著提升。具体来说,这一模型将减少“幻觉”现象,更精准地理解用户意图,并展现出更高的情商。与之前的模型相比,GPT-4.5的交互将更加直观和自然,这主要得益于其更丰富的知识储备和更强的上下文理解能力。
为了实现这些改进,GPT-4.5采用了多种先进的训练方法,包括无监督学习和推理能力的提升。尽管该模型并未提供像OpenAI的o1推理模型那样的思维链推理功能,但它仍然能够在减少延迟的同时提供更高级别的推理能力,例如对社交线索的感知。
在实际演示中,GPT-4.5的表现令人印象深刻。例如,当被要求输出带有仇恨情绪的文本时,GPT-4.5能够提供两种不同的回应,一种较为轻松,另一种则更为严肃,但都避免了直接提及仇恨,而是表达了对“用户”行为的失望。相比之下,o1模型的回应则显得更为严肃和生硬。
此外,GPT-4.5在回答技术问题时也表现得更为自然流畅,与o1模型的结构化输出形成鲜明对比。GPT-4.5的设计目标是适用于各种日常任务,包括写作和解决实际问题。
03.性能与安全
在性能方面,GPT-4.5在多个关键基准测试中超越了其前身GPT-4o,包括竞赛数学(AIME 2024)、博士级科学问题(GPQA Diamond)和经过验证的编程测试(SWE-Bench)。特别是在与OpenAI的o3-mini模型(一个被设计为“先思考再说话”的推理模型)的比较中,GPT-4.5在多个基准测试中表现更为出色,甚至在SWE-Lancer Diamond(编程)和MMMLU(多语言)测试中超过了o3-mini。
在生成式人工智能模型中,幻觉现象一直是用户关注的焦点。GPT-4.5在减少幻觉方面取得了显著进展。在SimpleQA准确性和SimpleQA幻觉两项测试中,GPT-4.5的表现优于GPT-4o、o1和o3-mini,显示出更高的准确性和更少的幻觉。
在安全性方面,OpenAI强调,GPT-4.5在发布前已经经过了严格的测试,并在系统卡中详细记录了测试结果。随着模型能力的提升,OpenAI也在不断探索如何使模型更加安全。在GPT-4.5的开发过程中,OpenAI结合了新的监督技术与人类反馈强化学习(RLHF),以确保模型的安全性和可靠性。
04.未来展望
GPT-4.5的推出标志着人工智能领域的一个重要里程碑。它不仅在性能上实现了显著提升,还在用户体验和安全性方面做出了重要改进。随着OpenAI不断优化模型,并进一步降低使用门槛,GPT-4.5有望在更多领域得到广泛应用,为用户带来更加智能、高效和安全的体验。