678CHAT AI资讯 AI编程高手Genie来袭:5人小队84秒搞定代码,思考像人一样!

AI编程高手Genie来袭:5人小队84秒搞定代码,思考像人一样!

在Devin之后,AI领域又迎来了一位备受瞩目的新成员——Genie,它被誉为目前最为强大的AI软件工程师,其能力之强,足以与人类媲美。

AI编程高手Genie来袭:5人小队84秒搞定代码,思考像人一样!插图

那么,Genie的"地表最强"究竟体现在何处?让我们先从它的评测成绩说起。

在业界公认的SWE-Bench榜单上,Genie以30.07%的高解决问题率一举夺魁,这一成绩不仅遥遥领先于第二名的19.27%,更是将SOTA(State of the Art)的记录提升了57%。

Genie的实际表现如何呢?用开发团队的话来说,它"能够像人类工程师一样解决现实生活中的软件问题"。

Genie的启动方式非常灵活,你可以通过四种不同的方式让它开始工作:提示词、GitHub Issue、Linear Ticket或者API。

以GitHub Issue为例,只需给Genie一个仓库链接,它便能自动开始解析问题。

Genie会进行自动迭代思考,确定解决该问题所需的所有文件,直至找到满意的答案:

随后,Genie将自动进行问题分析,然后迅速进入"唰唰唰"的自动编写和运行代码阶段:

如果在运行过程中遇到bug,Genie会针对出现问题的部分进行重复分析、编写和运行,直至问题解决。

整个过程,Genie仅用了84秒就完成了任务。

开发团队表示,Genie已经观察并学习了数百万次人类程序员解决软件问题的过程,这是任何人类程序员一生都无法达到的量级。

更令人惊讶的是,Genie背后的开发团队——Cosine,仅有5名成员。

而且,CEO Alistair还公开感谢了OpenAI:

没有OpenAI的支持,我们无法创造出Genie。

那么,Cosine团队是如何打造出如此强大的Genie的呢?

Genie的诞生记:最强AI工程师的炼成之路

Genie的核心特性在于,它能够模仿人类工程师的认知过程、逻辑和工作流程。

为了实现这一点,Genie团队透露,他们在过去一年中收集了一个包含真实人类程序员开发活动的数据集。

这个数据集不仅采用了成果分析、静态分析、自我对弈、逐步验证等方法,还利用了基于大量标记数据训练的AI模型。

当基础模型能力提升时,它们能够提取的数据质量也会相应提高,最终Genie使用这个专有数据进行训练。

数据集中编码了人类推理的完整过程,包括完美的信息溯源、增量知识发现,以及基于软件工程师实际工作案例的逐步决策过程。

Genie的推理过程包括规划、检索、代码编写和代码运行四个主要步骤,突破了其他AI工程师依赖于在基础模型之上添加网页浏览器、代码解释器等额外工具的限制,能够像人一样处理多样化的、高度情境的、前所未见的问题。

这种训练方法,让人们立刻联想到了Karpathy之前提出的类似观点:

AI编程高手Genie来袭:5人小队84秒搞定代码,思考像人一样!插图1

对于大型语言模型(LLM)来说,理想的训练数据并不是你所写的内容本身,而是你在写作过程中的完整思考过程和每一个编辑动作。然而,我们只能尽力利用现有的资源。

除此之外,Genie的训练中还引入了自我改进机制。

初始训练数据多为可正常运行的无错误代码,导致Genie难以应对错误情况。为解决这个问题,团队使用初代版本的Genie生成包含错误的合成数据,然后用这些数据训练下一版模型。

具体来说,使用旧版本Genie提出解决方案,如果解决方案错误,就利用掌握的任务最终状态来教它从当前状态达到正确状态。

通过不断重复这一过程,Genie提出的初始解决方案逐渐变得更准确,在多数情况下能直接给出正确答案,即使出错也只需在数据集中作较少的修正。

Genie能力提升的另一大关键,在于OpenAI提供的大型模型支持。

团队表示,最初开发Genie时,只能访问微调16-32k范围内的短上下文模型,他们用这些模型进行了大量早期开发,用超过1亿token的数据训练模型,虽然发现设计的架构有一定优势,但从根本上受限于模型在特定时间内可以处理的信息量。

尝试了各种压缩/分块方法后,唯一的解决方法就是使用更大上下文的模型。

OpenAI提供了长上下文模型支持,最新版本的Genie经过了数十亿token的数据训练。

团队认为,相比超参数调整和数据量,数据的质量才是关键。因此他们还在数据混合方面进行了大量实验,包括语言、任务类型、任务长度等多个维度。

Cosine团队:虽小但有力

正如我们在上文提到的,Cosine这个初创团队目前仅有5人。

在官网的介绍中,他们也非常直接地将自己形容为:

Small but mighty.

虽小但有力。

从介绍来看,成员有的是从独角兽企业出身,有的拥有管理全球团队的经验,甚至还有从8岁就开始编程的。

但Cosine最初成立之际是仅有3人,他们的目标是想把人类推理这件事儿给搞明白。

值得一提的是,团队成员中还有一位是华人,Yang Li,是Cosine的联合创始人,在2021年登上过福布斯30 under 30。

除此之外,对于Genie本身,CEO Alistair还表示:

早在2022年我们就开始构想Genie了,但当时从技术角度来说是不可行的。

直到过去半年多来,随着大模型的逐步成熟,Genie才能走入现实。

嗯,不得不说,大模型又立功了。

AI编程高手Genie来袭:5人小队84秒搞定代码,思考像人一样!插图2

Genie目前是可以申请Waitlist了,感兴趣的小伙伴可以戳文末链接~

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/1595.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部