在人工智能的广阔天地中,一场革命正在悄然发生。一家名不见经传的小型创业团队,凭借其创新的开源大模型,一夜之间成为了业界的焦点。这款名为Reflection 70B的模型,采用了突破性的训练技术,赋予了AI自我纠错的能力,使其在推理过程中能够识别并修正自己的错误和幻觉。
在当前流行的数r测试中,Reflection 70B最初也犯了大多数模型的通病,但它在“反思”阶段展现出了与众不同的自我修正能力。这种能力在官方评测中得到了充分展现,它不仅全面超越了开源领域的佼佼者如Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,更是在数学基准GSM8K上取得了惊人的99.2%的高分,这一成绩甚至引发了OpenAI科学家、德扑AI之父Noam Brown的热烈讨论。
"GSM8K得分99%!我们是否可以宣布这个基准已经过时了?"
模型一经上线,便吸引了无数网友的热烈参与,以至于Meta不得不提供更多的算力以支持这一热潮。在网友的测试中,Reflection 70B展现出了其非凡的能力,它不仅能够正确回答GSM8K数据集中本身答案错误的问题,还能准确数出生造词“drirrrngrrrrrnnn”中的r的数量。
这种开源超越闭源的现象,让网友们对这家小团队的成就感到惊讶。现在,最强大的开源模型可以在本地运行,这无疑是一个巨大的进步。而70B仅仅是一个开始,官方已经宣布,下周将发布更大规模的Reflection 405B模型,预计将在性能上大幅超越Sonnet和GPT-4o。
"预计405B的性能将大幅领先于现有顶尖模型。"
Reflection 70B的权重已经公开,而API访问也将由Hyperbolic Labs在今日晚些时候提供。这款模型之所以能够自我反思并纠正错误,关键在于其采用了一种名为Reflection-Tuning的训练方法。这种方法让模型在生成文本时能够进行自我反思,检测并修正推理中的错误。
训练数据来源于GlaiveAI平台生成的合成数据,Reflection 70B基于Llama 3.1 70B Instruct,可以利用与其他Llama模型相同的代码和pipeline进行采样。它甚至采用了标准的Llama 3.1聊天格式,但引入了一些特殊的tokens来结构化输出过程。
模型的规划过程被分为一个独立的步骤,这样做不仅提高了CoT效果,还保持了输出的精炼性。模型会在<thinking>和</thinking>标签内输出推理过程,一旦对推理满意,就会在<output>和</output>标签内输出最终答案。这种设计使得模型能够将其内部思考和推理与最终答案区分开来。
"你是一个世界级的AI系统,能够进行复杂的推理和反思。在标签内对查询进行推理,然后在标签内提供你的最终回应。如果你在推理过程中发现自己犯了错误,请在标签内纠正自己。"
值得一提的是,在基准测试中,所有基准都通过了LMSys的LLM Decontaminator检查,以确保<output>部分的纯净性,并对其进行了单独测试。
官方还分享了一些使用Reflection 70B的小技巧,比如建议的参数设置和在Prompt末尾附加“Think carefully.”以提高准确性。此外,官方还计划在下周发布一份详细报告,介绍模型的训练过程和发现。
创业团队的杰作
Reflection 70B的背后是一支由HyperWriteAI的CEO Mutt Shumer领导的小团队。Mutt Shumer是一位连续创业者,拥有美国锡拉丘兹大学的背景,同时也是OthersideAI的联合创始人兼CEO。OthersideAI是一家AI应用公司,专注于开发全球最先进的自动补全工具,也是HyperWrite的幕后推手。
HyperWrite是一个浏览器操作agent,能够像人类一样操作谷歌浏览器来完成各种任务,如订披萨等。它在谷歌扩展程序中也可以安装使用。Mutt Shumer在高中时期就创立了Visos,致力于开发用于医疗用途的下一代虚拟现实软件。此外,他还创立了FURI,这是一家旨在通过创造高性能产品并以公平的价格销售它们来颠覆体育用品行业的公司。
尽管有Meta的支持,但目前试玩仍然无法访问。感兴趣的朋友们可以持续关注。