8月27日,智谱AI发布重大消息,宣布其最新大模型GLM-4-Flash正式向公众免费开放。用户现可通过智谱AI的大模型开放平台进行模型调用,享受这一技术成果。
GLM-4-Flash模型专为处理那些需要迅速反应的简单垂直任务而设计,其生成速度之快令人瞩目,每秒可生成72.14个token,即大约115个字符。
此模型不仅在速度上表现出色,功能上也相当全面。它支持多轮对话、网页浏览、函数调用(Function Call)以及长文本推理,后者能够处理长达128K的上下文信息。更值得一提的是,GLM-4-Flash能够支持包括中文、英语、日语、韩语、德语在内的26种语言,使其在全球范围内都具有广泛的应用潜力。
智谱AI官方透露,模型之所以能够实现如此高效的推理性能,主要归功于采用了自适应权重量化、多种并行化技术、批处理策略以及投机采样等先进技术。这些方法不仅降低了模型的延迟,提高了响应速度,同时也大幅增加了并发量和吞吐量,有效提升了整体的工作效率,并且显著降低了推理成本,使得免费开放成为可能。
在模型的预训练阶段,智谱AI采取了创新的数据筛选流程,引入大型语言模型,成功获取了高达10T的高质量多语言数据,这一数据量是之前ChatGLM3-6B模型的三倍多。此外,还采用了FP8技术进行预训练,进一步提升了训练效率和计算性能。
对于有兴趣体验GLM-4-Flash模型的用户,智谱AI提供了以下链接以供参考:
-
体验入口:https://bigmodel.cn/console/trialcenter?modelCode=glm-4-flash
-
开发者文档:https://open.bigmodel.cn/dev/api#glm-4