678CHAT AI资讯 OpenAI 推出 GPT-4o Transcribe 等新语音模型,语音 AI 有大突破

OpenAI 推出 GPT-4o Transcribe 等新语音模型,语音 AI 有大突破

在语音 AI 领域取得显著进展之后,OpenAI 又有新动作,一口气推出了三款自主研发的语音模型,分别是 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。其中,gpt-4o-transcribe 毫无疑问成为了焦点。

OpenAI 推出 GPT-4o Transcribe 等新语音模型,语音 AI 有大突破插图

这些新模型已经通过 API 向第三方开发者开放,开发者们可以利用它们打造出更智能的应用程序。OpenAI 还贴心地提供了 OpenAI.fm 演示网站,供普通用户去体验这些模型的强大功能。

核心功能剖析

gpt-4o-transcribe 可以说是 OpenAI 两年前发布的开源语音转录模型 Whisper 的升级版,它的目标很明确,就是要实现更低的文字错误率和更强大的性能。

根据 OpenAI 提供的数据,在对 33 种语言进行测试后发现,gpt-4o-transcribe 的错误率相较于 Whisper 有了显著的下降。特别是在英语方面,错误率低至 2.46%,这对于那些对语音转录精度要求极高的场景来说,无疑是一个巨大的福音。

而且,gpt-4o-transcribe 在复杂环境下依然能够保持出色的性能。无论是嘈杂的环境,还是面对各种不同口音的说话者,亦或是处理快慢不一的语速,它都能给出更准确的转录结果,并且支持 100 多种语言。

为了进一步提升转录的准确性,gpt-4o-transcribe 还加入了噪声消除和语义语音活动检测技术。OpenAI 的技术人员 Jeff Harris 介绍称,语义语音活动检测能够帮助模型判断说话者是否已经表达了一个完整的想法,从而避免出现断句错误,进而提高转录的质量。此外,gpt-4o-transcribe 还支持流式语音转文本,开发者可以持续输入音频,并且能够实时获得文本结果,让对话变得更加自然。

不过,需要指出的是,gpt-4o-transcribe 模型家族目前还不具备“说话人分离”(diarization)功能,它主要是将接收到的音频(哪怕里面包含多人的声音)统一转录成文本,不会去区分和标记不同的说话人。

尽管在需要区分发言人的场合会受到一些限制,但 gpt-4o-transcribe 在提高整体转录准确性方面的优势依然十分明显。

API 接口开放:开发者优先体验

gpt-4o-transcribe 已经通过 OpenAI 的 API 接口提供给开发者使用了。开发者可以快速地将这种语音转录能力集成到自己的应用当中,从而为用户带来更加便捷的语音交互体验。

OpenAI 推出 GPT-4o Transcribe 等新语音模型,语音 AI 有大突破插图1

在直播演示中,OpenAI 展示了对于基于 GPT-4o 等文本大模型构建的应用,只需大约九行代码,就能轻松地添加语音交互功能。比如在电商应用中,就可以快速实现语音回复用户关于订单信息的咨询。

OpenAI 也明确表示,考虑到 ChatGPT 在成本和性能方面有其特殊的需求,这些新模型暂时不会直接应用于 ChatGPT,不过预计未来会逐步进行整合。对于那些追求更低延迟、实时语音交互的开发者,OpenAI 推荐使用 Realtime API 中的语音到语音模型。

凭借如此强大的语音转录能力,gpt-4o-transcribe 在客户呼叫中心、会议纪要自动生成以及 AI 驱动的智能助手等领域有着广阔的应用前景。一些已经体验过新模型的公司反馈称,OpenAI 的音频模型确实显著提升了语音 AI 的性能。

当然,OpenAI 在语音 AI 领域也面临着来自其他公司的竞争。比如 ElevenLabs 的 Scribe 模型,它不仅具备较低的错误率,还拥有说话人分离功能。而 Hume AI 的 Octave TTS 模型则在发音和情感控制方面提供了更精细的自定义选项。此外,开源社区也不断有先进的语音模型涌现。

根据相关资料,以下是 OpenAI 新语音模型的定价信息以及一些竞品的价格:

模型API定价:

  • gpt-4o-transcribe:每100万个音频输入 tokens 的价格为 $6.00,换算下来每分钟大约是 $0.006
  • gpt-4o-mini-transcribe:每100万个音频输入 tokens 的价格为 $3.00,每分钟大约是 $0.003
  • gpt-4o-mini-tts:每100万个文本输入 tokens 的价格为 $0.60,每100万个音频输出 tokens 的价格为 $12.00,每分钟大约是 $0.015

竞品模型定价:

  • ElevenLabs Scribe:每小时音频输入的定价为 $0.40,换算成每分钟大约是 $0.006
  • Orpheus3B:它是基于 Apache2.0许可开源的,开发者可以免费使用,但前提是需要自己准备相应的硬件或者云服务器。

需要注意的是,不同模型的计费方式可能会存在差异,比如有的是基于 token 数量来计费,有的则是根据时长来计费,所以在直接比较价格的时候,一定要考虑到这些因素。

OpenAI 推出 GPT-4o Transcribe 等新语音模型,语音 AI 有大突破插图2

OpenAI 此次发布的 gpt-4o-transcribe 等新语音模型,在语音转录领域展现出了强大的实力和巨大的潜力。虽然目前主要是面向开发者,但它们在提升语音交互体验方面的价值是显而易见的。未来,随着技术的不断发展,我们或许能够看到更多令人惊叹的语音 AI 应用不断涌现。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/12309.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部