678CHAT AI资讯 AI 能读懂你的唇语,悄悄话可能不保密了哦!

AI 能读懂你的唇语,悄悄话可能不保密了哦!

AI 读唇术,让私语无处遁形!(嘘)近期,一款国外开发的能读懂唇语的 AI 应用引起了广泛关注。

它的神奇之处在于:

在红毯上,当布莱克·莱弗利轻声说“我好紧张”,尽管笑容满面,肉眼难以捕捉到唇语,但 AI 却能轻松解读。

即使是侃爷那一排洁白的牙齿,AI 也能从中读出他的唇语。

网友们对此议论纷纷,各抒己见:

有求合作的网友说:“快把它和 Siri 结合吧,这样我就不用像个傻子一样大声对着电脑喊了!”

有想测试的网友表示:“我得试试用它来识别那些画质糟糕的视频!”

也有担心隐私的网友担忧:“我有点害怕,看来以后出门得戴口罩了。”

Readtheirlips 的实际表现如何

我们搜集了一些视频,亲自测试了 Readtheirlips 的效果。

首先,我们尝试了阿尔特曼在斯坦福的访谈视频,将 AI 生成的文字与原对话进行对比,发现内容几乎完全一致。

即便是表情丰富的老马,Readtheirlips 也表现出了稳定的识别能力。

但是,当视频中的人物不是全程正脸对着镜头时,如小扎那样喜欢边说边比划,Readtheirlips 就无法准确识别。

而当主角换成语速极快的卡帕西时,Readtheirlips 出现了识别错误。(左侧为 Readtheirlips 生成,右侧为文字处理软件生成)

最后,我们上传了一个 16 分钟的视频,Readtheirlips 无法处理,显示错误。

总结来说:

Readtheirlips 能识别的视频长度大约在一分钟左右。

正如他们所指出的,如果人物的正脸没有正对镜头,那么模型就很难给出正确的答案。

对于语速过快的视频内容,Readtheirlips 只能识别部分内容。

对此,开发团队回应:

我们正在努力解决这个问题,很快就会有改进!”

关于视频上传的时长限制,他们表示:

目前我们只支持 3 分钟以内的视频,但未来我们会逐步增加这个限制!”

AI 如何“听”悄悄话

在亲测视频后,让我们深入了解一下 Readtheirlips 的工作原理。

它是如何读懂人类唇语的呢?

首先,研究团队利用大量标注数据(已知的嘴唇运动和对应的文本)来训练模型。

用户上传的视频需要包含说话者的面部特写,尤其是嘴部动作。

然后,模型会分析视频中的嘴部运动:通过面部检测找到嘴唇位置,提取嘴唇的几何特征(形状、开合程度、运动轨迹等),并分析嘴唇在说话过程中的动态变化(速度、方向和形状变化)。

接着,模型将提取的嘴唇特征与训练数据中的特征进行匹配,识别出视频中人物所说的内容。

将识别出的单词或短语组合成完整的句子,进行上下文理解,确保语法和语义的正确性。

最终,将识别的内容输出为文本。

开发团队简介

Readtheirlips 的开发团队 Symphonic Labs 是一家新兴的初创公司。

根据领英的信息,该公司今年 4 月份才成立,目前团队成员不到 10 人。

他们之前还开发过一款名为 Symphonic 的软件,该软件能够通过读取唇语实现实时文本转录。

两款软件的试玩链接如下,感兴趣的朋友可以亲自体验:

  • Readtheirlips 试玩链接:https://www.readtheirlips.com/

  • AI 能读懂你的唇语,悄悄话可能不保密了哦!插图

    Symphonic 试玩链接:https://symphoniclabs.com/

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/2076.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部