AI 读唇术,让私语无处遁形!(嘘)近期,一款国外开发的能读懂唇语的 AI 应用引起了广泛关注。
它的神奇之处在于:
在红毯上,当布莱克·莱弗利轻声说“我好紧张”,尽管笑容满面,肉眼难以捕捉到唇语,但 AI 却能轻松解读。
即使是侃爷那一排洁白的牙齿,AI 也能从中读出他的唇语。
网友们对此议论纷纷,各抒己见:
有求合作的网友说:“快把它和 Siri 结合吧,这样我就不用像个傻子一样大声对着电脑喊了!”
有想测试的网友表示:“我得试试用它来识别那些画质糟糕的视频!”
也有担心隐私的网友担忧:“我有点害怕,看来以后出门得戴口罩了。”
Readtheirlips 的实际表现如何
我们搜集了一些视频,亲自测试了 Readtheirlips 的效果。
首先,我们尝试了阿尔特曼在斯坦福的访谈视频,将 AI 生成的文字与原对话进行对比,发现内容几乎完全一致。
即便是表情丰富的老马,Readtheirlips 也表现出了稳定的识别能力。
但是,当视频中的人物不是全程正脸对着镜头时,如小扎那样喜欢边说边比划,Readtheirlips 就无法准确识别。
而当主角换成语速极快的卡帕西时,Readtheirlips 出现了识别错误。(左侧为 Readtheirlips 生成,右侧为文字处理软件生成)
最后,我们上传了一个 16 分钟的视频,Readtheirlips 无法处理,显示错误。
总结来说:
Readtheirlips 能识别的视频长度大约在一分钟左右。
正如他们所指出的,如果人物的正脸没有正对镜头,那么模型就很难给出正确的答案。
对于语速过快的视频内容,Readtheirlips 只能识别部分内容。
对此,开发团队回应:
我们正在努力解决这个问题,很快就会有改进!”
关于视频上传的时长限制,他们表示:
目前我们只支持 3 分钟以内的视频,但未来我们会逐步增加这个限制!”
AI 如何“听”悄悄话
在亲测视频后,让我们深入了解一下 Readtheirlips 的工作原理。
它是如何读懂人类唇语的呢?
首先,研究团队利用大量标注数据(已知的嘴唇运动和对应的文本)来训练模型。
用户上传的视频需要包含说话者的面部特写,尤其是嘴部动作。
然后,模型会分析视频中的嘴部运动:通过面部检测找到嘴唇位置,提取嘴唇的几何特征(形状、开合程度、运动轨迹等),并分析嘴唇在说话过程中的动态变化(速度、方向和形状变化)。
接着,模型将提取的嘴唇特征与训练数据中的特征进行匹配,识别出视频中人物所说的内容。
将识别出的单词或短语组合成完整的句子,进行上下文理解,确保语法和语义的正确性。
最终,将识别的内容输出为文本。
开发团队简介
Readtheirlips 的开发团队 Symphonic Labs 是一家新兴的初创公司。
根据领英的信息,该公司今年 4 月份才成立,目前团队成员不到 10 人。
他们之前还开发过一款名为 Symphonic 的软件,该软件能够通过读取唇语实现实时文本转录。
两款软件的试玩链接如下,感兴趣的朋友可以亲自体验:
Readtheirlips 试玩链接:https://www.readtheirlips.com/
Symphonic 试玩链接:https://symphoniclabs.com/