昨夜,科技界的目光聚焦于一场备受期待的发布会——谷歌旗下备受瞩目的新产品Gemini Live终于揭开了神秘的面纱。这款产品自诞生之初就被看作是与OpenAI的GPT-4o直接竞争的对手,其发布无疑在业界引起了不小的震动。然而,发布会现场的演示环节却让这场科技盛宴出现了些许尴尬。
根据官方的演示视频,Gemini Live的主要功能之一是利用手机拍摄图片,比如演唱会海报,然后通过查看用户日历来确定用户是否有空闲时间参加。此外,它还能够进行一系列基于此的操作,比如预定时间查询票价等。
但是,当演示环节开始时,情况却并不如预期那般顺利。
首次尝试:未成功。
再次尝试:依旧失败。
第三次尝试,更换了演示设备后,终于成功。
现场演示人员的紧张情绪几乎可以从他的表情中读出。就连知名的科技媒体TechCrunch也用一个表情符号来表达了他们的看法。
网友们更是纷纷开启了辛辣的评论模式:
我自己10秒钟就能搞定日历搜索。
尽管这只是发布会中的一个小插曲,但关于Gemini Live的讨论仍在继续。
揭开谷歌版Her的神秘面纱
正如之前所提到的,Gemini Live与GPT-4o在功能上有着诸多相似之处。
除了拍照问答功能,它还能够进行实时对话,甚至允许用户在对话过程中随时打断Gemini的回答。
目前,Gemini Live的部分功能已经在安卓系统中向Advanced订阅者开放,并且仅限于英语使用。
据悉,在未来几周内,这些功能将逐步扩展到更多语言,并且也将向iOS用户开放。
在语音方面,Gemini Live提供了10种不同的声音选项,以适应不同用户的个性化需求。
在操作便利性上,由于Gemini已经完全集成到了系统中,用户只需长按电源按钮或说出“Hey Google”,即可轻松调用。
例如,在撰写邮件时,用户可以请求Gemini帮助生成配图,其效果令人印象深刻。
然而,对于这项功能,外媒的评价却呈现出两极分化的态势。
一位The Verge的作者在亲身体验后,给出了这样的评价:
Gemini Live虽然比谷歌助手更快,但使用起来却更加尴尬。
原因在于,作者在一次为期三天的公路旅行中,汽车的音频系统突然失效,使用谷歌助手寻找解决方案花费了至少五分钟,而Gemini Live仅用了15秒。
但是,Gemini Live在对话过程中的持续发言和需要用户主动打断的交互方式,却让作者感到不适。
它的声音和说话方式过于人性化,以至于在打断它时感到不自然。
与Gemini Live的互动让我投入了更多的情感,而不仅仅是将其视为一个解决问题的工具。
同样,华尔街日报也对Gemini Live的云端运行模式提出了尖锐的批评:
虽然在对话上有所进步,但在功能上却有所退步。
从技术角度来看,GPT-4o是一个端到端的系统,而Gemini Live则并非如此,它集成了STT、VAD、LLM和TTS等多个系统。
此外,在谷歌最新发布的Pixel系列手机中,Gemini Live也占据了一席之地。
Pixel 9 Pro Fold、Pixel 9、Pixel 9 Pro以及Pixel 9 Pro XL等机型在AI功能上增加了一项名为“Add Me”的新功能。
这项功能利用增强现实(AR)和AI技术,能够将两张不同照片中的人物合并到一起。
谷歌为何难以追赶OpenAI的步伐?
尽管谷歌此次推出Gemini Live,可以看作是对OpenAI GPT-4o的一种回应,但自大模型时代开启以来,谷歌似乎始终难以跟上OpenAI的步伐。
从ChatGPT的发布到Bard以及这次的Gemini Live,谷歌在重磅模型和应用的发布上总是显得稍显落后。
与此同时,OpenAI则一直在引领着行业的发展。
谷歌在大模型时代的表现为何不尽如人意?前谷歌CEO Eric Schmidt在斯坦福的一次演讲中给出了自己的看法:
谷歌非常重视工作与生活的平衡,比如允许员工在家办公。
但创业公司的工作态度则完全不同,他们非常拼命。
还有网友透露:
我的兄弟是谷歌的顶级AI程序员,他有三份全职工作,每天只在谷歌工作两小时。
对于谷歌在大模型时代的表现,你怎么看?欢迎在评论区留言分享你的观点。