最新推出的 Gemini 2.0 以其语音指令P图功能迅速走红,让无数无法体验的用户羡慕不已。
想象一下,只需一句简单的指令:“将这辆轿车改造成敞篷版”,Gemini 2.0 便能迅速将文字与图片结合,实现一键P图。
在对比前后图片时,你会发现除了车辆变为敞篷外,其他元素保持不变,保持了高度的一致性。
Gemini 2.0 不仅如此,它还展现出了“多模态版o1”的特质。
继续输入指令:“设想一下,这辆车内装满了沙滩用品。然后,将车身颜色改为一种让人联想到夏日的颜色,并在改变过程中进行解释。”
紧接着,Gemini 2.0 便开始图文并茂地逐步推理生成,先是将车辆变为明亮的黄色,随后车内装满了遮阳伞等沙滩用品。
这正是 Gemini 2.0 系列的原生图像输出能力。
在评论区,众多用户纷纷询问具体的上线时间。
被谷歌挖角的 OpenAI 前高管 Logan Kilpatrick 回应称,大家稍安勿躁,预计明年初将更广泛地推出。
除了上述简单的P图展示,Gemini 2.0 还能同时对图片中的多个元素进行P图,甚至可以将一个物品变成另一个。
例如,将蓬松的夹克变成一个小枕头,并移除毯子:
不仅如此,结合不同的图片进行P图也是可行的。
将猫和抱枕结合,就能得到一个质感十足的猫猫抱枕:
将猫和滑板结合,就能得到猫猫代言的滑板。
遵循文字指令,Gemini 2.0 成功将猫猫转变为插画贴纸形态。
此外,Gemini 2.0 在P图时还能展现出更多的想象力。
比如一个箱子,打开后就变成了这样:
之前展示的小车,也能变成“飞车”:
还有另一种玩法。
在图像中圈出需要P的区域,只需“Open this”,Gemini 2.0 便能直接结合文字指令理解图像,明白“this”所指代的内容:
不得不说,那些拥有内测资格的用户,真是让人羡慕不已。