Gemini 2.0闪现：AI图像编辑要干掉Photoshop，AGI也快来了？

谷歌的Gemini 2.0 Flash正以其卓越的图像编辑能力，在网络上引发了一场前所未有的热潮。其“一句话PS”功能，让图像编辑变得如此简单，甚至有人断言，这将彻底颠覆广告行业，甚至对模特行业产生深远影响。从去除水印到生成趣味梗图，再到图像融合，Gemini 2.0 Flash为用户带来了前所未有的体验。更有甚者，有人认为谷歌凭借这一技术，已经在AI领域全面超越了OpenAI，并有望率先实现AGI（通用人工智能）。

近期，谷歌在AI领域的频繁动作，显示出其全方位领先的发展态势。分析人士预测，谷歌DeepMind可能会比OpenAI更早实现AGI。原因在于，谷歌DeepMind在多个领域的产品布局已经展现出全面获胜的迹象，他们选择默默耕耘，而非大肆炒作，这种务实的态度给公众留下了深刻印象。

谷歌AI产品优势一览：

最佳通用模型：Gemini 2.0 Flash
最佳多模态：Gemini 2.0 Flash / Gemini 2.0 Pro Experimental
最佳原生图像生成：Gemini 2.0 Flash
最佳文本/图像到视频：Veo-2
最佳图像生成：Imagen-3
最大的上下文窗口：2M (Gemini 2.0 Pro Experimental)

此外，谷歌的原生音频生成功能也即将推出，这将进一步巩固其在AI领域的领先地位。

相比之下，OpenAI最近的举动却引发了争议。他们提交了一份长达15页的提案，呼吁美国政府全面禁止DeepSeek，限制中国AI发展。在这种对比之下，谷歌DeepMind的低调务实显得尤为突出。

如今，谷歌DeepMind的发展势头愈发强劲。如果他们能将额外开发的技术推向市场，或将引发一场颠覆性的变革。

不久前，谷歌发布了其首个面向公众的全模态图像生成器——Gemini 2.0 Flash，这标志着谷歌正式进军原生图像生成领域。其“一句话PS”功能迅速引起了网友的广泛关注。用户纷纷尝试用它去除水印、生成交叉图像等，并惊呼Gemini 2.0 Flash完全可以取代Photoshop。

那么，全模态图像生成器与其他AI图像生成模型相比，最大的区别是什么呢？Gemini 2.0 Flash拥有强大的推理能力，能够结合现实世界的知识来生成更符合上下文的图像，理解更多的细节，并遵循特定的文化背景。更重要的是，整个过程都由Gemini模型独立完成，无需调用其他模型，只需通过自然语言提示即可。

此外，传统的AI图像生成器需要分别处理文本和图像，而Gemini 2.0 Flash则可以同时输出文本和插图，并保持惊人的一致性。

Gemini 2.0 Flash的核心优势：

真正的多模态能力：能够同时理解文字、图像以及二者之间的联系。
理解世界知识：能够进行智能推理，结合现实世界的知识生成准确的内容。
自然语言交互：仅通过对话即可修改图片，真正实现“一句话PS”。

如此强大且令人惊叹的修图功能，让网友Oleks预测：以图片销售为主营业务的公司，股价将会暴跌。

现在看来，Photoshop的确面临着前所未有的挑战。视觉特效从业者Bilawal Sidhu表示，谷歌Gemini的新功能“一句话PS”将消除专业人士和普通用户之间的技术鸿沟。他展示了5个例子，证明使用Gemini进行特效制作非常简单。

1. 将自己变成Roblox和Minecraft角色

2. Gemini深刻的场景理解能力

3. 为不同人物添加墨镜，效果良好

4. 3D线框+语义激光雷达点云测试

5. 补画与扩画 (in-painting and out-painting)

使用Gemini 2.0 Flash，将梗图修改成自己想要的样子变得非常简单。想要制作其他脑洞大开的“梗图”也变得轻而易举。即使是夜晚的照片，Gemini 2.0 Flash也能将其瞬间变成白天的照片。

可以看出，在将夜景转换为白天实景时，景观基本准确，没有出现幻觉。如果要挑剔的话，那就是根据夜景图像生成的图像，在光照条件方面存在一些偏差。这简直让人难以置信。一些人亲自上手尝试后，不得不承认：谷歌这次确实很厉害。

最令人惊喜的是，Gemini 2.0 Flash几乎没有任何限制，可以毫无障碍地生成名人肖像和受版权保护的角色图像。例如，CMU机器学习博士James Campbell就尝试将马斯克P到了自己的办公桌上。照片中的人物神态自然，人物和背景融合得天衣无缝，很难看出是后期合成的。网友们也纷纷进行实测，并表示这项功能非常棒！从此，“一句话P图”的功能进入了一个新的阶段。

上班快迟到了，需要快速编一个理由？打开Gemini 2.0 Flash，一键搞定！只需一句话，美女手中的手机就能变成我们指定的那款。Gemini 2.0 Flash和Pika的结合也产生了奇妙的效果。为模特一键换装，简直做到了极致。从此，我们不必再去影楼拍摄写真或证件照了，只需上传一张高清生活照即可！同样，一张正面肖像照也可以切换至侧视图，或者缩小视角。各种角度的照片都可以生成。结合Kling后，可以直接生成广告大片，有望颠覆模特和广告行业。角色一致性的保持程度也令人惊讶。此外，这项功能还可以用来设计房屋。比如，让家具消失，然后将房屋的装修风格改成现代时尚美学。在美国，请室内设计师做这件事可能需要花费五千到一万美元。甚至，Gemini 2.0 Flash还能帮助我们复原老照片。

在去除水印方面，Gemini 2.0 Flash也表现出色！这项意外解锁的新技能让网友们激动不已。这项功能免费且可以无限使用，而且不会因为删除水印而产生明显的空白区域。在谷歌AI Studio上，可以使用“动动嘴，就能PS照片”的功能。网友们对去水印功能情有独钟，很多人实测后都感到惊喜。然而，这也引发了不少争议。例如，摄影师和设计师的作品被盗用，可能会导致版权侵权行为更加泛滥。

谷歌DeepMind研究及深度学习负责人、Gemini项目共同负责人Oriol Vinyals对Gemini的新功能感到震惊！在他看来，Gemini 2.0 Flash的交叉图像生成功能具有颠覆性意义。如何向2岁女儿的班级解释AlphaFold的工作原理？只需输入提示：“Write an illustrated story about AlphaFold for toddlers”，就能瞬间生成一本图文并茂、符合幼儿园风格的科普书。Oriol Vinyals直呼这就是魔法！AI可以让AlphaFold这样复杂的主题，对幼儿来说都变得更加容易理解。Oriol Vinyals赞叹道：Gemini 2.0 Flash的交叉图像生成是一项革命性技术！这个简单的演示向人们展示了AI+教育的无限可能性，未来的启蒙教育或许会变得更加有趣！而且，Gemini 2.0 Flash现在允许用户输入任何人物或物体的图片，并在此基础上创作出全新的形象，同时还能较好地保持原始人物/角色的特征。

Gemini 2.0 Flash这项新功能甚至可以用来迭代图像，创建任何游戏！同时，Gemini 2.0 Flash也直接“攻陷”了漫画圈。现在使用Gemini 2.0 Flash来生成漫画，只需要动动嘴。有网友尝试后发现自己根本停不下来。只需一个简单的提示，就能进行选择性修改，而不会破坏整个图像。他激动地表示，“用它来制作漫画和故事分镜会变得非常轻松”。为漫画添加颜色也是一句话的事。即使是漫画角色的动作——抬起手臂，也能用嘴完成。而且，输出的图像与原图保持了高度的一致性。动漫圈的二次元用户更是激动不已，有人惊呼，这是有史以来最好的动漫模型！动漫创作的整个流程，Gemini 2.0 Flash都能按照指示完成，比如将素描转换为线稿；填充基础色；添加一些柔和的阴影，光源位于左上角；添加一个室内背景，使其与当前的光源和阴影环境相匹配，使用

相关文章

夸克还没搞定商业化，阿里AI到C端的战略焦虑难解

苏州出招，加速AI芯片产业发展

DeepSeek概念股今天大涨，百度、金山云、阿里巴巴带头涨

倒计时！第十五届北京国际电影节AIGC电影单元正在全球火热征片

Airbnb前员工创业为啥这么猛，成功率甩同行好几条街

金山办公申请青丘大模型商标，进军科学仪器和网站服务

发表回复 取消回复

发表回复取消回复