678CHAT AI资讯 Gemini 2.0闪现:AI图像编辑要干掉Photoshop,AGI也快来了?

Gemini 2.0闪现:AI图像编辑要干掉Photoshop,AGI也快来了?

谷歌的Gemini 2.0 Flash正以其卓越的图像编辑能力,在网络上引发了一场前所未有的热潮。其“一句话PS”功能,让图像编辑变得如此简单,甚至有人断言,这将彻底颠覆广告行业,甚至对模特行业产生深远影响。从去除水印到生成趣味梗图,再到图像融合,Gemini 2.0 Flash为用户带来了前所未有的体验。更有甚者,有人认为谷歌凭借这一技术,已经在AI领域全面超越了OpenAI,并有望率先实现AGI(通用人工智能)。

Gemini 2.0闪现:AI图像编辑要干掉Photoshop,AGI也快来了?插图

近期,谷歌在AI领域的频繁动作,显示出其全方位领先的发展态势。分析人士预测,谷歌DeepMind可能会比OpenAI更早实现AGI。原因在于,谷歌DeepMind在多个领域的产品布局已经展现出全面获胜的迹象,他们选择默默耕耘,而非大肆炒作,这种务实的态度给公众留下了深刻印象。

谷歌AI产品优势一览:

  • 最佳通用模型:Gemini 2.0 Flash
  • 最佳多模态:Gemini 2.0 Flash / Gemini 2.0 Pro Experimental
  • 最佳原生图像生成:Gemini 2.0 Flash
  • 最佳文本/图像到视频:Veo-2
  • 最佳图像生成:Imagen-3
  • 最大的上下文窗口:2M (Gemini 2.0 Pro Experimental)

此外,谷歌的原生音频生成功能也即将推出,这将进一步巩固其在AI领域的领先地位。

相比之下,OpenAI最近的举动却引发了争议。他们提交了一份长达15页的提案,呼吁美国政府全面禁止DeepSeek,限制中国AI发展。在这种对比之下,谷歌DeepMind的低调务实显得尤为突出。

如今,谷歌DeepMind的发展势头愈发强劲。如果他们能将额外开发的技术推向市场,或将引发一场颠覆性的变革。

不久前,谷歌发布了其首个面向公众的全模态图像生成器——Gemini 2.0 Flash,这标志着谷歌正式进军原生图像生成领域。其“一句话PS”功能迅速引起了网友的广泛关注。用户纷纷尝试用它去除水印、生成交叉图像等,并惊呼Gemini 2.0 Flash完全可以取代Photoshop。

那么,全模态图像生成器与其他AI图像生成模型相比,最大的区别是什么呢?Gemini 2.0 Flash拥有强大的推理能力,能够结合现实世界的知识来生成更符合上下文的图像,理解更多的细节,并遵循特定的文化背景。更重要的是,整个过程都由Gemini模型独立完成,无需调用其他模型,只需通过自然语言提示即可。

此外,传统的AI图像生成器需要分别处理文本和图像,而Gemini 2.0 Flash则可以同时输出文本和插图,并保持惊人的一致性。

Gemini 2.0 Flash的核心优势:

  • 真正的多模态能力:能够同时理解文字、图像以及二者之间的联系。
  • 理解世界知识:能够进行智能推理,结合现实世界的知识生成准确的内容。
  • 自然语言交互:仅通过对话即可修改图片,真正实现“一句话PS”。

如此强大且令人惊叹的修图功能,让网友Oleks预测:以图片销售为主营业务的公司,股价将会暴跌。

现在看来,Photoshop的确面临着前所未有的挑战。视觉特效从业者Bilawal Sidhu表示,谷歌Gemini的新功能“一句话PS”将消除专业人士和普通用户之间的技术鸿沟。他展示了5个例子,证明使用Gemini进行特效制作非常简单。

Gemini 2.0闪现:AI图像编辑要干掉Photoshop,AGI也快来了?插图1

1. 将自己变成Roblox和Minecraft角色

2. Gemini深刻的场景理解能力

3. 为不同人物添加墨镜,效果良好

4. 3D线框+语义激光雷达点云测试

5. 补画与扩画 (in-painting and out-painting)

使用Gemini 2.0 Flash,将梗图修改成自己想要的样子变得非常简单。想要制作其他脑洞大开的“梗图”也变得轻而易举。即使是夜晚的照片,Gemini 2.0 Flash也能将其瞬间变成白天的照片。

可以看出,在将夜景转换为白天实景时,景观基本准确,没有出现幻觉。如果要挑剔的话,那就是根据夜景图像生成的图像,在光照条件方面存在一些偏差。这简直让人难以置信。一些人亲自上手尝试后,不得不承认:谷歌这次确实很厉害。

最令人惊喜的是,Gemini 2.0 Flash几乎没有任何限制,可以毫无障碍地生成名人肖像和受版权保护的角色图像。例如,CMU机器学习博士James Campbell就尝试将马斯克P到了自己的办公桌上。照片中的人物神态自然,人物和背景融合得天衣无缝,很难看出是后期合成的。网友们也纷纷进行实测,并表示这项功能非常棒!从此,“一句话P图”的功能进入了一个新的阶段。

上班快迟到了,需要快速编一个理由?打开Gemini 2.0 Flash,一键搞定!只需一句话,美女手中的手机就能变成我们指定的那款。Gemini 2.0 Flash和Pika的结合也产生了奇妙的效果。为模特一键换装,简直做到了极致。从此,我们不必再去影楼拍摄写真或证件照了,只需上传一张高清生活照即可!同样,一张正面肖像照也可以切换至侧视图,或者缩小视角。各种角度的照片都可以生成。结合Kling后,可以直接生成广告大片,有望颠覆模特和广告行业。角色一致性的保持程度也令人惊讶。此外,这项功能还可以用来设计房屋。比如,让家具消失,然后将房屋的装修风格改成现代时尚美学。在美国,请室内设计师做这件事可能需要花费五千到一万美元。甚至,Gemini 2.0 Flash还能帮助我们复原老照片。

在去除水印方面,Gemini 2.0 Flash也表现出色!这项意外解锁的新技能让网友们激动不已。这项功能免费且可以无限使用,而且不会因为删除水印而产生明显的空白区域。在谷歌AI Studio上,可以使用“动动嘴,就能PS照片”的功能。网友们对去水印功能情有独钟,很多人实测后都感到惊喜。然而,这也引发了不少争议。例如,摄影师和设计师的作品被盗用,可能会导致版权侵权行为更加泛滥。

谷歌DeepMind研究及深度学习负责人、Gemini项目共同负责人Oriol Vinyals对Gemini的新功能感到震惊!在他看来,Gemini 2.0 Flash的交叉图像生成功能具有颠覆性意义。如何向2岁女儿的班级解释AlphaFold的工作原理?只需输入提示:“Write an illustrated story about AlphaFold for toddlers”,就能瞬间生成一本图文并茂、符合幼儿园风格的科普书。Oriol Vinyals直呼这就是魔法!AI可以让AlphaFold这样复杂的主题,对幼儿来说都变得更加容易理解。Oriol Vinyals赞叹道:Gemini 2.0 Flash的交叉图像生成是一项革命性技术!这个简单的演示向人们展示了AI+教育的无限可能性,未来的启蒙教育或许会变得更加有趣!而且,Gemini 2.0 Flash现在允许用户输入任何人物或物体的图片,并在此基础上创作出全新的形象,同时还能较好地保持原始人物/角色的特征。

Gemini 2.0闪现:AI图像编辑要干掉Photoshop,AGI也快来了?插图2

Gemini 2.0 Flash这项新功能甚至可以用来迭代图像,创建任何游戏!同时,Gemini 2.0 Flash也直接“攻陷”了漫画圈。现在使用Gemini 2.0 Flash来生成漫画,只需要动动嘴。有网友尝试后发现自己根本停不下来。只需一个简单的提示,就能进行选择性修改,而不会破坏整个图像。他激动地表示,“用它来制作漫画和故事分镜会变得非常轻松”。为漫画添加颜色也是一句话的事。即使是漫画角色的动作——抬起手臂,也能用嘴完成。而且,输出的图像与原图保持了高度的一致性。动漫圈的二次元用户更是激动不已,有人惊呼,这是有史以来最好的动漫模型!动漫创作的整个流程,Gemini 2.0 Flash都能按照指示完成,比如将素描转换为线稿;填充基础色;添加一些柔和的阴影,光源位于左上角;添加一个室内背景,使其与当前的光源和阴影环境相匹配,使用

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/11981.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部