快速注册

一句话就能改图？Gemini 2.0 彻底颠覆AI修图！

问问AI指北 2025-03-17 14:52:54 湖北

过去，想用AI生成一张完美的图，要么靠Stable Diffusion反复调试，要么只能乖乖用PS手动修改。

但现在，谷歌又放大招了，Gemini 2.0 Flash Experimental来了。

这次的Gemini 2.0 Flash Experimental，直接颠覆了AI图像生成的玩法。

它能做到什么？

一句话就能精准修改图像，指哪改哪，完全可控。

比如，我去年在广州拍了一张广州塔的图片。

但是拍完感觉，右边的树枝太多了，我想把树枝都移除掉，不要遮住了美丽的天空。

这要放到PS做，高低得花上二十分钟，而且右下角的树枝还和建筑物融合在一起，需要非常精细化的PS技巧。

谷歌这次的Gemini实在是震惊到我了。

瞬息的功夫，不到一分钟，一句话轻松搞定。

再来，去年在少林寺拍了张照片，一直没发朋友圈。

就是乱入的路人太多了，能够把这些人物消除就好了。

用Gemini试试，把图片中的人物都消除掉。

震惊再次+1，这可比什么P图软件都快多了，千万不要眨眼，眨眼它就完成了。

去年一直很火的老照片上色，现在也不需要到处找各种老照片上色软件了，也是一句话的事。

这是一张上个世纪老汉口江汉关的照片，我直接让Gemini给它上色。

不得不说，还原出来的照片确实是这个样子，大差不差，色系挺精准。

还可以应用在户型设计方面，比如我手头有这一张户型图，我想看看渲染之后的效果，分分钟给你完成了。

虽然还有小瑕疵，有一些线稿的残留，但是不影响看个大概了。

这就是Gemini 2.0 全模态的强大之处。

现在的大模型，要么是纯文本大模型，比如GPT和DeepSeek，只能输出文字。

要么是纯图片&视频大模型，比如即梦、可灵，只能输出图片和视频。

还有就是上传图片，分析图片看图说话这种，一堆应用，烂大街了。

真正能够做到文字和图片混排输出的，唯有Gemini 2.0一家。

Gemini 2.0不仅能够同时输出文本和图片，还能保持惊人的一致性。

现在Gemini 2.0 Flash全模态功能还只是实验阶段，没有正式上线，不过这个效果也和正式版相差无几了。

这才是终极的A形态，不需要复杂的操作流程，所有的事情都是一句话，自然语言才是AI最好的指令。

上手使用也很简单，前提是需要魔法。

打开谷歌AI Studio网站：

****https://aistudio.google.com/app/prompts/new_chat****

在页面右边，选择Gemini 2.0 Flash(lmage Generation) Experimental这个模型。

另外，Output format这里选择Images and text，这样才能实现完整的全模态输出，要不然就只能输出文字了。

然后，在对话框中，上传图片和输入指令。点击 Run 就可以了。

接下来，就可以在Gemini开始畅玩图文混排的功能了，目前还是免费的，不限量。

比如，我今天想自己炖鸡汤，不知道怎么做，可以让Gemini输出一篇图文并茂的教程出来

太详细了，我已经学会了，马上实操起来。

做电商的老板们也不需要付费使用各种生成电商产品图的网站了，直接用Gemini，免费。

这是一张我前不久买的小米电饭煲，从官网找了一张图片，我直接让Gemini生成一张有家居风格的产品图出来。

如果对尺寸不满意，直接说，调整为16:9的。

完美，一句话就能改图的时代来了。

很难想象，以前要依赖笨重的PS以及美图秀秀这种修图软件做到的事，现在说说话就能完成了。

科技平权具象化了，让越来越多的普通人能够享受AI带来的便利才是AI最大的使命。

以上，既然看到这里了，如果对你有用，请随手来个点赞、分享、推荐三连吧，谢谢你看我的文章，我们，下次再见啦。

科技

回应转发赞收藏

问问AI指北 (湖北武汉)

努力分享一些很酷的AI工具和产品✨

一句话就能改图？Gemini 2.0 彻底颠覆AI修图！

问问AI指北的最新日记 · · · · · · ( 全部 )

热门话题 · · · · · · ( 去话题广场 )