一句话就能改图?Gemini 2.0 彻底颠覆AI修图!
过去,想用AI生成一张完美的图,要么靠Stable Diffusion反复调试,要么只能乖乖用PS手动修改。
但现在,谷歌又放大招了,Gemini 2.0 Flash Experimental来了。
这次的Gemini 2.0 Flash Experimental,直接颠覆了AI图像生成的玩法。
它能做到什么?
一句话就能精准修改图像,指哪改哪,完全可控。
比如,我去年在广州拍了一张广州塔的图片。
但是拍完感觉,右边的树枝太多了,我想把树枝都移除掉,不要遮住了美丽的天空。

这要放到PS做,高低得花上二十分钟,而且右下角的树枝还和建筑物融合在一起,需要非常精细化的PS技巧。
谷歌这次的Gemini实在是震惊到我了。
瞬息的功夫,不到一分钟,一句话轻松搞定。

再来,去年在少林寺拍了张照片,一直没发朋友圈。
就是乱入的路人太多了,能够把这些人物消除就好了。

用Gemini试试,把图片中的人物都消除掉。
震惊再次+1,这可比什么P图软件都快多了,千万不要眨眼,眨眼它就完成了。

去年一直很火的老照片上色,现在也不需要到处找各种老照片上色软件了,也是一句话的事。
这是一张上个世纪老汉口江汉关的照片,我直接让Gemini给它上色。
不得不说,还原出来的照片确实是这个样子,大差不差,色系挺精准。

还可以应用在户型设计方面,比如我手头有这一张户型图,我想看看渲染之后的效果,分分钟给你完成了。
虽然还有小瑕疵,有一些线稿的残留,但是不影响看个大概了。

这就是Gemini 2.0 全模态的强大之处。
现在的大模型,要么是纯文本大模型,比如GPT和DeepSeek,只能输出文字。
要么是纯图片&视频大模型,比如即梦、可灵,只能输出图片和视频。
还有就是上传图片,分析图片看图说话这种,一堆应用,烂大街了。
真正能够做到文字和图片混排输出的,唯有Gemini 2.0一家。
Gemini 2.0不仅能够同时输出文本和图片,还能保持惊人的一致性。
现在Gemini 2.0 Flash全模态功能还只是实验阶段,没有正式上线,不过这个效果也和正式版相差无几了。
这才是终极的A形态,不需要复杂的操作流程,所有的事情都是一句话,自然语言才是AI最好的指令。
上手使用也很简单,前提是需要魔法。
打开谷歌AI Studio网站:
****https://aistudio.google.com/app/prompts/new_chat****
在页面右边,选择Gemini 2.0 Flash(lmage Generation) Experimental这个模型。

另外,Output format这里选择Images and text,这样才能实现完整的全模态输出,要不然就只能输出文字了。
然后,在对话框中,上传图片和输入指令。点击 Run 就可以了。
接下来,就可以在Gemini开始畅玩图文混排的功能了,目前还是免费的,不限量。
比如,我今天想自己炖鸡汤,不知道怎么做,可以让Gemini输出一篇图文并茂的教程出来

太详细了,我已经学会了,马上实操起来。
做电商的老板们也不需要付费使用各种生成电商产品图的网站了,直接用Gemini,免费。
这是一张我前不久买的小米电饭煲,从官网找了一张图片,我直接让Gemini生成一张有家居风格的产品图出来。

如果对尺寸不满意,直接说,调整为16:9的。

完美,一句话就能改图的时代来了。
很难想象,以前要依赖笨重的PS以及美图秀秀这种修图软件做到的事,现在说说话就能完成了。
科技平权具象化了,让越来越多的普通人能够享受AI带来的便利才是AI最大的使命。
以上,既然看到这里了,如果对你有用,请随手来个点赞、分享、推荐三连吧,谢谢你看我的文章,我们,下次再见啦。