谷歌“纳米香蕉”是个啥

光明网 显示图片

当地时间8月26日

谷歌发布了其最新的

图像生成和编辑模型

Gemini 2.5 Flash Image

(代号“Nano Banana”纳米香蕉)

模型一经发布

便引发广泛关注

 

根据谷歌官方表述

Gemini 2.5 Flash Image

核心亮点是图像编辑能力

 

这一模型可以将多张图像

混合到一张图像中

保持高度的角色一致性

还能使用自然语言

进行有针对性的修改

并充分利用Gemini的“知识储备”

来生成和编辑图像

谷歌“纳米香蕉”是个啥

Gemini 2.5 Flash Image在文生图与图像编辑两个场景均位列榜首

图源:36氪

 

除了角色一致性

在渲染文本方面

该模型可以准确生成

包含清晰易读且位置合理的

文本的图片

 

在物理知识方面

模型表现也较为出色

根据谷歌的案例

向模型输入

气球飘向仙人掌的图像后

提示其

想象生成下一个可能的情况

从画面来看

模型能够预判

气球爆炸后的物理特征

谷歌“纳米香蕉”是个啥

 

有媒体报道称

该模型各方面表现堪称优秀

无论是角色的一致性

提示词的跟随

物理逻辑的真实性

还是画面审美方面

都保持了水准

谷歌“纳米香蕉”是个啥

针对深度伪造图像日益增多

导致用户难以辨别

网络信息真实性的问题

谷歌为AI生成的图像

添加视觉水印

并在元数据中嵌入标识信息

 

有业内人士表示

此次谷歌新模型的发布

不仅是一次技术升级

或将帮助谷歌缩小

与OpenAI之间的差距

 

撰文:王一涵、殷新宇 编辑:雷渺鑫 排版:李飞 统筹:李政葳

参考:杭州日报、第一财经、腾讯新闻、36氪

来源: 世界互联网大会