谷歌nano banana正式上线:宇宙最强图像编辑器
谷歌nano banana正式上线:单图成本不到3毛钱,比OpenAI便宜95%
概述
昨晚,神秘且强大的图像生成与编辑模型 nano banana 终于正式显露真身。没有意外,它果然来自谷歌,并且也获得了一个正式但无趣的名字:gemini-2.5-flash-image-preview。
据介绍,该模型具有「SOTA 的图像生成与编辑能力、惊人的角色一致性以及闪电般的速度」。
核心特性
1. 强大的图像生成能力
- SOTA性能:在图像生成与编辑方面达到业界领先水平
- 角色一致性:特别注重在不同图片间保持人物形象的一致性
- 闪电速度:提供快速响应,用户体验流畅
2. 价格优势显著
根据官方定价,该模型的价格结构如下:
- 文本输入/输出:0.3/2.5 美元
- 图像输入/输出:0.3/30 美元
- 单图生成成本:约 0.039 美元(约 0.28 元人民币)
相比OpenAI的图像生成成本,谷歌新模型便宜了95%,这一价格优势将大大降低AI图像生成的门槛。
3. 技术规格
- 上下文支持:32k 上下文窗口
- 知识截止时间:2025年6月
- 模型类型:Flash版本,注重速度与效率的平衡
主要功能特色
1. 角色一致性编辑
谷歌官方特别强调该模型在保持人物形象一致性方面的能力:
“我们知道,当你编辑自己或熟悉的人时,哪怕是细微的差别都会显得刺眼 ——『差一点但不完全一样』的效果就是感觉不对。正因如此,我们的最新更新专门针对这一点,让你的朋友、家人,甚至宠物,无论是尝试60年代的蜂窝头发型,还是给吉娃娃穿上芭蕾舞裙,都能始终看起来像他们自己。“
2. 多场景应用
- 换装换场景:上传人物或宠物照片,在任何新场景下都保持外貌一致
- 合成照片:将多张照片融合成全新的场景
- 多轮编辑:支持连续修改,逐步完善图像
- 混合设计:将一张图的风格应用到另一张图的物体上
3. 原生世界知识
该模型能够利用Gemini的世界知识,解锁全新的应用场景。谷歌在Google AI Studio中构建了模板应用,可以将简单画布变成交互式教育导师。
实际应用示例
1. 演示模板应用
谷歌提供了两个专门的演示应用:
- Past Forward:展示不同年代的你是什么样子
- CoDrawing:将画布变成交互式教育导师
2. 名人测试热潮
模型上线后立即迎来测试热潮:
- 谷歌首席科学家Jeff Dean将自己P成了足球运动员卡牌角色
- 诺奖得主、DeepMind创始人兼CEO Demis Hassabis也来了一张个人形象照
排行榜表现
1. Artificial Analysis榜单
- 图像编辑排行榜:跃升至第一位,获得1212的ELO分数
- 文生图榜单:字节跳动的即梦3.0和OpenAI的GPT-4o还有少量优势
2. LM Arena榜单
在投票人数更多的LM Arena榜单上,gemini-2.5-flash-image-preview在图像编辑和文生图两个任务上都已经成为冠军。
3. 详细指标对比
- 角色一致性:gemini-2.5-flash-image-preview优势明显
- 创意表现:在创意方面表现突出
- 图表生成:图表生成能力优秀
- 事物/环境:在事物和环境生成方面表现良好
- 风格化:GPT-4o在风格化方面目前最为领先
使用限制
1. 语言支持限制
遗憾的是,该模型目前尚不支持对中文输入执行图像生成和编辑,而是会给出文本响应。这对于中文用户来说是一个明显的限制。
2. 访问方式
- 已在Google AI Studio和Gemini API中提供预览
- 用户可以免费试用
- 在Gemini应用中,用户只需选择2.5 Flash并使用合适的提示词即可使用
安全与水印
谷歌提到所有在Gemini应用中生成或编辑的图片都会带有:
- 可见水印:清晰标识AI生成内容
- 隐形SynthID数字水印:提供额外的安全保护
技术架构推测
从其名字可以猜测,谷歌应该还有一个非flash的gemini-2.5-image模型:
- Flash版本:注重速度,适合实时应用
- 标准版本:性能应该会更加强大,但速度会更慢
市场影响分析
1. 价格战开启
谷歌新模型的定价策略明显针对OpenAI,95%的成本优势将迫使竞争对手重新考虑定价策略。
2. 技术竞争加剧
- 角色一致性成为新的竞争焦点
- 多轮编辑能力提升用户体验
- 原生世界知识整合成为差异化优势
3. 应用场景扩展
- 个人照片编辑需求增长
- 商业设计成本大幅降低
- 教育内容创作更加便捷
未来展望
1. 技术发展方向
- 中文支持预计将在后续版本中添加
- 更多专业领域的定制化模型可能出现
- 与其他Google服务的深度集成
2. 市场格局变化
- OpenAI可能推出更具竞争力的定价
- 其他AI公司可能跟进降价策略
- 用户对AI图像生成的需求将进一步增长
3. 应用生态发展
- 更多第三方应用将集成该模型
- 新的商业模式可能出现
- 内容创作行业将发生变革
总结
谷歌nano banana(gemini-2.5-flash-image-preview)的正式上线标志着AI图像生成领域的一个重要里程碑。其95%的成本优势、强大的角色一致性保持能力以及丰富的功能特性,将重新定义AI图像生成的市场格局。
虽然目前存在中文支持的限制,但其价格优势和技术能力已经足以吸引大量用户。随着技术的不断发展和完善,我们有理由相信AI图像生成将变得更加普及和易用,为内容创作和设计工作带来革命性的变化。
对于用户来说,现在是一个尝试和体验AI图像生成技术的好时机。谷歌提供的免费试用让每个人都能亲身体验这项前沿技术的魅力。
参考链接:
图片来源: 机器之心报道