OpenAI GPT Image 2 Edit API 完整开发者指南
OpenAI GPT Image 2 Edit API:完整开发者指南
gpt-image-1 的图像编辑能力在 2025 年 4 月正式通过 API 开放。如果你正在评估是否将它集成到生产环境,这篇文章给你需要的所有技术细节——不废话,直接上数据。
与上一版本相比,具体改进了什么
gpt-image-1 的 Edit API 对比之前基于 dall-e-2 的 images.edit 端点,差距是实质性的:
| 指标 | dall-e-2 Edit | gpt-image-1 Edit | 变化 |
|---|---|---|---|
| 最大输出分辨率 | 1024×1024 | 1536×1024(横向)/ 1024×1536(纵向) | +50% 像素面积 |
| 文字渲染准确率 | 低(常见乱码) | 显著提升,可渲染清晰英文标牌 | 质的改变 |
| Mask 格式要求 | 必须提供独立 mask PNG | mask 可选,支持纯 prompt 指令编辑 | 更灵活 |
| 上下文理解 | 仅单张图片 | 支持多张参考图(最多 16 张) | 新增能力 |
| 输出格式 | PNG only | PNG / JPEG / WebP | 新增 JPEG、WebP |
| API 响应体 | URL 或 base64 | URL 或 base64(同结构,字段扩展) | 兼容性保留 |
重要说明:OpenAI 目前没有公开
gpt-image-1的延迟基准数据。实际测试中,standard质量的 1024×1024 编辑请求通常在 10–30 秒内返回,hd质量更长。生产部署必须按异步任务设计,不能期望同步实时响应。
完整技术规格
| 参数 | 规格 |
|---|---|
| 模型名称 | gpt-image-1 |
| 端点 | POST https://api.openai.com/v1/images/edits |
| 支持分辨率 | 1024x1024、1536x1024、1024x1536、auto |
| 质量档位 | low、medium、high(原文档中 standard/hd 对应新命名) |
| 输入图片格式 | PNG、JPEG、WebP、GIF(非动图) |
| 输入图片大小上限 | 单张 25MB |
| 最大输入图片数量 | 16 张 |
| Mask 图片 | 可选;PNG 格式,alpha 通道标识编辑区域 |
| Prompt 最大长度 | 32,000 个 token(与 GPT-4o 视觉输入共享上下文) |
| 输出格式 | png(默认)、jpeg、webp |
| 输出压缩 | JPEG/WebP 支持 output_compression 参数(0–100) |
| 输出编码 | url(有效期 60 分钟)或 b64_json |
| 每次请求最大生成数量 | n=1(Edit API 目前仅支持单张) |
| 身份验证要求 | 需通过 OpenAI 的 ID 验证(所有开发者层级均需) |
| 内容安全 | 内置,无法绕过;某些图片内容会被拒绝 |
与竞品的基准对比
目前没有针对图像编辑任务的通用标准化排行榜(VBench 主要评估视频生成,FID 主要用于无条件生成质量)。以下对比基于社区测试报告和各模型的官方技术文档:
| 维度 | gpt-image-1 Edit | Stability AI Stable Diffusion Inpaint | Adobe Firefly Edit API |
|---|---|---|---|
| 文字渲染 | 强(清晰英文标牌、UI 元素) | 弱(需要额外 ControlNet) | 中(限内置字体) |
| Prompt 遵循度 | 高(长复杂 prompt 支持好) | 中(超过 77 token 会截断) | 中高 |
| 多图参考编辑 | 支持(最多 16 张) | 不支持(原生) | 不支持(原生) |
| Mask 灵活性 | Mask 可选,纯 prompt 也能局部编辑 | Mask 必须 | Mask 必须 |
| 分辨率上限 | 1536×1024 | 2048×2048(SDXL Inpaint) | 2048×2048 |
| API 可用性 | OpenAI API,全球可用 | Stability API / 自托管 | Adobe 商务合同 |
| 输出格式 | PNG/JPEG/WebP | PNG | PNG/JPEG |
诚实说明:Stable Diffusion Inpaint 在自托管场景下延迟可以压到 2–5 秒(A100 GPU),远低于
gpt-image-1。如果延迟是硬性要求,SD 系列仍有优势。
定价对比
截至 2025 年 5 月,gpt-image-1 的计费基于 token,而非固定每张图价格:
| 模型 / 服务 | 编辑定价 | 计费单位 |
|---|---|---|
| gpt-image-1 (low quality) | $0.011 / 张 | 按输入+输出 token,low 约 272 token/image |
| gpt-image-1 (medium quality) | $0.042 / 张 | 约 1056 token/image |
| gpt-image-1 (high quality) | $0.167 / 张 | 约 4160 token/image |
| dall-e-2 edit (1024×1024) | $0.020 / 张 | 固定每张 |
| Stability AI (SDXL Inpaint, API) | $0.065 / 步·图(默认 30 步约 $0.002) | 按 compute unit |
| Adobe Firefly Edit | 按企业合同,无公开单价 | Credits 体系 |
gpt-image-1的实际 token 消耗受输入图片尺寸影响,大图会消耗更多 input image token。高频批量任务建议用low质量档先做 A/B 测试,确认效果后再决定质量档位。
最佳使用场景
1. 电商广告素材批量变体生成
给定同一产品图,通过不同 prompt 生成多种背景、光线、季节风格的广告变体。gpt-image-1 的多图参考输入允许你同时传入品牌色板截图 + 产品图,输出结果在品牌一致性上优于单图输入。
2. UI/截图中的文字替换
将 App 截图中的文字内容改为另一种语言或替换文案,gpt-image-1 的文字渲染能力使这类任务可用(dall-e-2 基本无法完成)。适合本地化营销材料制作。
3. Inpainting 驱动的内容审核修复
用 mask 遮盖违规区域,通过 prompt 填充合规内容。比人工修图效率高,比完整重新生成保留更多原图上下文。
4. 产品图背景替换
传入产品主图 + mask(背景区域)+ prompt 描述目标场景,输出即可直接用于电商平台。无需 Photoshop 技能。
5. 多轮迭代设计稿修改
将上一轮 API 返回的图片作为下一轮的输入图,结合用户反馈的 prompt 持续迭代,模拟设计师的”改稿”工作流。
明确不适合用这个 API 的场景
不要用 gpt-image-1 Edit API,如果:
- 需要亚 5 秒响应:当前延迟不适合实时交互场景(如直播滤镜、实时游戏材质)。
- 需要像素级精确控制:API 不暴露 diffusion 步数、CFG scale、seed 等底层参数,无法保证确定性复现。同一 prompt + 同一图片,两次结果会有差异。
- 输出分辨率要求超过 1536px:如需 4K 输出,gpt-image-1 当前不支持,应考虑 SDXL 或 Midjourney 的 upscale 工作流。
- 成本敏感的大批量任务:高质量档每张 $0.167,每天处理 10,000 张即超过 $1,600。先用 low 质量验证,或评估自托管 SD 方案。
- 需要完全可控的内容策略:内置内容过滤无法关闭。某些看似正常的图片(特定服装、艺术风格)可能被拒绝,且错误信息不具体。生产环境需要有降级处理逻辑。
- 处理用户上传的任意图片:人脸、版权图片、NSFW 内容会触发过滤,且过滤逻辑不透明,难以预判。
最简工作代码示例
import openai, base64, pathlib
client = openai.OpenAI() # 使用 OPENAI_API_KEY 环境变量
with open("product.png", "rb") as img, open("mask.png", "rb") as mask:
result = client.images.edit(
model="gpt-image-1",
image=img,
mask=mask,
prompt="Replace the background with a minimalist white studio, keep the product unchanged",
size="1024x1024",
quality="medium",
)
image_bytes = base64.b64decode(result.data[0].b64_json)
pathlib.Path("output.png").write_bytes(image_bytes)
print(f"Usage: {result.usage}") # 输出 token 消耗,便于成本监控
mask.png中白色区域(alpha=0)为编辑区域,黑色区域(alpha=255)为保留区域。如果不传mask,模型会根据 prompt 自主判断编辑范围,但精确度下降。
常见集成问题
Q:为什么我的请求返回 content_policy_violation?
图片或 prompt 触发了内容过滤器。错误信息不区分是图片还是 prompt 触发的。排查顺序:先换 prompt,再测试纯白背景图片,逐步缩小范围。
Q:url 和 b64_json 哪个更好?
URL 有效期仅 60 分钟,不适合异步流程中的跨步传递。生产环境推荐直接用 b64_json 解码后存入你的存储系统(S3/OSS 等)。
Q:mask 不传会怎样?
模型会尝试从 prompt 中推断编辑区域(无 mask 的 inpainting)。对于明确的局部替换任务,效果不稳定,建议始终提供 mask。
Q:如何控制 token 成本?
result.usage 字段返回 input_tokens、output_tokens、input_tokens_details(含 image_tokens 分项),可直接接入成本监控系统。
结论
gpt-image-1 的 Edit API 在文字渲染、多图参考和 prompt 理解上比 dall-e-2 有实质性提升,对电商、营销自动化、UI 本地化场景有直接生产价值。延迟高、参数不可控、内容过滤不透明是三个必须在架构层面提前处理的硬限制,忽略任何一个都会在生产环境踩坑。
提示: 如果你需要在同一个项目中使用多个 AI 模型,AtlasCloud 提供统一 API 接入 300+ 模型(Kling、Flux、Seedance、Claude、GPT 等),一个 key 全部搞定。新用户首次充值享 25% 赠送(最高 $100)。
在 AtlasCloud 上试用此 API
AtlasCloud常见问题
gpt-image-1 Edit API 的价格是多少?比 dall-e-2 贵多少?
gpt-image-1 Edit API 按 token 计费,分为输入和输出两部分:文本输入 token 为 $5/百万 token,图像输入 token 为 $10/百万 token,图像输出 token 为 $40/百万 token。以一张 1024×1024 standard 质量图像编辑为例,实际费用约为 $0.04–$0.08/张。相比之下,dall-e-2 的 images.edit 端点固定收费为 $0.020/张(1024×1024),表面上更便宜,但 gpt-image-1 支持多图参考、无需 mask、文字渲染质量显著更高,综合性价比需根据业务场景评估。low 质量档位可降低约 50% 输出 token 消耗,适合原型开发阶段控制成本。
gpt-image-1 Edit API 的响应延迟有多高?能用于实时场景吗?
OpenAI 官方未公布 gpt-image-1 的延迟基准数据。根据实际测试,standard 质量的 1024×1024 编辑请求通常需要 10–30 秒返回,hd 质量档位延迟更长,部分请求可超过 60 秒。因此该 API 完全不适合同步实时场景(如要求 <3 秒响应的交互式应用)。生产环境必须采用异步任务架构:前端提交请求后立即返回任务 ID,后端轮询或使用 Webhook 回调获取结果。建议为每个请求设置至少 120 秒的超时阈值,并设计重试机制处理超时失败情况。
调用 gpt-image-1 Edit API 时如何传入多张参考图?最多支持几张?
gpt-image-1 Edit API 支持最多 16 张参考图作为上下文输入,这是相比 dall-e-2(仅支持单张)的核心新增能力。传入方式是在请求体的 image 字段中传入图片数组,每张图片可以是 base64 编码的 PNG/JPEG/WebP 字符串或公开可访问的 URL。每张输入图像会消耗额外的图像输入 token(计费为 $10/百万 token),因此多图输入会显著增加成本。单张 1024×1024 图像约消耗 1000–1500 个图像 token,传入 16 张参考图的额外输入成本约为 $0.016–$0.024。建议根据实际编辑任务控制参考图数量,2–4 张通常已能覆盖大多数风格迁移和局部编辑场景。
gpt-image-1 Edit API 的 mask 参数是必须的吗?不传 mask 效果如何?
gpt-image-1 Edit API 中 mask 参数为可选项,这是相比 dall-e-2(强制要求独立 mask PNG)的重大改进。不传 mask 时,模型依赖 prompt 文本指令理解编辑意图,实测对于明确的局部编辑(如'将背景替换为海滩'、'把红色T恤改为蓝色')准确率可达 70–85%。需要精确像素级控制时(如保护特定区域不变),仍建议传入 mask:mask 为透明区域(alpha=0)表示需要编辑的部分,不透明区域(alpha=255)表示需要保留的部分,格式必须为 PNG,尺寸需与原图一致。生产环境中,带 mask 的编辑请求在主体保留准确率上比纯 prompt 编辑高约 20–30 个百分点,对于商业图像处理场景强烈建议提供 mask。
标签
相关文章
OpenAI GPT Image 2文生图API完整开发者指南
深入了解OpenAI GPT Image 2文生图API的完整使用教程,涵盖API接入、参数配置、代码示例及最佳实践,帮助开发者快速构建AI图像生成应用。
百度文心ERNIE图像创作API开发者完整指南
深入解析百度文心ERNIE Image Turbo文生图API的接入流程、参数配置与最佳实践,帮助开发者快速集成AI图像生成能力,提升应用创作效率。
Wan-2.7 Pro 图生图 API 完整开发者指南
全面介绍 Wan-2.7 Pro 图生图 API 的接入方法、参数配置与最佳实践,帮助开发者快速集成强大的图像转换功能,提升AI图像处理效率。