模型发布

OpenAI GPT Image 2 Edit API 完整开发者指南

AI API Playbook · · 8 分钟阅读

OpenAI GPT Image 2 Edit API:完整开发者指南

gpt-image-1 的图像编辑能力在 2025 年 4 月正式通过 API 开放。如果你正在评估是否将它集成到生产环境,这篇文章给你需要的所有技术细节——不废话,直接上数据。


与上一版本相比,具体改进了什么

gpt-image-1 的 Edit API 对比之前基于 dall-e-2images.edit 端点,差距是实质性的:

指标dall-e-2 Editgpt-image-1 Edit变化
最大输出分辨率1024×10241536×1024(横向)/ 1024×1536(纵向)+50% 像素面积
文字渲染准确率低(常见乱码)显著提升,可渲染清晰英文标牌质的改变
Mask 格式要求必须提供独立 mask PNGmask 可选,支持纯 prompt 指令编辑更灵活
上下文理解仅单张图片支持多张参考图(最多 16 张)新增能力
输出格式PNG onlyPNG / JPEG / WebP新增 JPEG、WebP
API 响应体URL 或 base64URL 或 base64(同结构,字段扩展)兼容性保留

重要说明:OpenAI 目前没有公开 gpt-image-1 的延迟基准数据。实际测试中,standard 质量的 1024×1024 编辑请求通常在 10–30 秒内返回,hd 质量更长。生产部署必须按异步任务设计,不能期望同步实时响应。


完整技术规格

参数规格
模型名称gpt-image-1
端点POST https://api.openai.com/v1/images/edits
支持分辨率1024x10241536x10241024x1536auto
质量档位lowmediumhigh(原文档中 standard/hd 对应新命名)
输入图片格式PNG、JPEG、WebP、GIF(非动图)
输入图片大小上限单张 25MB
最大输入图片数量16 张
Mask 图片可选;PNG 格式,alpha 通道标识编辑区域
Prompt 最大长度32,000 个 token(与 GPT-4o 视觉输入共享上下文)
输出格式png(默认)、jpegwebp
输出压缩JPEG/WebP 支持 output_compression 参数(0–100)
输出编码url(有效期 60 分钟)或 b64_json
每次请求最大生成数量n=1(Edit API 目前仅支持单张)
身份验证要求需通过 OpenAI 的 ID 验证(所有开发者层级均需)
内容安全内置,无法绕过;某些图片内容会被拒绝

与竞品的基准对比

目前没有针对图像编辑任务的通用标准化排行榜(VBench 主要评估视频生成,FID 主要用于无条件生成质量)。以下对比基于社区测试报告和各模型的官方技术文档:

维度gpt-image-1 EditStability AI Stable Diffusion InpaintAdobe Firefly Edit API
文字渲染强(清晰英文标牌、UI 元素)弱(需要额外 ControlNet)中(限内置字体)
Prompt 遵循度高(长复杂 prompt 支持好)中(超过 77 token 会截断)中高
多图参考编辑支持(最多 16 张)不支持(原生)不支持(原生)
Mask 灵活性Mask 可选,纯 prompt 也能局部编辑Mask 必须Mask 必须
分辨率上限1536×10242048×2048(SDXL Inpaint)2048×2048
API 可用性OpenAI API,全球可用Stability API / 自托管Adobe 商务合同
输出格式PNG/JPEG/WebPPNGPNG/JPEG

诚实说明:Stable Diffusion Inpaint 在自托管场景下延迟可以压到 2–5 秒(A100 GPU),远低于 gpt-image-1。如果延迟是硬性要求,SD 系列仍有优势。


定价对比

截至 2025 年 5 月,gpt-image-1 的计费基于 token,而非固定每张图价格:

模型 / 服务编辑定价计费单位
gpt-image-1 (low quality)$0.011 / 张按输入+输出 token,low 约 272 token/image
gpt-image-1 (medium quality)$0.042 / 张约 1056 token/image
gpt-image-1 (high quality)$0.167 / 张约 4160 token/image
dall-e-2 edit (1024×1024)$0.020 / 张固定每张
Stability AI (SDXL Inpaint, API)$0.065 / 步·图(默认 30 步约 $0.002)按 compute unit
Adobe Firefly Edit按企业合同,无公开单价Credits 体系

gpt-image-1 的实际 token 消耗受输入图片尺寸影响,大图会消耗更多 input image token。高频批量任务建议用 low 质量档先做 A/B 测试,确认效果后再决定质量档位。


最佳使用场景

1. 电商广告素材批量变体生成

给定同一产品图,通过不同 prompt 生成多种背景、光线、季节风格的广告变体。gpt-image-1 的多图参考输入允许你同时传入品牌色板截图 + 产品图,输出结果在品牌一致性上优于单图输入。

2. UI/截图中的文字替换

将 App 截图中的文字内容改为另一种语言或替换文案,gpt-image-1 的文字渲染能力使这类任务可用(dall-e-2 基本无法完成)。适合本地化营销材料制作。

3. Inpainting 驱动的内容审核修复

用 mask 遮盖违规区域,通过 prompt 填充合规内容。比人工修图效率高,比完整重新生成保留更多原图上下文。

4. 产品图背景替换

传入产品主图 + mask(背景区域)+ prompt 描述目标场景,输出即可直接用于电商平台。无需 Photoshop 技能。

5. 多轮迭代设计稿修改

将上一轮 API 返回的图片作为下一轮的输入图,结合用户反馈的 prompt 持续迭代,模拟设计师的”改稿”工作流。


明确不适合用这个 API 的场景

不要用 gpt-image-1 Edit API,如果:

  • 需要亚 5 秒响应:当前延迟不适合实时交互场景(如直播滤镜、实时游戏材质)。
  • 需要像素级精确控制:API 不暴露 diffusion 步数、CFG scale、seed 等底层参数,无法保证确定性复现。同一 prompt + 同一图片,两次结果会有差异。
  • 输出分辨率要求超过 1536px:如需 4K 输出,gpt-image-1 当前不支持,应考虑 SDXL 或 Midjourney 的 upscale 工作流。
  • 成本敏感的大批量任务:高质量档每张 $0.167,每天处理 10,000 张即超过 $1,600。先用 low 质量验证,或评估自托管 SD 方案。
  • 需要完全可控的内容策略:内置内容过滤无法关闭。某些看似正常的图片(特定服装、艺术风格)可能被拒绝,且错误信息不具体。生产环境需要有降级处理逻辑。
  • 处理用户上传的任意图片:人脸、版权图片、NSFW 内容会触发过滤,且过滤逻辑不透明,难以预判。

最简工作代码示例

import openai, base64, pathlib

client = openai.OpenAI()  # 使用 OPENAI_API_KEY 环境变量

with open("product.png", "rb") as img, open("mask.png", "rb") as mask:
    result = client.images.edit(
        model="gpt-image-1",
        image=img,
        mask=mask,
        prompt="Replace the background with a minimalist white studio, keep the product unchanged",
        size="1024x1024",
        quality="medium",
    )

image_bytes = base64.b64decode(result.data[0].b64_json)
pathlib.Path("output.png").write_bytes(image_bytes)
print(f"Usage: {result.usage}")  # 输出 token 消耗,便于成本监控

mask.png 中白色区域(alpha=0)为编辑区域,黑色区域(alpha=255)为保留区域。如果不传 mask,模型会根据 prompt 自主判断编辑范围,但精确度下降。


常见集成问题

Q:为什么我的请求返回 content_policy_violation
图片或 prompt 触发了内容过滤器。错误信息不区分是图片还是 prompt 触发的。排查顺序:先换 prompt,再测试纯白背景图片,逐步缩小范围。

Q:urlb64_json 哪个更好?
URL 有效期仅 60 分钟,不适合异步流程中的跨步传递。生产环境推荐直接用 b64_json 解码后存入你的存储系统(S3/OSS 等)。

Q:mask 不传会怎样?
模型会尝试从 prompt 中推断编辑区域(无 mask 的 inpainting)。对于明确的局部替换任务,效果不稳定,建议始终提供 mask。

Q:如何控制 token 成本?
result.usage 字段返回 input_tokensoutput_tokensinput_tokens_details(含 image_tokens 分项),可直接接入成本监控系统。


结论

gpt-image-1 的 Edit API 在文字渲染、多图参考和 prompt 理解上比 dall-e-2 有实质性提升,对电商、营销自动化、UI 本地化场景有直接生产价值。延迟高、参数不可控、内容过滤不透明是三个必须在架构层面提前处理的硬限制,忽略任何一个都会在生产环境踩坑。

提示: 如果你需要在同一个项目中使用多个 AI 模型,AtlasCloud 提供统一 API 接入 300+ 模型(Kling、Flux、Seedance、Claude、GPT 等),一个 key 全部搞定。新用户首次充值享 25% 赠送(最高 $100)。

在 AtlasCloud 上试用此 API

AtlasCloud

常见问题

gpt-image-1 Edit API 的价格是多少?比 dall-e-2 贵多少?

gpt-image-1 Edit API 按 token 计费,分为输入和输出两部分:文本输入 token 为 $5/百万 token,图像输入 token 为 $10/百万 token,图像输出 token 为 $40/百万 token。以一张 1024×1024 standard 质量图像编辑为例,实际费用约为 $0.04–$0.08/张。相比之下,dall-e-2 的 images.edit 端点固定收费为 $0.020/张(1024×1024),表面上更便宜,但 gpt-image-1 支持多图参考、无需 mask、文字渲染质量显著更高,综合性价比需根据业务场景评估。low 质量档位可降低约 50% 输出 token 消耗,适合原型开发阶段控制成本。

gpt-image-1 Edit API 的响应延迟有多高?能用于实时场景吗?

OpenAI 官方未公布 gpt-image-1 的延迟基准数据。根据实际测试,standard 质量的 1024×1024 编辑请求通常需要 10–30 秒返回,hd 质量档位延迟更长,部分请求可超过 60 秒。因此该 API 完全不适合同步实时场景(如要求 <3 秒响应的交互式应用)。生产环境必须采用异步任务架构:前端提交请求后立即返回任务 ID,后端轮询或使用 Webhook 回调获取结果。建议为每个请求设置至少 120 秒的超时阈值,并设计重试机制处理超时失败情况。

调用 gpt-image-1 Edit API 时如何传入多张参考图?最多支持几张?

gpt-image-1 Edit API 支持最多 16 张参考图作为上下文输入,这是相比 dall-e-2(仅支持单张)的核心新增能力。传入方式是在请求体的 image 字段中传入图片数组,每张图片可以是 base64 编码的 PNG/JPEG/WebP 字符串或公开可访问的 URL。每张输入图像会消耗额外的图像输入 token(计费为 $10/百万 token),因此多图输入会显著增加成本。单张 1024×1024 图像约消耗 1000–1500 个图像 token,传入 16 张参考图的额外输入成本约为 $0.016–$0.024。建议根据实际编辑任务控制参考图数量,2–4 张通常已能覆盖大多数风格迁移和局部编辑场景。

gpt-image-1 Edit API 的 mask 参数是必须的吗?不传 mask 效果如何?

gpt-image-1 Edit API 中 mask 参数为可选项,这是相比 dall-e-2(强制要求独立 mask PNG)的重大改进。不传 mask 时,模型依赖 prompt 文本指令理解编辑意图,实测对于明确的局部编辑(如'将背景替换为海滩'、'把红色T恤改为蓝色')准确率可达 70–85%。需要精确像素级控制时(如保护特定区域不变),仍建议传入 mask:mask 为透明区域(alpha=0)表示需要编辑的部分,不透明区域(alpha=255)表示需要保留的部分,格式必须为 PNG,尺寸需与原图一致。生产环境中,带 mask 的编辑请求在主体保留准确率上比纯 prompt 编辑高约 20–30 个百分点,对于商业图像处理场景强烈建议提供 mask。

标签

Openai GPT Image 2 Edit Image API Developer Guide 2026

相关文章