gpt-image-1 Edit API 的价格是多少？比 dall-e-2 贵多少？

gpt-image-1 Edit API 按 token 计费，分为输入和输出两部分：文本输入 token 为 $5/百万 token，图像输入 token 为 $10/百万 token，图像输出 token 为 $40/百万 token。以一张 1024×1024 standard 质量图像编辑为例，实际费用约为 $0.04–$0.08/张。相比之下，dall-e-2 的 images.edit 端点固定收费为 $0.020/张（1024×1024），表面上更便宜，但 gpt-image-1 支持多图参考、无需 mask、文字渲染质量显著更高，综合性价比需根据业务场景评估。low 质量档位可降低约 50% 输出 token 消耗，适合原型开发阶段控制成本。

gpt-image-1 Edit API 的响应延迟有多高？能用于实时场景吗？

OpenAI 官方未公布 gpt-image-1 的延迟基准数据。根据实际测试，standard 质量的 1024×1024 编辑请求通常需要 10–30 秒返回，hd 质量档位延迟更长，部分请求可超过 60 秒。因此该 API 完全不适合同步实时场景（如要求 <3 秒响应的交互式应用）。生产环境必须采用异步任务架构：前端提交请求后立即返回任务 ID，后端轮询或使用 Webhook 回调获取结果。建议为每个请求设置至少 120 秒的超时阈值，并设计重试机制处理超时失败情况。

调用 gpt-image-1 Edit API 时如何传入多张参考图？最多支持几张？

gpt-image-1 Edit API 支持最多 16 张参考图作为上下文输入，这是相比 dall-e-2（仅支持单张）的核心新增能力。传入方式是在请求体的 image 字段中传入图片数组，每张图片可以是 base64 编码的 PNG/JPEG/WebP 字符串或公开可访问的 URL。每张输入图像会消耗额外的图像输入 token（计费为 $10/百万 token），因此多图输入会显著增加成本。单张 1024×1024 图像约消耗 1000–1500 个图像 token，传入 16 张参考图的额外输入成本约为 $0.016–$0.024。建议根据实际编辑任务控制参考图数量，2–4 张通常已能覆盖大多数风格迁移和局部编辑场景。

gpt-image-1 Edit API 的 mask 参数是必须的吗？不传 mask 效果如何？

gpt-image-1 Edit API 中 mask 参数为可选项，这是相比 dall-e-2（强制要求独立 mask PNG）的重大改进。不传 mask 时，模型依赖 prompt 文本指令理解编辑意图，实测对于明确的局部编辑（如'将背景替换为海滩'、'把红色T恤改为蓝色'）准确率可达 70–85%。需要精确像素级控制时（如保护特定区域不变），仍建议传入 mask：mask 为透明区域（alpha=0）表示需要编辑的部分，不透明区域（alpha=255）表示需要保留的部分，格式必须为 PNG，尺寸需与原图一致。生产环境中，带 mask 的编辑请求在主体保留准确率上比纯 prompt 编辑高约 20–30 个百分点，对于商业图像处理场景强烈建议提供 mask。

OpenAI GPT Image 2 Edit API：完整开发者指南

Q: 调用 gpt-image-1 Edit API 时如何传入多张参考图？最多支持几张？

gpt-image-1 Edit API 支持最多 16 张参考图作为上下文输入，这是相比 dall-e-2（仅支持单张）的核心新增能力。传入方式是在请求体的 image 字段中传入图片数组，每张图片可以是 base64 编码的 PNG/JPEG/WebP 字符串或公开可访问的 URL。每张输入图像会消耗额外的图像输入 token（计费为 $10/百万 token），因此多图输入会显著增加成本。单张 1024×1024 图像约消耗 1000–1500 个图像 token，传入 16 张参考图的额外输入成本约为 $0.016–$0.024。建议根据实际编辑任务控制参考图数量，2–4 张通常已能覆盖大多数风格迁移和局部编辑场景。

Q: gpt-image-1 Edit API 的 mask 参数是必须的吗？不传 mask 效果如何？

gpt-image-1 Edit API 中 mask 参数为可选项，这是相比 dall-e-2（强制要求独立 mask PNG）的重大改进。不传 mask 时，模型依赖 prompt 文本指令理解编辑意图，实测对于明确的局部编辑（如'将背景替换为海滩'、'把红色T恤改为蓝色'）准确率可达 70–85%。需要精确像素级控制时（如保护特定区域不变），仍建议传入 mask：mask 为透明区域（alpha=0）表示需要编辑的部分，不透明区域（alpha=255）表示需要保留的部分，格式必须为 PNG，尺寸需与原图一致。生产环境中，带 mask 的编辑请求在主体保留准确率上比纯 prompt 编辑高约 20–30 个百分点，对于商业图像处理场景强烈建议提供 mask。

gpt-image-1 的图像编辑能力在 2025 年 4 月正式通过 API 开放。如果你正在评估是否将它集成到生产环境，这篇文章给你需要的所有技术细节——不废话，直接上数据。

与上一版本相比，具体改进了什么

gpt-image-1 的 Edit API 对比之前基于 dall-e-2 的 images.edit 端点，差距是实质性的：

指标	dall-e-2 Edit	gpt-image-1 Edit	变化
最大输出分辨率	1024×1024	1536×1024（横向）/ 1024×1536（纵向）	+50% 像素面积
文字渲染准确率	低（常见乱码）	显著提升，可渲染清晰英文标牌	质的改变
Mask 格式要求	必须提供独立 mask PNG	mask 可选，支持纯 prompt 指令编辑	更灵活
上下文理解	仅单张图片	支持多张参考图（最多 16 张）	新增能力
输出格式	PNG only	PNG / JPEG / WebP	新增 JPEG、WebP
API 响应体	URL 或 base64	URL 或 base64（同结构，字段扩展）	兼容性保留

重要说明：OpenAI 目前没有公开 gpt-image-1 的延迟基准数据。实际测试中，standard 质量的 1024×1024 编辑请求通常在 10–30 秒内返回，hd 质量更长。生产部署必须按异步任务设计，不能期望同步实时响应。

完整技术规格

参数	规格
模型名称	`gpt-image-1`
端点	`POST https://api.openai.com/v1/images/edits`
支持分辨率	`1024x1024`、`1536x1024`、`1024x1536`、`auto`
质量档位	`low`、`medium`、`high`（原文档中 `standard`/`hd` 对应新命名）
输入图片格式	PNG、JPEG、WebP、GIF（非动图）
输入图片大小上限	单张 25MB
最大输入图片数量	16 张
Mask 图片	可选；PNG 格式，alpha 通道标识编辑区域
Prompt 最大长度	32,000 个 token（与 GPT-4o 视觉输入共享上下文）
输出格式	`png`（默认）、`jpeg`、`webp`
输出压缩	JPEG/WebP 支持 `output_compression` 参数（0–100）
输出编码	`url`（有效期 60 分钟）或 `b64_json`
每次请求最大生成数量	`n=1`（Edit API 目前仅支持单张）
身份验证要求	需通过 OpenAI 的 ID 验证（所有开发者层级均需）
内容安全	内置，无法绕过；某些图片内容会被拒绝

与竞品的基准对比

目前没有针对图像编辑任务的通用标准化排行榜（VBench 主要评估视频生成，FID 主要用于无条件生成质量）。以下对比基于社区测试报告和各模型的官方技术文档：

维度	gpt-image-1 Edit	Stability AI Stable Diffusion Inpaint	Adobe Firefly Edit API
文字渲染	强（清晰英文标牌、UI 元素）	弱（需要额外 ControlNet）	中（限内置字体）
Prompt 遵循度	高（长复杂 prompt 支持好）	中（超过 77 token 会截断）	中高
多图参考编辑	支持（最多 16 张）	不支持（原生）	不支持（原生）
Mask 灵活性	Mask 可选，纯 prompt 也能局部编辑	Mask 必须	Mask 必须
分辨率上限	1536×1024	2048×2048（SDXL Inpaint）	2048×2048
API 可用性	OpenAI API，全球可用	Stability API / 自托管	Adobe 商务合同
输出格式	PNG/JPEG/WebP	PNG	PNG/JPEG

诚实说明：Stable Diffusion Inpaint 在自托管场景下延迟可以压到 2–5 秒（A100 GPU），远低于 gpt-image-1。如果延迟是硬性要求，SD 系列仍有优势。

定价对比

截至 2025 年 5 月，gpt-image-1 的计费基于 token，而非固定每张图价格：

模型 / 服务	编辑定价	计费单位
gpt-image-1 (low quality)	$0.011 / 张	按输入+输出 token，low 约 272 token/image
gpt-image-1 (medium quality)	$0.042 / 张	约 1056 token/image
gpt-image-1 (high quality)	$0.167 / 张	约 4160 token/image
dall-e-2 edit (1024×1024)	$0.020 / 张	固定每张
Stability AI (SDXL Inpaint, API)	$0.065 / 步·图（默认 30 步约 $0.002）	按 compute unit
Adobe Firefly Edit	按企业合同，无公开单价	Credits 体系

gpt-image-1 的实际 token 消耗受输入图片尺寸影响，大图会消耗更多 input image token。高频批量任务建议用 low 质量档先做 A/B 测试，确认效果后再决定质量档位。

最佳使用场景

1. 电商广告素材批量变体生成

给定同一产品图，通过不同 prompt 生成多种背景、光线、季节风格的广告变体。gpt-image-1 的多图参考输入允许你同时传入品牌色板截图 + 产品图，输出结果在品牌一致性上优于单图输入。

2. UI/截图中的文字替换

将 App 截图中的文字内容改为另一种语言或替换文案，gpt-image-1 的文字渲染能力使这类任务可用（dall-e-2 基本无法完成）。适合本地化营销材料制作。

3. Inpainting 驱动的内容审核修复

用 mask 遮盖违规区域，通过 prompt 填充合规内容。比人工修图效率高，比完整重新生成保留更多原图上下文。

4. 产品图背景替换

传入产品主图 + mask（背景区域）+ prompt 描述目标场景，输出即可直接用于电商平台。无需 Photoshop 技能。

5. 多轮迭代设计稿修改

将上一轮 API 返回的图片作为下一轮的输入图，结合用户反馈的 prompt 持续迭代，模拟设计师的”改稿”工作流。

明确不适合用这个 API 的场景

不要用 gpt-image-1 Edit API，如果：

需要亚 5 秒响应：当前延迟不适合实时交互场景（如直播滤镜、实时游戏材质）。
需要像素级精确控制：API 不暴露 diffusion 步数、CFG scale、seed 等底层参数，无法保证确定性复现。同一 prompt + 同一图片，两次结果会有差异。
输出分辨率要求超过 1536px：如需 4K 输出，gpt-image-1 当前不支持，应考虑 SDXL 或 Midjourney 的 upscale 工作流。
成本敏感的大批量任务：高质量档每张 $0.167，每天处理 10,000 张即超过 $1,600。先用 low 质量验证，或评估自托管 SD 方案。
需要完全可控的内容策略：内置内容过滤无法关闭。某些看似正常的图片（特定服装、艺术风格）可能被拒绝，且错误信息不具体。生产环境需要有降级处理逻辑。
处理用户上传的任意图片：人脸、版权图片、NSFW 内容会触发过滤，且过滤逻辑不透明，难以预判。

最简工作代码示例

import openai, base64, pathlib

client = openai.OpenAI()  # 使用 OPENAI_API_KEY 环境变量

with open("product.png", "rb") as img, open("mask.png", "rb") as mask:
    result = client.images.edit(
        model="gpt-image-1",
        image=img,
        mask=mask,
        prompt="Replace the background with a minimalist white studio, keep the product unchanged",
        size="1024x1024",
        quality="medium",
    )

image_bytes = base64.b64decode(result.data[0].b64_json)
pathlib.Path("output.png").write_bytes(image_bytes)
print(f"Usage: {result.usage}")  # 输出 token 消耗，便于成本监控

mask.png 中白色区域（alpha=0）为编辑区域，黑色区域（alpha=255）为保留区域。如果不传 mask，模型会根据 prompt 自主判断编辑范围，但精确度下降。

常见集成问题

Q：为什么我的请求返回 content_policy_violation？
图片或 prompt 触发了内容过滤器。错误信息不区分是图片还是 prompt 触发的。排查顺序：先换 prompt，再测试纯白背景图片，逐步缩小范围。

Q：url 和 b64_json 哪个更好？
URL 有效期仅 60 分钟，不适合异步流程中的跨步传递。生产环境推荐直接用 b64_json 解码后存入你的存储系统（S3/OSS 等）。

Q：mask 不传会怎样？
模型会尝试从 prompt 中推断编辑区域（无 mask 的 inpainting）。对于明确的局部替换任务，效果不稳定，建议始终提供 mask。

Q：如何控制 token 成本？
result.usage 字段返回 input_tokens、output_tokens、input_tokens_details（含 image_tokens 分项），可直接接入成本监控系统。

结论

gpt-image-1 的 Edit API 在文字渲染、多图参考和 prompt 理解上比 dall-e-2 有实质性提升，对电商、营销自动化、UI 本地化场景有直接生产价值。延迟高、参数不可控、内容过滤不透明是三个必须在架构层面提前处理的硬限制，忽略任何一个都会在生产环境踩坑。

提示： 如果你需要在同一个项目中使用多个 AI 模型，AtlasCloud 提供统一 API 接入 300+ 模型（Kling、Flux、Seedance、Claude、GPT 等），一个 key 全部搞定。新用户首次充值享 25% 赠送（最高 $100）。

OpenAI GPT Image 2 Edit API 完整开发者指南