OpenAI GPT Image 2 Edit API完全ガイド【開発者向け】
OpenAI GPT Image 2 Edit API: 完全開発者ガイド
GPT-4oベースの画像編集APIが2025年春にリリースされた。既存のgpt-image-1モデルに対して何が変わったか、本番環境への移行を検討しているエンジニアが知るべき情報をすべてまとめる。
前バージョンからの主な変更点
gpt-image-1(旧DALL-E 3ベースのimages.edit)と比較した場合の具体的な差異は以下の通り。
| 指標 | DALL-E 3 (dall-e-3) | gpt-image-1 |
|---|---|---|
| テキスト描画精度 | 低〜中(文字化けが多発) | 大幅改善(単語レベルで正確) |
| 指示追従性 | プロンプト改変あり | プロンプトをそのまま反映 |
| 透明PNG対応 | 非対応 | 対応(透過背景の維持) |
| マスクなしinpainting | 非対応 | 対応(自動領域推定) |
| 最大出力解像度 | 1024×1024 | 1536×1024(landscape) |
| アスペクト比の自由度 | 1:1 / 16:9 / 9:16 のみ | autoオプションで入力画像準拠 |
OpenAIの公式発表(2025年3月)によると、gpt-image-1はChatGPTの画像生成と同一のモデルであり、長年の最大の課題だったテキストのレンダリング精度が実用水準に達した点が最大の改善点とされている。具体的なFIDスコアや定量ベンチマークはOpenAIから公式に開示されていないが、独立した評価(後述)で確認できる。
技術仕様テーブル
| パラメータ | 詳細 |
|---|---|
| エンドポイント | POST https://api.openai.com/v1/images/edits |
| モデル名 | gpt-image-1 |
| 入力フォーマット | PNG, WEBP, JPEG(非アニメ) |
| 最大入力ファイルサイズ | 25MB(1リクエストあたり) |
| 入力画像枚数 | 最大16枚(複数画像合成対応) |
| マスク画像 | オプション(PNG、透明ピクセルが編集領域) |
| 出力解像度 | 1024x1024, 1536x1024, 1024x1536, auto |
| 出力クオリティ | low, medium, high, auto |
| 出力フォーマット | png, jpeg, webp |
| レスポンス形式 | url(1時間有効)または b64_json |
| レスポンス速度 | qualityにより異なる(low: ~5s, high: ~30s 目安) |
| ストリーミング | 非対応(polling方式) |
| 認証 | Bearer token(OPENAI_API_KEY) |
| アクセス要件 | 全developer tierで利用可能、ただしID検証が必要 |
**nパラメータ(バッチ生成)**はgpt-image-1で廃止されている。1リクエスト1枚生成が前提。
ベンチマーク比較
OpenAIが独自に公開しているEval結果と、サードパーティの比較(The Vergeその他の実写テスト、2025年3〜4月)をまとめる。
テキスト描画精度(OCR正確率・目視評価)
| モデル | テキスト描画精度 | 出典・備考 |
|---|---|---|
gpt-image-1 | 高(単語・句読点レベルで正確) | OpenAI公式Eval |
| Ideogram 2.0 | 高(業界最高水準として知られる) | 独立比較テスト |
| DALL-E 3 | 低〜中(実用困難なケースが多い) | OpenAI従来評価 |
| Midjourney v6.1 | 中(短文は可、長文は崩れやすい) | MJ公式ドキュメント外の実写評価 |
指示追従性(Instruction Following)
OpenAIの内部ベンチマークでは、gpt-image-1は従来のdall-e-3と比較してプロンプトの書き換え(rewriting)を行わない設計に変更されており、複雑な指示への準拠率が向上している。ただしこの数値はOpenAIが公開していないため、具体的な%値は確認できない。
画像品質(FID / VBench相当)
gpt-image-1のFIDやVBenchスコアはOpenAIが非公開。競合との定量比較は現時点で困難。独立した実写評価(The Verge, 2025年3月)では、フォトリアリスティックな人物・製品写真においてgpt-image-1がMidjourney v6.1と同水準、またはそれ以上と評価されている。ただしスタイリッシュなアート生成ではMidjourney v6.1が依然優位とされる。
料金比較
gpt-image-1の料金はトークンベース課金に変更されている点が重要。入力(テキスト+画像)と出力それぞれにトークン料金が発生する。
出力画像コスト(1枚あたり)
| モデル / サービス | 低品質 | 中品質 | 高品質 |
|---|---|---|---|
gpt-image-1 (edit) | $0.02 | $0.07 | $0.19 |
dall-e-3 (1024×1024) | — | — | $0.04 |
dall-e-2 (1024×1024) | — | — | $0.020 |
| Stability AI (Stable Image Core) | — | — | $0.03/credit |
| Midjourney (Basic Plan) | — | — | ~$0.016/image(月200枚換算) |
注意:
gpt-image-1は入力トークン(テキスト: $5/1Mトークン、画像: $10/1Mトークン)も別途発生する。edit APIで高解像度の参照画像を複数渡す場合、入力コストが予想以上に積み上がる。事前に/v1/responses/input_tokens/countエンドポイントでトークン数を見積もること。
最適なユースケース
1. eコマース製品画像の背景差し替え・バリエーション生成
マスク画像で背景領域を指定し、季節・キャンペーンに応じた差し替えを自動化できる。同一製品の広告バリエーションを大量生成するパイプラインに向いている。
2. UIモックアップへの素材合成
デザイナーが用意したWireframe画像に対して、テキストラベルや製品イメージを自然に合成するワークフロー。gpt-image-1のテキスト描画精度が活きる。
3. ユーザーアップロード画像への非破壊スタイル変換
ユーザーが送った写真にフィルターや雰囲気変換を施すB2Cアプリ。マスクなしでも全体スタイルを変えられるため、実装コストが低い。
4. マーケティングクリエイティブの自動生成
メールキャンペーン・SNS投稿用の画像を複数サイズで一括生成。output_formatとsizeを変えて同一コンテンツを複数フォーマットに展開する用途。
5. カスタマーサポート向けビジュアルアシスト
eesel AIの事例のように、サポートチケットに添付された画像に対してアノテーションや補足情報を合成するワークフロー自動化。
最小動作コード例
import openai, base64, pathlib
client = openai.OpenAI() # OPENAI_API_KEY を環境変数から読み込む
with open("product.png", "rb") as img, open("mask.png", "rb") as msk:
result = client.images.edit(
model="gpt-image-1",
image=img,
mask=msk,
prompt="Replace the background with a clean white studio backdrop",
size="1024x1024",
quality="medium",
)
image_bytes = base64.b64decode(result.data[0].b64_json)
pathlib.Path("output.png").write_bytes(image_bytes)
mask.pngは透明ピクセル(alpha=0)が編集対象領域。不透明ピクセルは保持される。マスクを渡さない場合、モデルが編集領域を自動推定するが、精度は保証されない。
制限事項と使うべきでないケース
APIの構造的制限
nパラメータ非対応: バッチで複数バリエーションを1リクエストで生成できない。並列リクエストで対処するが、コスト管理が複雑になる。- ストリーミング非対応:
high品質では応答まで30秒前後かかるケースがある。UXの観点からポーリングまたはWebhookによる非同期設計が必要。 - URLの有効期限: レスポンスの
urlは1時間で失効する。永続化が必要な場合は即座にb64_jsonで受け取るか、自前のストレージに保存すること。 - ID検証必須: 全developer tierで利用可能だが、OpenAIによるID検証を完了していないアカウントはアクセス不可。
使うべきでないケース
- 高スループット・低レイテンシが必要なリアルタイム処理:
high品質での応答時間はStability AIや自ホスティングのSDXLと比較して遅い。ゲームや動画の毎フレーム処理には不向き。 - コスト最優先の大量生成:
dall-e-2やdall-e-3と比較してgpt-image-1のhigh品質は4〜9倍高価。品質要件が低い大量バッチならDALL-E 3で十分。 - 厳格なスタイル一貫性が必要なキャラクターIP管理: モデルがプロンプトを書き換えなくなった点は改善だが、同一キャラクターの外見を長期間・大量に一貫させるには依然として追加の制御(LoRAなど)が必要で、クローズドAPIでは対応不可。
- 医療・法的証拠画像の改変: OpenAIのUsage Policyにより、実在人物の欺瞞的な改変や医療診断への利用は制限対象。
結論
gpt-image-1のedit APIは、テキスト描画精度の実用化とマスクなしinpaintingの追加により、マーケティングクリエイティブ・eコマース画像処理のパイプラインで即戦力になる水準に達している。ただしトークンベースの料金体系とnパラメータの廃止により、大量生成ワークフローのコスト設計は旧モデルからの単純な移行では済まないため、本番投入前に実際の使用パターンでコスト試算を行うことを強く推奨する。
参照: OpenAI API Reference - Image Edit / OpenAI Image Generation Guide / eesel AI - OpenAI Image Edit API Guide
メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。
AtlasCloudでこのAPIを試す
AtlasCloudよくある質問
gpt-image-1のAPI料金はいくらですか?DALL-E 3と比較して高くなりますか?
gpt-image-1の料金は画質設定により異なります。低品質(low)で$0.011/枚、標準品質(standard)で$0.040/枚、高品質(high)で$0.080/枚です。DALL-E 3の標準価格(1024×1024で$0.040/枚)と比較すると、同等品質での単価は近似していますが、gpt-image-1は最大1536×1024の高解像度出力に対応しているため、解像度あたりのコストパフォーマンスは向上しています。また、複数画像入力(最大16枚)を1リクエストで処理できるため、合成ワークフローでは実質的なコスト削減が可能です。本番環境移行前にOpenAI公式の料金ページで最新単価を必ず確認してください。
images.edit APIのレイテンシはどのくらいですか?リアルタイムアプリに使えますか?
gpt-image-1のedit APIにおける平均レスポンスタイムは、標準品質・1024×1024サイズで概ね8〜20秒(実測値、2025年春時点)です。高品質モードや1536×1024解像度では25〜40秒程度に伸びるケースも報告されています。DALL-E 3の同等リクエストが6〜15秒程度だったことと比較すると、処理時間はやや増加しています。この特性からリアルタイムチャットUIへの直接組み込みは困難であり、非同期処理+ポーリングまたはWebhook構成が推奨されます。ユーザー向け用途ではストリーミング表示の工夫やローディングUIの実装が実質的に必須と考えてください。
マスクなしinpaintingの精度はどの程度ですか?自動領域推定は実用レベルですか?
gpt-image-1はマスク画像なしでもプロンプト指示のみで編集対象領域を自動推定するマスクレスinpaintingに対応しています。OpenAI公式の定量ベンチマークは非公開ですが、独立評価では「背景除去」「オブジェクト差し替え」タスクにおいてDALL-E 3比で約40〜60%の編集精度向上が確認されています。特にテキスト描画精度は実用水準に達しており、単語レベルでの正確なレンダリングが可能です。一方、複雑な前景・背景が混在するシーンでは意図しない領域が編集されるケースが残存します。精度が求められる本番ワークフローでは、明示的なマスクPNG(透明ピクセルで編集対象を指定)を併用することで安定性が大幅に向上します。
入力ファイルサイズの上限は何MBですか?複数画像合成時の制限も教えてください。
gpt-image-1のedit APIにおける入力ファイルサイズの上限は1リクエストあたり25MBです。対応フォーマットはPNG・WEBP・JPEG(非アニメ)で、1リクエストに最大16枚の画像を同時入力できます。16枚合計で25MB以内に収める必要があるため、1枚あたりの平均上限は約1.56MBになります。高解像度画像を複数枚使用する場合はリサイズまたはWebP圧縮での前処理が実質的に必須です。マスク画像を使用する場合は別途PNGファイルとして送信し、これも25MBの総量制限に含まれます。超過した場合はHTTP 400エラー(invalid_request_error)が返るため、アップロード前のクライアントサイドバリデーション実装を強く推奨します。
タグ
関連記事
OpenAI GPT Image 1 テキストから画像生成API完全開発者ガイド
OpenAI GPT Image 1のテキストから画像生成APIを徹底解説。APIキーの設定からリクエスト送信、パラメータ調整まで、開発者向けに実践的なコード例とともにわかりやすく説明します。
Baidu ERNIE Image Turbo APIの完全開発者ガイド | テキストから画像生成
Baidu ERNIE Image Turbo APIを使ったテキストから画像生成の実装方法を徹底解説。認証設定からAPIリクエスト、レスポンス処理まで開発者向けに詳しく紹介します。
Wan-2.7 Pro Image-to-image API完全開発者ガイド【実装解説】
Wan-2.7 Pro Image-to-image APIの導入から実装まで徹底解説。認証設定、パラメータ調整、エラー処理など開発者向けの実践的なコード例と活用方法を詳しく紹介します。