AI901-Foundry#168
GPT-4o multimodal で画像を入力した際の token 消費に関する最も適切な説明はどれですか?
解説
【正解: A】の理由
GPT-4o の画像入力は、画像サイズと指定した detail (low / high / auto) に応じて token 数が計算され、リクエストの prompt token 部分に加算されます。Microsoft Learn の GPT-4o vision pricing ガイドに「low detail = 固定 token、high detail = 画像をタイルに分割して各タイルが追加 token を消費」と明記されており、コスト見積もりや context window 管理を行う際にこの仕様の理解が重要です。
【他選択肢が違う理由】
GPT-4o の画像入力は、画像サイズと指定した detail (low / high / auto) に応じて token 数が計算され、リクエストの prompt token 部分に加算されます。Microsoft Learn の GPT-4o vision pricing ガイドに「low detail = 固定 token、high detail = 画像をタイルに分割して各タイルが追加 token を消費」と明記されており、コスト見積もりや context window 管理を行う際にこの仕様の理解が重要です。
【他選択肢が違う理由】
- B: 画像は無料ではなく、token 換算されます。
- C: 画像 token は固定ではなくサイズと detail に応じて変動します。
- D: prompt token として加算されるのが正しく、completion token ではありません。

コメント