Question#43(AI-102)
Azure OpenAI モデルがあります。
モデルを微調整するためのトレーニングデータとして使用する 500 個の「プロンプトと補完(prompt-completion)」のペアがあります。
トレーニングデータを準備する必要があります。 トレーニングデータファイルにはどの形式を使用する必要がありますか?
正解:C
Azure OpenAI や OpenAI の API でモデルを微調整(Fine-tuning)する際の標準的なデータ形式は JSONL (JSON Lines) です。 1. JSONL (C) が正解の理由 行ごとの独立性: JSONL 形式は、1 行に 1 つの完全な JSON オブジェクトを記述する形式です。大規模なデータセットをストリーミングで読み込むのに適しており、エラーが発生した行の特定も容易です。 標準仕様: Azure OpenAI の微調整ジョブを作成する際、アップロードするファイルは .jsonl 形式である必要があります。 構造: 各行は通常 {"prompt": "...", "completion": "..."}(GPT-3系)や、メッセージ形式の {"messages": [{"role": "system", ...}, {"role": "user", ...}, {"role": "assistant", ...}]}(GPT-3.5/4系)という構造になります。
コメント