AIF-C01#17(foundation-models)
ある企業が、アプリケーションのパフォーマンスを向上させるために Amazon Bedrock の基盤モデル(FM)をカスタマイズしたいと考えています。この企業は、テキスト生成(text-to-text)モデルのファインチューニング用にトレーニングデータセットを準備する必要があります。 モデルをトレーニングするために、企業はどのデータセット形式を使用すべきですか?
正解:A
正解の根拠
Bedrock のテキスト生成モデルのファインチューニングでは、入力プロンプトと期待出力をペアにしたラベル付き JSONL (JSON Lines) 形式が標準です。各行が 1 つの学習サンプルとなり、prompt と completion フィールドを含めることで、モデルが望ましい応答を学習できます。S3 に配置して Bedrock のカスタムモデルジョブから参照します。
主要訓練データ形式
| 形式 | 用途 |
|---|---|
| JSONL (ラベル付き) | FM のファインチューニング標準 |
| CSV (表形式) | 古典 ML、表形式予測 |
| ラベルなし CSV | クラスタリング等の教師なし |
| ラベルなしテキスト | 継続的事前学習 |
不正解の理由
- B: ラベルなし CSV は教師あり学習の入出力ペアを表現できず、テキスト生成のファインチューニングには適合しません。
- C: 表形式 CSV は古典 ML 向けの構造化データ形式で、生成モデル向けのプロンプト/応答形式とは設計が異なります。
- D: ラベルなしテキストは継続的事前学習用で、教師あり対話形式のファインチューニングには使用されない形式です。

コメント