AIF-C01#17(foundation-models)

AIF-C01#17(foundation-models)
ある企業が、アプリケーションのパフォーマンスを向上させるために Amazon Bedrock の基盤モデル(FM)をカスタマイズしたいと考えています。この企業は、テキスト生成(text-to-text)モデルのファインチューニング用にトレーニングデータセットを準備する必要があります。 モデルをトレーニングするために、企業はどのデータセット形式を使用すべきですか?

正解:A

正解の根拠

Bedrock のテキスト生成モデルのファインチューニングでは、入力プロンプトと期待出力をペアにしたラベル付き JSONL (JSON Lines) 形式が標準です。各行が 1 つの学習サンプルとなり、prompt と completion フィールドを含めることで、モデルが望ましい応答を学習できます。S3 に配置して Bedrock のカスタムモデルジョブから参照します。

主要訓練データ形式

形式用途
JSONL (ラベル付き)FM のファインチューニング標準
CSV (表形式)古典 ML、表形式予測
ラベルなし CSVクラスタリング等の教師なし
ラベルなしテキスト継続的事前学習

不正解の理由

  • B: ラベルなし CSV は教師あり学習の入出力ペアを表現できず、テキスト生成のファインチューニングには適合しません。
  • C: 表形式 CSV は古典 ML 向けの構造化データ形式で、生成モデル向けのプロンプト/応答形式とは設計が異なります。
  • D: ラベルなしテキストは継続的事前学習用で、教師あり対話形式のファインチューニングには使用されない形式です。

参考:Bedrock Custom Model Data Format


コメント

コメント

コメントする

目次