AIF-C01#17(foundation-models)

ある企業が、アプリケーションのパフォーマンスを向上させるために Amazon Bedrock の基盤モデル（FM）をカスタマイズしたいと考えています。この企業は、テキスト生成（text-to-text）モデルのファインチューニング用にトレーニングデータセットを準備する必要があります。モデルをトレーニングするために、企業はどのデータセット形式を使用すべきですか？

A. ラベル付きデータを含む JSON ファイル（JSONL）
B. ラベルなしデータを含む CSV ファイル
C. 表形式のデータを含む CSV ファイル
D. ラベルなしデータを含むテキストファイル

正解と解説ディスカッション 0

正解：A

正解の根拠

Bedrock のテキスト生成モデルのファインチューニングでは、入力プロンプトと期待出力をペアにしたラベル付き JSONL (JSON Lines) 形式が標準です。各行が 1 つの学習サンプルとなり、prompt と completion フィールドを含めることで、モデルが望ましい応答を学習できます。S3 に配置して Bedrock のカスタムモデルジョブから参照します。

主要訓練データ形式

形式	用途
JSONL (ラベル付き)	FM のファインチューニング標準
CSV (表形式)	古典 ML、表形式予測
ラベルなし CSV	クラスタリング等の教師なし
ラベルなしテキスト	継続的事前学習

不正解の理由

B: ラベルなし CSV は教師あり学習の入出力ペアを表現できず、テキスト生成のファインチューニングには適合しません。
C: 表形式 CSV は古典 ML 向けの構造化データ形式で、生成モデル向けのプロンプト/応答形式とは設計が異なります。
D: ラベルなしテキストは継続的事前学習用で、教師あり対話形式のファインチューニングには使用されない形式です。

参考：Bedrock Custom Model Data Format

AIF-C01#17(foundation-models)

正解の根拠

主要訓練データ形式

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

主要訓練データ形式

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル