Question#35(DP-100)
Azure Machine Learning ワークスペースを作成しました。このワークスペースには sample_dataset という名前のデータセット、コンピューティング インスタンス、およびコンピューティング クラスターが含まれています。
データセット内のデータを準備し、準備されたデータに基づいてモデルをトレーニングして登録する 2 段階のパイプラインを作成する必要があります。
パイプラインの最初のステージには次のコードが含まれています:
from azureml.data import OutputFileDatasetConfig
from azureml.pipeline.steps import PythonScriptStep
sample_dataset = ws.datasets.get('sample_dataset')
stage1_data = OutputFileDatasetConfig('stage1_data')
stage1_step = PythonScriptStep(name='stage1',
source_directory='source_data_container',
script_name='stage1_script.py',
arguments=['--input-data', sample_dataset.as_named_input('raw_data'),
'--prepped data', stage1_data]
compute_target=compute_cluster,
runconfig=pipeline_run_config,
allow_reuse=True) 2 番目のステージへの入力として使用できる、最初のステージのスクリプトの出力が格納されるストレージの場所を特定する必要があります。
どのストレージの場所を使用すべきですか?
正解:A
OutputFileDatasetConfig オブジェクトは、パイプライン ステップの出力データを保存するために使用します。デフォルトでは、Azure ML ワークスペースのデフォルト データストアである workspaceblobstore(Azure Blob Storage)に出力が保存されます。 stage1_data = OutputFileDatasetConfig('stage1_data') と定義されており、明示的にデータストアを指定していないため、出力は workspaceblobstore に書き込まれます。 この stage1_data オブジェクトを 2 番目のステップの入力引数として渡すことで、ステップ間でデータを受け渡せます。 B の workspacefilestore は Azure Files ベースのデータストアですが、OutputFileDatasetConfig のデフォルトは Blob ストレージです。C・D のコンピューティング リソース上にはデータが永続化されません。
コメント