【PMLE】WEB問題集:MLパイプラインの自動化編

WEB問題集

PMLE#1(automation)

毎日 BigQuery へ届く新規データを使い、TFX パイプラインを Vertex AI Pipelines 上で再学習させたいです。最小の運用負荷で日次再学習を実現する方法を選んでください。

A. Cloud Scheduler から HTTP 経由で Vertex AI Pipelines のスケジュール API を呼び出す構成にすることで、外部スケジューラ依存を導入する形にします
B. Compute Engine 上で常駐する cron デーモンを使い、毎日 KFP CLI 経由でパイプラインを起動する自前運用構成を採用します
C. Vertex AI Pipelines のスケジューラ機能 (PipelineJob schedule) で cron 式を設定して定期実行します
D. Cloud Functions を 24 時間動かし続け、内部タイマーでパイプラインを起動する設計を採用し、関数の常時起動コストを許容します

正解と解説ディスカッション 0

正解：C

正解の根拠

Vertex AI Pipelines にはマネージドの Schedule API があり、cron 式で PipelineJob を定期実行できます。外部スケジューラを準備する必要がないため、運用負荷が最小になります。

選択肢	運用負荷
C	マネージドで最小
A/B/D	追加コンポーネントが必要

不正解の理由

A は Cloud Scheduler の管理が増えます
B は VM 運用が必要です
D は Functions の常駐は不可で設計が破綻します

参考：Schedule a pipeline run

PMLE#2(automation)

Cloud Storage バケットへ新しい学習データ CSV が到着したら自動で Vertex AI Pipelines を起動したいです。サーバレスでイベント駆動にする最適な仕組みを選んでください。

A. Cloud Composer の DAG を 1 分間隔のスケジュールでポーリングし、バケット内の新規オブジェクトを毎分検査します
B. Pub/Sub のスケジュールトピックに毎分メッセージを送りパイプラインを起動し、その都度新規ファイルの有無を確認します
C. Eventarc で Cloud Storage の object.finalize イベントを Cloud Run に配信し PipelineJob を作成します
D. GKE 上の Argo Workflows でファイル監視ループを常駐させ、専用のワーカーポッドが Cloud Storage を監視し続けます

正解と解説ディスカッション 0

正解：C

正解の根拠

Eventarc は Cloud Storage の object.finalize イベントを Cloud Run などへ配信できる完全マネージドな仕組みです。Cloud Run のハンドラから aiplatform クライアントで PipelineJob を作成すれば、サーバレスかつ即時にトリガーできます。

方式	レイテンシ
Eventarc	数秒
ポーリング	分単位

不正解の理由

B はイベント駆動でなく無駄が多いです
C はポーリングで遅延が出ます
D は GKE 運用負荷が大きいです

参考：Eventarc Cloud Storage trigger

PMLE#3(automation)

Kubeflow Pipelines SDK v2 でコンポーネントを定義する方法として正しいものを選んでください。

A. @kfp.dsl.pipeline デコレータを使ってパイプライン関数の中でコンテナをそのまま直接定義する書き方を採用します
B. BaseOp クラスを継承して run メソッドを実装し、コンポーネントとしての挙動をクラスベースで定義する方式を採用します
C. @kfp.dsl.component デコレータで Python 関数をラップしコンポーネント化します
D. コンポーネント定義を YAML だけで記述し、それを変換せずそのまま PipelineJob に渡して実行する方式を採用します

正解と解説ディスカッション 0

正解：C

正解の根拠

KFP v2 SDK では @dsl.component デコレータで Python 関数を軽量コンポーネントに変換します。base_image や packages_to_install を引数で指定でき、関数シグネチャから自動的に I/O 型が決まります。

API	用途
@dsl.component	関数→コンポーネント
@dsl.pipeline	パイプライン定義

不正解の理由

A はパイプライン用デコレータです
C はそのようなクラスはありません
D は YAML だけで作るのは非推奨です

参考：Lightweight Python components

PMLE#4(automation)

Vertex AI Pipelines と Cloud Composer のどちらを使うべきか判断する観点として、Vertex AI Pipelines が適切なケースを 2 つ選んでください。

（2つ選択）

A. ML 専用のメタデータ追跡 (ML Metadata) と成果物リネージが必要な場合
B. BigQuery と Salesforce と SFTP を跨ぐ複雑な ETL を多数オーケストレーションする場合
C. KFP v2 で書かれた ML ワークフローを GCP 上でマネージドに実行したい場合
D. Apache Airflow の DAG 資産を流用しオンプレからのリフトを行いたい場合

正解と解説ディスカッション 0

正解：A, C

正解の根拠

Vertex AI Pipelines は ML 向けに ML Metadata と成果物リネージを統合しており、KFP v2 をネイティブにサポートします。ML 中心のワークフローに最適化されています。

用途	推奨
ML パイプライン	Vertex AI Pipelines
汎用 ETL/データ統合	Cloud Composer

不正解の理由

B は汎用 ETL なので Composer が適しています
D は Airflow 資産を活かす Composer が適切です

参考：Vertex AI Pipelines overview

PMLE#5(automation)

TFX のコンポーネントのうち、データ統計の生成と異常検知をそれぞれ担当する組み合わせを選んでください。

A. ExampleGen と Trainer の組合せで、データ統計生成とスキーマ異常検知の両方を担当する標準構成とします
B. Evaluator と InfraValidator の組合せで、入力データの統計算出とスキーマ違反検知の役割を分担させる構成とします
C. Transform と Pusher の組合せで、データ統計の自動生成とスキーマ異常検知を一括で実施する構成とします
D. StatisticsGen と ExampleValidator

正解と解説ディスカッション 0

正解：D

正解の根拠

StatisticsGen は TFDV を用いて訓練データの統計サマリを作成し、ExampleValidator は事前に定義したスキーマと統計を比較して欠損や型ずれなどの異常を検知します。

役割	コンポーネント
統計生成	StatisticsGen
異常検知	ExampleValidator

不正解の理由

A は取り込みと学習で異常検知ではありません
C は変換と配信です
D は評価と推論基盤検証です

参考：TFX ExampleValidator