WEB問題集
毎日 BigQuery へ届く新規データを使い、TFX パイプラインを Vertex AI Pipelines 上で再学習させたいです。最小の運用負荷で日次再学習を実現する方法を選んでください。
正解:C
正解の根拠
Vertex AI Pipelines にはマネージドの Schedule API があり、cron 式で PipelineJob を定期実行できます。外部スケジューラを準備する必要がないため、運用負荷が最小になります。
| 選択肢 | 運用負荷 |
|---|---|
| C | マネージドで最小 |
| A/B/D | 追加コンポーネントが必要 |
不正解の理由
- A は Cloud Scheduler の管理が増えます
- B は VM 運用が必要です
- D は Functions の常駐は不可で設計が破綻します
Cloud Storage バケットへ新しい学習データ CSV が到着したら自動で Vertex AI Pipelines を起動したいです。サーバレスでイベント駆動にする最適な仕組みを選んでください。
正解:C
正解の根拠
Eventarc は Cloud Storage の object.finalize イベントを Cloud Run などへ配信できる完全マネージドな仕組みです。Cloud Run のハンドラから aiplatform クライアントで PipelineJob を作成すれば、サーバレスかつ即時にトリガーできます。
| 方式 | レイテンシ |
|---|---|
| Eventarc | 数秒 |
| ポーリング | 分単位 |
不正解の理由
- B はイベント駆動でなく無駄が多いです
- C はポーリングで遅延が出ます
- D は GKE 運用負荷が大きいです
Kubeflow Pipelines SDK v2 でコンポーネントを定義する方法として正しいものを選んでください。
正解:C
正解の根拠
KFP v2 SDK では @dsl.component デコレータで Python 関数を軽量コンポーネントに変換します。base_image や packages_to_install を引数で指定でき、関数シグネチャから自動的に I/O 型が決まります。
| API | 用途 |
|---|---|
| @dsl.component | 関数→コンポーネント |
| @dsl.pipeline | パイプライン定義 |
不正解の理由
- A はパイプライン用デコレータです
- C はそのようなクラスはありません
- D は YAML だけで作るのは非推奨です
Vertex AI Pipelines と Cloud Composer のどちらを使うべきか判断する観点として、Vertex AI Pipelines が適切なケースを 2 つ選んでください。
(2つ選択)
正解:A, C
正解の根拠
Vertex AI Pipelines は ML 向けに ML Metadata と成果物リネージを統合しており、KFP v2 をネイティブにサポートします。ML 中心のワークフローに最適化されています。
| 用途 | 推奨 |
|---|---|
| ML パイプライン | Vertex AI Pipelines |
| 汎用 ETL/データ統合 | Cloud Composer |
不正解の理由
- B は汎用 ETL なので Composer が適しています
- D は Airflow 資産を活かす Composer が適切です
TFX のコンポーネントのうち、データ統計の生成と異常検知をそれぞれ担当する組み合わせを選んでください。
正解:D
正解の根拠
StatisticsGen は TFDV を用いて訓練データの統計サマリを作成し、ExampleValidator は事前に定義したスキーマと統計を比較して欠損や型ずれなどの異常を検知します。
| 役割 | コンポーネント |
|---|---|
| 統計生成 | StatisticsGen |
| 異常検知 | ExampleValidator |
不正解の理由
- A は取り込みと学習で異常検知ではありません
- C は変換と配信です
- D は評価と推論基盤検証です
