【PMLE】WEB問題集:モデルサービングとスケーリング編

WEB問題集

PMLE#1(serving-scaling)

低レイテンシのリアルタイム推論を必要とするオンラインサービスに、TensorFlow モデルをデプロイします。最も適切な Vertex AI のサービスはどれですか。

ディスカッション 0

正解:D

正解の根拠

Vertex AI Online Prediction は HTTPS エンドポイントを公開し、低レイテンシで同期的にリクエストを処理する用途に最適化されています。リアルタイム要件を満たす標準的な選択肢です。

用途サービスレイテンシ
リアルタイム同期Online Predictionミリ秒〜秒
大量データ非同期Batch Prediction分〜時間
SQL 内推論BigQuery MLクエリ時間

不正解の理由

  • B はバッチ向けでありリアルタイムには不適です。
  • C はクエリベースで同期 API には向きません。
  • D は推論サービングのマネージド機能が無く、性能保証も困難です。

参考:Vertex AI Online Predictions

PMLE#2(serving-scaling)

毎日 1 億件の顧客レコードに対してオフラインでスコアリングし、結果を Cloud Storage に書き出す要件があります。最適な方法はどれですか。

ディスカッション 0

正解:D

正解の根拠

Vertex AI Batch Prediction は大規模データを非同期に処理し、入力 / 出力に Cloud Storage や BigQuery を直接利用できます。スループットとコスト効率の両面で最適です。

方式適性運用コスト
Batch Prediction大量オフライン
Online 並列呼び出し不適
Cloud Run 自前実装運用負荷大

不正解の理由

  • A はオンライン用 SLA を消費し非効率です。
  • C は自前で分散処理を組む必要があります。
  • D はノートブックでの長時間処理は推奨されません。

参考:Vertex AI Batch Predictions

PMLE#3(serving-scaling)

新しいモデルをリリースする際に、本番トラフィックの 10 パーセントだけを新バージョンへ流して安全性を確認したいです。Vertex AI Endpoints で適切な機能はどれですか。

ディスカッション 0

正解:A

正解の根拠

Vertex AI Endpoint は単一エンドポイント上で複数の DeployedModel に対する traffic_split を設定でき、Canary や A/B テストを安全に実施できます。新旧モデルが同一エンドポイントを共有するため切替も即時です。

パターン仕組み
Canary新モデルへ 10 パーセント流して検証
A/B テスト50/50 でメトリクス比較
Blue/Green0 から 100 へ即時切替

不正解の理由

  • B は DNS 伝播待ちで即時切戻しが困難です。
  • C はオンライン用途では成立しません。
  • D はトラフィック分割そのものを行いません。

参考:Vertex AI モデルのデプロイ

PMLE#4(serving-scaling)

Vertex AI Endpoint で自動スケーリングを設定したいです。指定するべきパラメータを 2 つ選択してください。

(2つ選択)

ディスカッション 0

正解:A, B

正解の根拠

Vertex AI のオンライン予測オートスケーリングはレプリカ数の下限と上限で制御します。最低レプリカで定常待機し、上限まで需要に応じて拡張します。CPU や GPU 使用率に基づくターゲット利用率も別途指定できます。

パラメータ役割
min_replica_count常時稼働数
max_replica_count最大スケールアウト数
autoscaling_metric_specsターゲット利用率

不正解の理由

  • C は実在しない API パラメータです。
  • D はエンドポイントの識別であり、スケーリング制御ではありません。
  • E はネットワーク設定であり対象外です。

参考:Vertex AI コンピュート構成

PMLE#5(serving-scaling)

大規模なディープラーニングモデルを GPU 推論したいです。Vertex AI Online Prediction で利用するべきリソース構成はどれですか。

ディスカッション 0

正解:B

正解の根拠

Vertex AI Endpoint は n1-standard 系などのマシンタイプに対し T4 / V100 / A100 などの GPU を accelerator として追加できます。深層学習推論は GPU により大幅に高速化します。

用途推奨
軽量 MLn1-standard CPU
DL 推論n1-standard + T4
大規模 LLMA2/G2 + A100/L4

不正解の理由

  • B は本番推論には不十分です。
  • C は f1-micro が Vertex AI のサポート対象外です。
  • D は推論ではなく分析用リソースです。

参考:Vertex AI マシンタイプと GPU