【PMLE】WEB問題集:モデルサービングとスケーリング編

WEB問題集

PMLE#1(serving-scaling)

低レイテンシのリアルタイム推論を必要とするオンラインサービスに、TensorFlow モデルをデプロイします。最も適切な Vertex AI のサービスはどれですか。

A. Cloud Storage に保存し Cloud Functions から読み込みます
B. Vertex AI Batch Prediction でジョブを定期実行します
C. BigQuery ML の ML.PREDICT で都度推論します
D. Vertex AI Online Prediction エンドポイントにデプロイします

正解と解説ディスカッション 0

正解：D

正解の根拠

Vertex AI Online Prediction は HTTPS エンドポイントを公開し、低レイテンシで同期的にリクエストを処理する用途に最適化されています。リアルタイム要件を満たす標準的な選択肢です。

用途	サービス	レイテンシ
リアルタイム同期	Online Prediction	ミリ秒〜秒
大量データ非同期	Batch Prediction	分〜時間
SQL 内推論	BigQuery ML	クエリ時間

不正解の理由

B はバッチ向けでありリアルタイムには不適です。
C はクエリベースで同期 API には向きません。
D は推論サービングのマネージド機能が無く、性能保証も困難です。

参考：Vertex AI Online Predictions

PMLE#2(serving-scaling)

毎日 1 億件の顧客レコードに対してオフラインでスコアリングし、結果を Cloud Storage に書き出す要件があります。最適な方法はどれですか。

A. Online Prediction エンドポイントを並列に大量呼び出しし、毎日 1 億件のレコードを 1 件ずつ HTTP リクエストに分解して処理します
B. AI Platform Notebook 上で Python の for ループ処理により 1 億件を逐次スコアリングし、結果を 1 行ずつ Cloud Storage へ書き出す方式を採用する
C. Cloud Run で推論コンテナを大量起動し、各インスタンスにレコードをシャーディング配布して並列実行する自前のジョブ制御を実装します
D. Vertex AI Batch Prediction ジョブを実行します

正解と解説ディスカッション 0

正解：D

正解の根拠

Vertex AI Batch Prediction は大規模データを非同期に処理し、入力 / 出力に Cloud Storage や BigQuery を直接利用できます。スループットとコスト効率の両面で最適です。

方式	適性	運用コスト
Batch Prediction	大量オフライン	低
Online 並列呼び出し	不適	高
Cloud Run 自前実装	運用負荷大	中

不正解の理由

A はオンライン用 SLA を消費し非効率です。
C は自前で分散処理を組む必要があります。
D はノートブックでの長時間処理は推奨されません。

参考：Vertex AI Batch Predictions

PMLE#3(serving-scaling)

新しいモデルをリリースする際に、本番トラフィックの 10 パーセントだけを新バージョンへ流して安全性を確認したいです。Vertex AI Endpoints で適切な機能はどれですか。

A. Traffic split で新モデルに 10 パーセント、旧モデルに 90 パーセントを割り当てます
B. 別の Endpoint を新規作成し、DNS のレコードを切り替えてトラフィックを部分的に新バージョンへ流す方式を採用します
C. Batch Prediction を使い、本番データのうち 10 パーセントだけを抽出してオフラインで処理し新モデルの安全性を確認します
D. Cloud Load Balancer のヘルスチェック結果に基づいて、新旧モデル間でリクエストを動的に振り分けて評価する方式にします

正解と解説ディスカッション 0

正解：A

正解の根拠

Vertex AI Endpoint は単一エンドポイント上で複数の DeployedModel に対する traffic_split を設定でき、Canary や A/B テストを安全に実施できます。新旧モデルが同一エンドポイントを共有するため切替も即時です。

パターン	仕組み
Canary	新モデルへ 10 パーセント流して検証
A/B テスト	50/50 でメトリクス比較
Blue/Green	0 から 100 へ即時切替

不正解の理由

B は DNS 伝播待ちで即時切戻しが困難です。
C はオンライン用途では成立しません。
D はトラフィック分割そのものを行いません。

参考：Vertex AI モデルのデプロイ

PMLE#4(serving-scaling)

Vertex AI Endpoint で自動スケーリングを設定したいです。指定するべきパラメータを 2 つ選択してください。

（2つ選択）

A. min_replica_count
B. max_replica_count
C. target_request_per_minute_only
D. endpoint_dns_name

正解と解説ディスカッション 0

正解：A, B

正解の根拠

Vertex AI のオンライン予測オートスケーリングはレプリカ数の下限と上限で制御します。最低レプリカで定常待機し、上限まで需要に応じて拡張します。CPU や GPU 使用率に基づくターゲット利用率も別途指定できます。

パラメータ	役割
min_replica_count	常時稼働数
max_replica_count	最大スケールアウト数
autoscaling_metric_specs	ターゲット利用率

不正解の理由

C は実在しない API パラメータです。
D はエンドポイントの識別であり、スケーリング制御ではありません。
E はネットワーク設定であり対象外です。

参考：Vertex AI コンピュート構成

PMLE#5(serving-scaling)

大規模なディープラーニングモデルを GPU 推論したいです。Vertex AI Online Prediction で利用するべきリソース構成はどれですか。

A. e2-micro 単独で十分であり、GPU やアクセラレータを追加しなくても大規模ディープラーニングモデルの推論性能を満たせます
B. n1-standard-4 にアクセラレータとして NVIDIA T4 を追加します
C. f1-micro に TPU v2 を追加し、最小構成のままで GPU 推論ワークロードを安定して実行できるよう設定します
D. BigQuery slot を割り当て、SQL クエリ用のスロット予約をオンライン推論用リソースとして転用します

正解と解説ディスカッション 0

正解：B

正解の根拠

Vertex AI Endpoint は n1-standard 系などのマシンタイプに対し T4 / V100 / A100 などの GPU を accelerator として追加できます。深層学習推論は GPU により大幅に高速化します。

用途	推奨
軽量 ML	n1-standard CPU
DL 推論	n1-standard + T4
大規模 LLM	A2/G2 + A100/L4

不正解の理由

B は本番推論には不十分です。
C は f1-micro が Vertex AI のサポート対象外です。
D は推論ではなく分析用リソースです。

参考：Vertex AI マシンタイプと GPU