あなたは大手銀行で働いており、米国とシンガポールで稼働する Google Cloud 上のアプリケーションを通じて顧客サービスを提供しています。
あなたは PyTorch を使って、取引が不正の可能性があるかどうかを分類するモデルを開発しました。
モデルは数値特徴量とカテゴリ特徴量を入力とし、ハッシュ処理はモデル内部で行われる 3 層パーセプトロン(MLP) です。
このモデルを us-central1 リージョン の n1-highcpu-16 マシン上にデプロイしており、リアルタイム推論を行っています。
現在の推論の中央値レイテンシは 40ms です。
しかし、特にシンガポールのユーザーが最も遅延を感じており、レイテンシの改善が求められています。
あなたは、この遅延を改善する必要があります。
何をすべきですか?
正解:D
今回の問題では、遅延の主な原因が「モデルの計算速度」ではなく「地理的な距離」にあるという点が最も重要です。モデルは3層の単純なパーセプトロンであり、計算量は決して大きくありません。そのため、より高性能な CPU(選択肢B)や GPU(選択肢A)を利用したところで、大きなレイテンシ削減にはつながりません。実際に現在のレイテンシは 40ms と比較的良好であり、推論速度そのものではなく、シンガポールから us-central1 へのネットワーク距離が大きいことが遅延の原因となっています。
したがって、シンガポールのユーザーに近いリージョンで推論を行うことが最も効果的です。そのためには、asia-southeast1(シンガポール)に新たな Vertex AI エンドポイントを作成し、ユーザーの地域に応じて適切なエンドポイントを利用させる構成が最適解となります。これにより、ネットワーク往復の距離が大幅に短縮され、推論レイテンシの改善が期待できます。
選択肢 C は private endpoints を使う点が余計であり、通常の Vertex AI エンドポイントで十分なユースケースに対して過剰な構成となります。今回求められているのは単純なリージョナル冗長性と近接性であるため、asia-southeast1 に Vertex AI エンドポイントを増設する D が最も直接的で効果的な解決策です。
以上の理由から、D が最も合理的かつ実用的な選択肢となります。

コメント