ADP#2(data-preparation)
IoTセンサーから毎秒数十万件のイベントが発生し、これをBigQueryで近リアルタイム分析したいと考えています。順序保証は不要、重複は許容範囲、エンドツーエンドのレイテンシは数秒以内が目標です。最適な取り込みアーキテクチャはどれですか。
正解:D
正解の根拠
高スループットの近リアルタイム取り込みでは、Pub/Sub をバッファ、Dataflow で変換、BigQuery Storage Write API で低レイテンシ書き込み、というのがGoogle推奨パターンです。Storage Write API は exactly-once セマンティクスとストリーミング書き込みを両立します。
| 項目 | 推奨 |
|---|---|
| バッファ | Pub/Sub |
| 処理 | Dataflow ストリーミング |
| 書き込み | Storage Write API |
不正解の理由
- B: 5分間隔のファイルバッチでは数秒レイテンシ要件を満たせず、BigQuery Data Transfer Service はSaaS統合用途です。
- C: Cloud SQL は毎秒数十万件のINSERTには性能限界があり、バッチ集約も遅延が大きすぎます。
- A: Cloud Functions と bq コマンドではスループット不足で、コストとレート制限の両面で破綻します。

コメント