ADP#2(data-preparation)

ADP#2(data-preparation)

IoTセンサーから毎秒数十万件のイベントが発生し、これをBigQueryで近リアルタイム分析したいと考えています。順序保証は不要、重複は許容範囲、エンドツーエンドのレイテンシは数秒以内が目標です。最適な取り込みアーキテクチャはどれですか。

ディスカッション 0

正解:D

正解の根拠

高スループットの近リアルタイム取り込みでは、Pub/Sub をバッファ、Dataflow で変換、BigQuery Storage Write API で低レイテンシ書き込み、というのがGoogle推奨パターンです。Storage Write API は exactly-once セマンティクスとストリーミング書き込みを両立します。

項目推奨
バッファPub/Sub
処理Dataflow ストリーミング
書き込みStorage Write API

不正解の理由

  • B: 5分間隔のファイルバッチでは数秒レイテンシ要件を満たせず、BigQuery Data Transfer Service はSaaS統合用途です。
  • C: Cloud SQL は毎秒数十万件のINSERTには性能限界があり、バッチ集約も遅延が大きすぎます。
  • A: Cloud Functions と bq コマンドではスループット不足で、コストとレート制限の両面で破綻します。

参考:BigQuery Storage Write API


コメント

コメント

コメントする

目次