ADP#5(data-preparation)

ADP#5(data-preparation)

BigQuery で扱うCSVファイルが Shift_JIS でエンコードされており、bq load 実行時に文字化けが発生しています。最も簡潔で確実な対処方法はどれですか。

ディスカッション 0

正解:C

正解の根拠

BigQuery のCSVローダーが公式サポートするエンコーディングはUTF-8とISO-8859-1のみです。Shift_JIS は未サポートのため、Cloud Storage 配置前にUTF-8へ変換するのが最も確実で再現性の高い方法です(iconv/PowerShell の Get-Content -Encoding 等)。

BigQuery対応エンコーディング
UTF-8(既定)
ISO-8859-1
UTF-16BE/UTF-16LE/UTF-32BE/UTF-32LE(一部)

不正解の理由

  • A: --encoding に Shift_JIS を指定する選択肢はなく、UTF-8指定だけでは元データの文字化けは解消しません。
  • B: BYTES型で読むと型情報が失われ、後段クエリでの変換が複雑化し品質保証も難しくなります。
  • D: Content-Encoding はHTTP圧縮メタデータであり、文字エンコーディング変換とは無関係です。

参考:Loading CSV data from Cloud Storage


コメント

コメント

コメントする

目次