AIF-C01#74(fundamentals-generative-ai)

AIF-C01#74(fundamentals-generative-ai)
自然言語処理(NLP)でトークン化が使用される目的は何ですか?

正解:C

正解の根拠

トークン化はテキストを単語、サブワード、文字といった処理可能な小さな単位 (トークン) に分割する NLP の前処理ステップです。BPE、WordPiece、SentencePiece などのアルゴリズムが用いられ、Bedrock や SageMaker の LLM はトークン単位で入出力を扱います。コンテキストウィンドウや課金もトークン基準で計算されます。

NLP 前処理パイプライン

処理役割
Tokenization処理単位への分割
Normalization大文字小文字や記号統一
Embeddingベクトル化
ChunkingRAG 向け文書分割

不正解の理由

  • A: 暗号化はセキュリティ機能で、トークン化の本質的役割とは異なります。
  • B: ファイル圧縮はストレージ最適化で、NLP のトークン化とは別技術です。
  • D: 言語間翻訳は Translate 等のサービスや Seq2Seq モデルが行うタスクで、トークン化はその前段の前処理です。

参考:Comprehend Tokenization


コメント

コメント

コメントする

目次