AIF-C01#74(fundamentals-generative-ai)
自然言語処理(NLP)でトークン化が使用される目的は何ですか?
正解:C
正解の根拠
トークン化はテキストを単語、サブワード、文字といった処理可能な小さな単位 (トークン) に分割する NLP の前処理ステップです。BPE、WordPiece、SentencePiece などのアルゴリズムが用いられ、Bedrock や SageMaker の LLM はトークン単位で入出力を扱います。コンテキストウィンドウや課金もトークン基準で計算されます。
NLP 前処理パイプライン
| 処理 | 役割 |
|---|---|
| Tokenization | 処理単位への分割 |
| Normalization | 大文字小文字や記号統一 |
| Embedding | ベクトル化 |
| Chunking | RAG 向け文書分割 |
不正解の理由
- A: 暗号化はセキュリティ機能で、トークン化の本質的役割とは異なります。
- B: ファイル圧縮はストレージ最適化で、NLP のトークン化とは別技術です。
- D: 言語間翻訳は Translate 等のサービスや Seq2Seq モデルが行うタスクで、トークン化はその前段の前処理です。

コメント