AIF-C01#74(fundamentals-generative-ai)

自然言語処理（NLP）でトークン化が使用される目的は何ですか？

A. テキストデータを暗号化する
B. テキストファイルを圧縮する
C. テキストを処理可能な小さな単位に分割する
D. テキストを言語間で翻訳する

正解：C

正解の根拠

トークン化はテキストを単語、サブワード、文字といった処理可能な小さな単位 (トークン) に分割する NLP の前処理ステップです。BPE、WordPiece、SentencePiece などのアルゴリズムが用いられ、Bedrock や SageMaker の LLM はトークン単位で入出力を扱います。コンテキストウィンドウや課金もトークン基準で計算されます。

NLP 前処理パイプライン

処理	役割
Tokenization	処理単位への分割
Normalization	大文字小文字や記号統一
Embedding	ベクトル化
Chunking	RAG 向け文書分割

不正解の理由

A: 暗号化はセキュリティ機能で、トークン化の本質的役割とは異なります。
B: ファイル圧縮はストレージ最適化で、NLP のトークン化とは別技術です。
D: 言語間翻訳は Translate 等のサービスや Seq2Seq モデルが行うタスクで、トークン化はその前段の前処理です。

参考：Comprehend Tokenization

AIF-C01#74(fundamentals-generative-ai)

正解の根拠

NLP 前処理パイプライン

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

NLP 前処理パイプライン

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル