AI901-Concept#45
Transformer の デコーダ (decoder) 側にある masked self-attention が必要な理由として、最も適切なものはどれですか?
解説
【正解: A】の理由
LLM の自己回帰生成では、ある位置のトークンを予測する際に「まだ生成されていない未来のトークン」を見てはいけません。masked self-attention は上三角行列でマスクしてこれを保証し、訓練と推論の整合性を担保します。
【他選択肢が違う理由】
LLM の自己回帰生成では、ある位置のトークンを予測する際に「まだ生成されていない未来のトークン」を見てはいけません。masked self-attention は上三角行列でマスクしてこれを保証し、訓練と推論の整合性を担保します。
【他選択肢が違う理由】
- B: 利用率はマスクとは無関係です。
- C: レイテンシ短縮はマスクの主目的ではありません。
- D: 圧縮機能はマスクとは別概念です。

コメント