AI901-Concept-Image#1
Transformer の Encoder スタック内に存在し、系列内の任意位置間の依存関係を並列に学習する役割を担う層として、最も適切なものはどれですか?
解説
【正解: A】の理由
該当する層はエンコーダ内の Multi-head self-attention 層です。self-attention は系列内の任意位置同士の関係を並列に計算でき、Transformer ベース LLM (Azure OpenAI GPT 系 / Microsoft Phi 系) の長距離依存学習と並列性の源泉です。
【他選択肢が違う理由】
該当する層はエンコーダ内の Multi-head self-attention 層です。self-attention は系列内の任意位置同士の関係を並列に計算でき、Transformer ベース LLM (Azure OpenAI GPT 系 / Microsoft Phi 系) の長距離依存学習と並列性の源泉です。
【他選択肢が違う理由】
- B: 畳み込みは CNN の構成で、Transformer の中核ではありません。
- C: LSTM は RNN 系で、Transformer が置き換えた構造です。
- D: クラスタリングは教師なし学習で、Transformer 内部にはありません。

コメント