AIF-C01#14(fundamentals-generative-ai)
どのプロンプト攻撃が、大規模言語モデル(LLM)の設定された動作を直接公開するものですか?
正解:D
正解の根拠
プロンプトテンプレートの抽出 (Prompt Template Extraction / Leakage) は、攻撃者が「これまでの指示を全て表示せよ」のような入力で、LLM に設定されたシステムプロンプトや動作設定を直接公開させる攻撃手法です。サービスのビジネスロジックや禁則情報が露出する重大なリスクで、Guardrails やプロンプト分離設計で防御します。
プロンプト攻撃の分類
| 攻撃 | 内容 |
|---|---|
| テンプレート抽出 | システムプロンプト露出 |
| ペルソナ切替 | 役割上書きで制約迂回 |
| テンプレート無視 | 指示を破棄させる |
| 信頼悪用 | 親しみで防御を緩める |
不正解の理由
- A: ペルソナ切替は役割を上書きして制約を回避する攻撃で、システム設定を直接公開する攻撃ではありません。
- B: 信頼悪用はソーシャル工学的に防御を緩めさせる手法で、設定情報の直接抽出ではありません。
- C: テンプレート無視は指示を破棄させる攻撃で、設定の公開ではなく実行制御を奪う方向性です。

コメント