AIF-C01#6(foundation-models)
ある企業が基盤モデル(FM)のセキュリティをテストしています。テスト中に、安全機能を回避し、有害なコンテンツを生成させようとしています。 このセキュリティ手法の例として正しいのはどれですか?
正解:D
正解の根拠
ジェイルブレイク (Jailbreak) は、LLM の安全機能やコンテンツポリシーを意図的に回避させ、本来生成しないはずの有害コンテンツを引き出すプロンプト攻撃手法です。本問の「安全機能を回避し、有害なコンテンツを生成させる」というシナリオはジェイルブレイクの定義そのものです。Bedrock Guardrails やプロンプトフィルタリングで防御できます。
主要 LLM 攻撃/テスト手法
| 手法 | 特徴 |
|---|---|
| Jailbreak | 安全機能の迂回 |
| Prompt Injection | 命令を上書きし誤動作誘導 |
| DoS 攻撃 | サービス可用性を阻害 |
| ペネトレーションテスト | 包括的なセキュリティ検証 |
不正解の理由
- A: トレーニングデータのファジングはデータ脆弱性探索の手法で、推論時の安全機能回避を目指すジェイルブレイクとは性質が異なります。
- B: DoS 攻撃はサービス可用性を奪う攻撃で、有害コンテンツを生成させる安全機能回避の手法とは目的が大きく異なります。
- C: ペネトレーションテストはシステム全体の脆弱性を網羅的に検証する活動で、ジェイルブレイクのような特定プロンプト技法とは別概念です。

コメント