AIF-C01#6(foundation-models)

ある企業が基盤モデル（FM）のセキュリティをテストしています。テスト中に、安全機能を回避し、有害なコンテンツを生成させようとしています。このセキュリティ手法の例として正しいのはどれですか？

A. トレーニングデータをファジングして脆弱性を探すこと
B. サービス拒否（DoS）攻撃
C. 認可されたペネトレーションテスト
D. ジェイルブレイク

正解：D

正解の根拠

ジェイルブレイク (Jailbreak) は、LLM の安全機能やコンテンツポリシーを意図的に回避させ、本来生成しないはずの有害コンテンツを引き出すプロンプト攻撃手法です。本問の「安全機能を回避し、有害なコンテンツを生成させる」というシナリオはジェイルブレイクの定義そのものです。Bedrock Guardrails やプロンプトフィルタリングで防御できます。

主要 LLM 攻撃/テスト手法

手法	特徴
Jailbreak	安全機能の迂回
Prompt Injection	命令を上書きし誤動作誘導
DoS 攻撃	サービス可用性を阻害
ペネトレーションテスト	包括的なセキュリティ検証

不正解の理由

A: トレーニングデータのファジングはデータ脆弱性探索の手法で、推論時の安全機能回避を目指すジェイルブレイクとは性質が異なります。
B: DoS 攻撃はサービス可用性を奪う攻撃で、有害コンテンツを生成させる安全機能回避の手法とは目的が大きく異なります。
C: ペネトレーションテストはシステム全体の脆弱性を網羅的に検証する活動で、ジェイルブレイクのような特定プロンプト技法とは別概念です。

参考：Amazon Bedrock Guardrails

AIF-C01#6(foundation-models)

正解の根拠

主要 LLM 攻撃/テスト手法

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

主要 LLM 攻撃/テスト手法

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル