AI安全制御はなぜ破られるのか、脱獄攻撃と防御設計の最新事情

AI安全制御が争点化した社会背景

ChatGPTの公開以降、生成AIは検索、文書作成、コード生成、顧客対応へ一気に広がりました。国際AI安全報告書は、ChatGPTが公開5日で100万人、2カ月で1億人に達した事例を、汎用AI普及の速さを示す象徴として取り上げています。

その普及に合わせて、AI企業は危険な依頼を拒否する安全制御を強めてきました。ところが、研究者やセキュリティ担当者は、プロンプト注入や脱獄攻撃によって制御が繰り返し迂回される事実を報告しています。重要なのは、これは単なる「いたずら入力」の問題ではなく、AIを外部データや業務ツールにつなぐ時代のシステム設計問題だという点です。

本稿では、NCSC、OWASP、NIST、OpenAI、Anthropic、主要研究論文を基に、なぜ安全制御は破られやすいのかを整理します。さらに、モデル単体の拒否性能だけに依存しない現実的な防御策を考えます。

脱獄攻撃が防御をすり抜ける技術的理由

指示とデータの境界不在

LLMの安全制御が難しい最大の理由は、自然言語の中で「命令」と「単なるデータ」が同じ入力空間に置かれることです。英国NCSCは、現在のLLMはプロンプト内で命令とデータの堅牢な境界を強制できないと説明し、プロンプト注入をSQLインジェクションと同じ発想で扱う危険性を指摘しています。

従来のソフトウェアでは、クエリ、権限、データ型、実行環境を分けることで、入力値が勝手に命令へ変わらないようにできます。LLMでは、外部文書、ユーザー発言、システム指示、ツール出力が同じ文脈に入り、モデルが確率的に次の応答を生成します。そのため「この文字列だけは命令として扱わない」と完全に保証することが難しいのです。

OWASPも、LLM向けのTop 10でプロンプト注入を主要リスクとして位置づけています。影響は有害回答の生成に限られません。システムプロンプトの漏えい、機密データの外部送信、接続ツールの不正利用、セッションをまたぐ操作誘導など、アプリケーション全体の信頼境界を揺さぶります。

自動探索で上がる突破確率

初期の脱獄は、架空の役割を演じさせる会話術や、指示を言い換える手作業に近いものでした。しかし研究は、脱獄が人間の勘だけに依存しない段階へ進んでいます。2023年の「Universal and Transferable Adversarial Attacks on Aligned Language Models」は、危険な依頼に短い敵対的サフィックスを付ける手法を示し、それがChatGPT、Bard、Claudeなどの公開インターフェースにも転移し得ると報告しました。

さらに2024年の「Best-of-N Jailbreaking」は、入力をランダムな大文字化や並べ替えなどで大量に変形し、通るまで試す単純なブラックボックス手法を示しました。同論文は、1万件の変形プロンプトをサンプリングした条件で、GPT-4oに89%、Claude 3.5 Sonnetに78%の攻撃成功率を報告しています。これは、攻撃者がモデル内部を知らなくても、試行回数と自動化で成功確率を押し上げられることを意味します。

もちろん、こうした実験は特定の評価条件に依存します。現実の製品では追加の監視、速度制限、ポリシー更新が入ります。それでも重要なのは、AI安全制御が「一度直せば終わる脆弱性」ではなく、探索可能な入力空間をめぐる継続戦になっている点です。

長文文脈が招く逆説的弱点

モデルの性能向上も、防御側にとって常に有利とは限りません。Anthropicが2024年に公表した「many-shot jailbreaking」は、長い文脈ウィンドウを使い、架空の対話例を大量に並べることで安全訓練を上書きするような挙動を示しました。同社は最大256例の架空対話を試し、ショット数が増えるほど有害応答が出やすくなる傾向を報告しています。

この現象は、LLMの強みである文脈内学習と表裏一体です。より長い資料を読めること、少数例から規則を推測できること、ユーザーの意図へ柔軟に合わせられることは、通常利用では価値になります。しかし攻撃者がその柔軟性を利用すると、安全ポリシーよりも文脈中の「例」に引き寄せられる場合があります。

Anthropicは、追加の微調整では脱獄を遅らせるだけだった一方、プロンプトを分類・修正する手法では、ある条件で攻撃成功率を61%から2%へ下げたと説明しています。ただし、これは万能な解決ではありません。検知器を強めれば誤拒否が増え、計算コストも上がります。安全性、利便性、速度、費用の間に避けがたい緊張関係があります。

エージェント化で広がる攻撃面

間接プロンプト注入の現実性

今日のリスクは、ユーザーが直接危険な指示を入力する場面だけではありません。メール、ウェブページ、PDF、チケット、コードコメントなど、AIが読み込む外部データの中に悪意ある指示が隠される場合があります。2023年の間接プロンプト注入研究は、攻撃者がAIと直接対話しなくても、取得されそうなデータへ指示を埋め込むことで、LLM統合アプリを遠隔から操作し得ると示しました。

この構図では、AIは「ユーザーの依頼を実行する代理人」であると同時に、「第三者が書いた情報を読む読者」でもあります。外部データの中に「前の指示を無視せよ」「この情報を別の宛先へ送れ」といった命令が含まれても、モデルはそれをただの引用文として無視すべきか、実行すべき指示として扱うべきかを完全には判定できません。

OpenAIも、プロンプト注入を第三者が会話文脈に悪意ある命令を紛れ込ませる攻撃として説明しています。特に、メール調査、ウェブ閲覧、業務データ検索のように、ユーザー本人以外の情報源を大量に扱うエージェントでは、入力元の信頼度を設計上区別することが不可欠です。

ツール権限が被害を決める構造

脱獄攻撃の深刻度は、モデルが何に接続されているかで大きく変わります。チャットボットが不適切な文章を出すだけなら、被害は主に情報品質や評判の問題です。しかしエージェントがメール送信、ファイル操作、社内DB検索、支払い、コード実行に接続されていれば、同じプロンプト注入がデータ漏えいや不正操作に変わります。

NCSCは、LLMシステムを「混乱しやすい代理人」として設計すべきだと説明しています。つまり、代理人が騙される可能性を前提に、そもそも重大な操作を単独でできないようにする発想です。外部メールを読むAIに、社内全データの検索権限や任意送信権限を与える設計は、見知らぬ差出人に同じ権限を渡すのに近いリスクを生みます。

OpenAIのエージェント構築ガイドも、未信頼データを開発者メッセージへ直接入れないこと、構造化出力でデータ流を制約すること、MCPツールでは承認を有効にすることを推奨しています。ここでの要点は、モデルをより従順にするだけでなく、モデルが誤って従った場合にも被害が限定される構造を作ることです。

マルチモーダル化と評価対象の拡大

攻撃面はテキストに閉じません。Best-of-N Jailbreakingは、視覚言語モデルや音声言語モデルにも攻撃が拡張できると報告しています。MetaのCyberSecEval 3も、LLMのサイバーリスクを、第三者へのリスクとアプリ開発者・エンドユーザーへのリスクに分け、複数の観点から測る必要性を示しています。

この流れは、AI安全を「チャット欄のフィルター」だけで考える限界を浮かび上がらせます。画像内の文字、ウェブページの隠し要素、ツール説明文、検索結果、プラグイン応答など、モデルが処理するものはすべて入力です。モデルが多機能になるほど、攻撃者が潜ませられる場所も増えます。

安全評価も追いつく必要があります。JailbreakBenchは、100種類の有害行動、標準化された脅威モデル、システムプロンプト、採点関数、リーダーボードを用意し、脱獄研究の再現性を高めようとしています。こうしたベンチマークは重要ですが、実運用の権限、業務フロー、利用者の癖までは完全に再現できません。

分類器とレッドチームに残る限界

改善しても消えない残余リスク

防御技術が無力というわけではありません。Anthropicが2025年に公表したConstitutional Classifiersは、入力と出力の分類器を用いて脱獄を検知・遮断する手法です。同社の自動評価では、分類器なしの条件で高度な脱獄プロンプトの成功率が86%だったのに対し、分類器ありでは4.4%まで下がったとされています。

同時に、この結果は安全制御の難しさも示しています。Anthropicは、当初の試作版では過剰拒否と計算資源の問題があったと説明しました。改良版では、5000会話のサンプルで拒否率増加は0.38%にとどまり、計算コストは23.7%高かったと報告しています。安全性を上げるほど、ユーザー体験や運用費用への影響が問われます。

さらに、同社が公開デモで実施したレッドチームでは、339人が約30万件のやり取りを行い、合計約3700時間の試行の末に、1件のユニバーサル脱獄が確認されました。これは「防御が進歩している」ことと「完全な遮断ではない」ことを同時に示す事例です。

評価ギャップと公開後の発見

NISTが公表した米英AI安全研究機関によるClaude 3.5 Sonnetの事前評価でも、セーフガードは重要な防御線である一方、公開済みや非公開の脱獄で迂回され得ると報告されています。米国側の評価では、公開済み脱獄の多くで内蔵セーフガードが迂回され、英国側もセーフガードが日常的に迂回され得ると確認しました。

国際AI安全報告書は、汎用AIの入力と出力が自由形式であるため、あらゆる利用文脈を事前実験で網羅することは困難だと指摘しています。さらに、モデルが公開前に評価されても、公開後すぐに新しい失敗モードが見つかることがあると述べています。これは、モデルカードやシステムカードを読めばリスク評価が完了する、という状況ではないことを意味します。

したがって、安全制御の評価では、拒否率だけでなく、誤拒否、攻撃探索コスト、ツール権限、監視体制、アップデート頻度、インシデント時の停止手順を合わせて見る必要があります。AI企業の発表数値は参考になりますが、企業ごとの業務環境にそのまま移植できる保証ではありません。

企業が採るべき多層防御の要点

AI安全制御が破られやすいという事実は、AI導入を止める理由ではなく、導入設計を変える理由です。第一に、LLMを最終判断者にしないことです。高リスク業務では、構造化出力、許可リスト、権限分離、人間承認、監査ログを標準にし、モデルの自由文が直接システム操作へ流れない設計にする必要があります。

第二に、未信頼データの扱いを明確にすることです。外部メール、ウェブ、PDF、顧客入力を読むときは、その情報源の権限までしかAIに行動させない設計が現実的です。検索や要約は許しても、外部送信や削除は別の検証を通すべきです。

第三に、評価を継続運用に組み込むことです。導入前のレッドチーム、導入後のログ監視、攻撃シナリオの更新、失敗時のロールバックを用意する企業ほど、残余リスクを管理しやすくなります。安全制御は壁ではなく摩擦です。破られない前提ではなく、破られても被害を限定する設計こそが、生成AI時代の実務的な安全策です。

参考資料:

AI安全制御はなぜ破られるのか、脱獄攻撃と防御設計の最新事情

AI安全制御が争点化した社会背景

脱獄攻撃が防御をすり抜ける技術的理由

指示とデータの境界不在

自動探索で上がる突破確率

長文文脈が招く逆説的弱点

エージェント化で広がる攻撃面

間接プロンプト注入の現実性

ツール権限が被害を決める構造

マルチモーダル化と評価対象の拡大

分類器とレッドチームに残る限界

改善しても消えない残余リスク

評価ギャップと公開後の発見

企業が採るべき多層防御の要点

関連記事

AI蒸留が米中AI競争の火種となる構造と知財防衛策の盲点分析

AIワーム実証で始まる自律型サイバー攻撃時代の企業防衛再設計

OpenAI新GPT-5.5が映すAI競争とサイバー防衛の再設計

AIがサイバーセキュリティを根本から変える攻防の最前線

データセンター窃盗が映すAIサプライチェーン防衛の新たな盲点

最新ニュース

アルツハイマー病血液検査が拓く早期診断と発症予測の臨床最前線

米住宅危機が老後資金を直撃し退職不安を広げる米国資産格差の構図

NY州データセンター停止令が問うAI投資と電力政治の歴史的転換点

米EV後退が揺らすデトロイト自動車産業と中国EVの低価格戦略

米国人口減少が早まる理由と社会保障危機を左右する移民政策の行方