AI安全制御はなぜ破られるのか、脱獄攻撃と防御設計の最新事情
AI安全制御が争点化した社会背景
ChatGPTの公開以降、生成AIは検索、文書作成、コード生成、顧客対応へ一気に広がりました。国際AI安全報告書は、ChatGPTが公開5日で100万人、2カ月で1億人に達した事例を、汎用AI普及の速さを示す象徴として取り上げています。
その普及に合わせて、AI企業は危険な依頼を拒否する安全制御を強めてきました。ところが、研究者やセキュリティ担当者は、プロンプト注入や脱獄攻撃によって制御が繰り返し迂回される事実を報告しています。重要なのは、これは単なる「いたずら入力」の問題ではなく、AIを外部データや業務ツールにつなぐ時代のシステム設計問題だという点です。
本稿では、NCSC、OWASP、NIST、OpenAI、Anthropic、主要研究論文を基に、なぜ安全制御は破られやすいのかを整理します。さらに、モデル単体の拒否性能だけに依存しない現実的な防御策を考えます。
脱獄攻撃が防御をすり抜ける技術的理由
指示とデータの境界不在
LLMの安全制御が難しい最大の理由は、自然言語の中で「命令」と「単なるデータ」が同じ入力空間に置かれることです。英国NCSCは、現在のLLMはプロンプト内で命令とデータの堅牢な境界を強制できないと説明し、プロンプト注入をSQLインジェクションと同じ発想で扱う危険性を指摘しています。
従来のソフトウェアでは、クエリ、権限、データ型、実行環境を分けることで、入力値が勝手に命令へ変わらないようにできます。LLMでは、外部文書、ユーザー発言、システム指示、ツール出力が同じ文脈に入り、モデルが確率的に次の応答を生成します。そのため「この文字列だけは命令として扱わない」と完全に保証することが難しいのです。
OWASPも、LLM向けのTop 10でプロンプト注入を主要リスクとして位置づけています。影響は有害回答の生成に限られません。システムプロンプトの漏えい、機密データの外部送信、接続ツールの不正利用、セッションをまたぐ操作誘導など、アプリケーション全体の信頼境界を揺さぶります。
自動探索で上がる突破確率
初期の脱獄は、架空の役割を演じさせる会話術や、指示を言い換える手作業に近いものでした。しかし研究は、脱獄が人間の勘だけに依存しない段階へ進んでいます。2023年の「Universal and Transferable Adversarial Attacks on Aligned Language Models」は、危険な依頼に短い敵対的サフィックスを付ける手法を示し、それがChatGPT、Bard、Claudeなどの公開インターフェースにも転移し得ると報告しました。
さらに2024年の「Best-of-N Jailbreaking」は、入力をランダムな大文字化や並べ替えなどで大量に変形し、通るまで試す単純なブラックボックス手法を示しました。同論文は、1万件の変形プロンプトをサンプリングした条件で、GPT-4oに89%、Claude 3.5 Sonnetに78%の攻撃成功率を報告しています。これは、攻撃者がモデル内部を知らなくても、試行回数と自動化で成功確率を押し上げられることを意味します。
もちろん、こうした実験は特定の評価条件に依存します。現実の製品では追加の監視、速度制限、ポリシー更新が入ります。それでも重要なのは、AI安全制御が「一度直せば終わる脆弱性」ではなく、探索可能な入力空間をめぐる継続戦になっている点です。
長文文脈が招く逆説的弱点
モデルの性能向上も、防御側にとって常に有利とは限りません。Anthropicが2024年に公表した「many-shot jailbreaking」は、長い文脈ウィンドウを使い、架空の対話例を大量に並べることで安全訓練を上書きするような挙動を示しました。同社は最大256例の架空対話を試し、ショット数が増えるほど有害応答が出やすくなる傾向を報告しています。
この現象は、LLMの強みである文脈内学習と表裏一体です。より長い資料を読めること、少数例から規則を推測できること、ユーザーの意図へ柔軟に合わせられることは、通常利用では価値になります。しかし攻撃者がその柔軟性を利用すると、安全ポリシーよりも文脈中の「例」に引き寄せられる場合があります。
Anthropicは、追加の微調整では脱獄を遅らせるだけだった一方、プロンプトを分類・修正する手法では、ある条件で攻撃成功率を61%から2%へ下げたと説明しています。ただし、これは万能な解決ではありません。検知器を強めれば誤拒否が増え、計算コストも上がります。安全性、利便性、速度、費用の間に避けがたい緊張関係があります。
エージェント化で広がる攻撃面
間接プロンプト注入の現実性
今日のリスクは、ユーザーが直接危険な指示を入力する場面だけではありません。メール、ウェブページ、PDF、チケット、コードコメントなど、AIが読み込む外部データの中に悪意ある指示が隠される場合があります。2023年の間接プロンプト注入研究は、攻撃者がAIと直接対話しなくても、取得されそうなデータへ指示を埋め込むことで、LLM統合アプリを遠隔から操作し得ると示しました。
この構図では、AIは「ユーザーの依頼を実行する代理人」であると同時に、「第三者が書いた情報を読む読者」でもあります。外部データの中に「前の指示を無視せよ」「この情報を別の宛先へ送れ」といった命令が含まれても、モデルはそれをただの引用文として無視すべきか、実行すべき指示として扱うべきかを完全には判定できません。
OpenAIも、プロンプト注入を第三者が会話文脈に悪意ある命令を紛れ込ませる攻撃として説明しています。特に、メール調査、ウェブ閲覧、業務データ検索のように、ユーザー本人以外の情報源を大量に扱うエージェントでは、入力元の信頼度を設計上区別することが不可欠です。
ツール権限が被害を決める構造
脱獄攻撃の深刻度は、モデルが何に接続されているかで大きく変わります。チャットボットが不適切な文章を出すだけなら、被害は主に情報品質や評判の問題です。しかしエージェントがメール送信、ファイル操作、社内DB検索、支払い、コード実行に接続されていれば、同じプロンプト注入がデータ漏えいや不正操作に変わります。
NCSCは、LLMシステムを「混乱しやすい代理人」として設計すべきだと説明しています。つまり、代理人が騙される可能性を前提に、そもそも重大な操作を単独でできないようにする発想です。外部メールを読むAIに、社内全データの検索権限や任意送信権限を与える設計は、見知らぬ差出人に同じ権限を渡すのに近いリスクを生みます。
OpenAIのエージェント構築ガイドも、未信頼データを開発者メッセージへ直接入れないこと、構造化出力でデータ流を制約すること、MCPツールでは承認を有効にすることを推奨しています。ここでの要点は、モデルをより従順にするだけでなく、モデルが誤って従った場合にも被害が限定される構造を作ることです。
マルチモーダル化と評価対象の拡大
攻撃面はテキストに閉じません。Best-of-N Jailbreakingは、視覚言語モデルや音声言語モデルにも攻撃が拡張できると報告しています。MetaのCyberSecEval 3も、LLMのサイバーリスクを、第三者へのリスクとアプリ開発者・エンドユーザーへのリスクに分け、複数の観点から測る必要性を示しています。
この流れは、AI安全を「チャット欄のフィルター」だけで考える限界を浮かび上がらせます。画像内の文字、ウェブページの隠し要素、ツール説明文、検索結果、プラグイン応答など、モデルが処理するものはすべて入力です。モデルが多機能になるほど、攻撃者が潜ませられる場所も増えます。
安全評価も追いつく必要があります。JailbreakBenchは、100種類の有害行動、標準化された脅威モデル、システムプロンプト、採点関数、リーダーボードを用意し、脱獄研究の再現性を高めようとしています。こうしたベンチマークは重要ですが、実運用の権限、業務フロー、利用者の癖までは完全に再現できません。
分類器とレッドチームに残る限界
改善しても消えない残余リスク
防御技術が無力というわけではありません。Anthropicが2025年に公表したConstitutional Classifiersは、入力と出力の分類器を用いて脱獄を検知・遮断する手法です。同社の自動評価では、分類器なしの条件で高度な脱獄プロンプトの成功率が86%だったのに対し、分類器ありでは4.4%まで下がったとされています。
同時に、この結果は安全制御の難しさも示しています。Anthropicは、当初の試作版では過剰拒否と計算資源の問題があったと説明しました。改良版では、5000会話のサンプルで拒否率増加は0.38%にとどまり、計算コストは23.7%高かったと報告しています。安全性を上げるほど、ユーザー体験や運用費用への影響が問われます。
さらに、同社が公開デモで実施したレッドチームでは、339人が約30万件のやり取りを行い、合計約3700時間の試行の末に、1件のユニバーサル脱獄が確認されました。これは「防御が進歩している」ことと「完全な遮断ではない」ことを同時に示す事例です。
評価ギャップと公開後の発見
NISTが公表した米英AI安全研究機関によるClaude 3.5 Sonnetの事前評価でも、セーフガードは重要な防御線である一方、公開済みや非公開の脱獄で迂回され得ると報告されています。米国側の評価では、公開済み脱獄の多くで内蔵セーフガードが迂回され、英国側もセーフガードが日常的に迂回され得ると確認しました。
国際AI安全報告書は、汎用AIの入力と出力が自由形式であるため、あらゆる利用文脈を事前実験で網羅することは困難だと指摘しています。さらに、モデルが公開前に評価されても、公開後すぐに新しい失敗モードが見つかることがあると述べています。これは、モデルカードやシステムカードを読めばリスク評価が完了する、という状況ではないことを意味します。
したがって、安全制御の評価では、拒否率だけでなく、誤拒否、攻撃探索コスト、ツール権限、監視体制、アップデート頻度、インシデント時の停止手順を合わせて見る必要があります。AI企業の発表数値は参考になりますが、企業ごとの業務環境にそのまま移植できる保証ではありません。
企業が採るべき多層防御の要点
AI安全制御が破られやすいという事実は、AI導入を止める理由ではなく、導入設計を変える理由です。第一に、LLMを最終判断者にしないことです。高リスク業務では、構造化出力、許可リスト、権限分離、人間承認、監査ログを標準にし、モデルの自由文が直接システム操作へ流れない設計にする必要があります。
第二に、未信頼データの扱いを明確にすることです。外部メール、ウェブ、PDF、顧客入力を読むときは、その情報源の権限までしかAIに行動させない設計が現実的です。検索や要約は許しても、外部送信や削除は別の検証を通すべきです。
第三に、評価を継続運用に組み込むことです。導入前のレッドチーム、導入後のログ監視、攻撃シナリオの更新、失敗時のロールバックを用意する企業ほど、残余リスクを管理しやすくなります。安全制御は壁ではなく摩擦です。破られない前提ではなく、破られても被害を限定する設計こそが、生成AI時代の実務的な安全策です。
参考資料:
- OWASP Top 10 for Large Language Model Applications
- LLM Prompt Injection Prevention Cheat Sheet
- Prompt injection is not SQL injection (it may be worse)
- Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile
- International AI Safety Report 2025
- Pre-Deployment Evaluation of Anthropic’s Upgraded Claude 3.5 Sonnet
- Constitutional Classifiers: Defending against universal jailbreaks
- Many-shot jailbreaking
- Designing AI agents to resist prompt injection
- Safety in building agents
- JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models
- Universal and Transferable Adversarial Attacks on Aligned Language Models
- Not what you’ve signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection
- Best-of-N Jailbreaking
- CYBERSECEVAL 3: Advancing the Evaluation of Cybersecurity Risks and Capabilities in Large Language Models
テクノロジー・サイエンス
宇宙開発・AI・バイオテクノロジーなど最先端の科学技術を、社会的インパクトの視点から読み解く。技術と倫理の交差点を追い続ける。
関連記事
AIワーム実証で始まる自律型サイバー攻撃時代の企業防衛再設計
トロント大学などの研究チームが、既知脆弱性や設定不備、再利用パスワードをAIで組み合わせて自律増殖するワームを隔離環境で実証した。商用AIの安全柵では止めにくい攻撃構造と、CISA KEV、NVD、ゼロトラストを軸に企業が急ぐべき脆弱性管理・分離防御、開発体制の再設計を科学技術の視点で詳しく読み解く。
OpenAI新GPT-5.5が映すAI競争とサイバー防衛の再設計
OpenAIが4月23日に公開したGPT-5.5は、Terminal-Bench 2.0で82.7%、OSWorld-Verifiedで78.7%を記録しつつ、サイバー能力をHigh扱いで一般展開しました。限定公開のAnthropic Mythosと何が違うのか。性能、価格、安全策、企業導入への含意を読み解きます。
AIがサイバーセキュリティを根本から変える攻防の最前線
AI技術の進化がサイバー攻撃と防御の両面を加速させる新時代の到来
AI数学証明ブームに警鐘、ライデン宣言が問う研究倫理と検証責任
OpenAIの未解決幾何問題の反証やDeepMindの数学五輪成果でAI数学が加速する一方、ライデン宣言は透明性、著作権、査読、研究自治の危機を指摘。証明を人間がどう検証し、企業発表をどこまで信頼すべきか。研究者、編集者、政策担当者が見落としやすい論点を整理し、数学者が求める開示ルールと産学連携の距離感を解説。
Anthropic上場申請が映すAI株式市場の評価転換と資金競争
AnthropicがSECへS-1草案を非公開提出し、9650億ドル評価のAI大手がIPO市場の主役に浮上。Claude Codeの収益力、AWSとの計算資本、公開株投資家が問う利益率、非公開申請で見えない価格決定や顧客集中リスク、OpenAIとの上場競争を米株市場の資金配分から実務的に詳しく読み解く。
最新ニュース
AIエージェント実務利用の実像、開発現場で進む委任と監督の再設計
Arenaの16万件超の利用ログと200万回超のツール呼び出し、Stack OverflowやMicrosoftの調査から、AIエージェントが担う仕事はコード作成・調査・資料化に集中する実態が見えます。自律化の期待と、人間の監督、精度・安全性、データ文脈の課題、企業導入で問われる評価基盤を読み解く。
ヒト胚ゲノム編集、塩基編集が変える安全性評価と倫理論争の現在地
コロンビア大学などの研究が、ヒト胚でPCSK9やHBGを標的にした塩基編集の精度を示しました。CRISPR-Cas9で問題化した染色体損傷、モザイク、オフターゲット、米国規制、2018年のゲノム編集児問題、体細胞治療との違いを整理し、WHOとFDAの論点も踏まえ、臨床応用前に何が変わり何が変わらないのかを解説。
SpaceX上場で米国401(k)が揺れる指数投資の新常識とは
SpaceXのIPOは135ドル、750億ドル規模とされ、NasdaqやFTSE Russellの早期採用ルールで401(k)の指数ファンドにも波及します。S&P500は早期採用を見送りましたが、全市場指数やCRSP系ファンドを通じた自動買い、低浮動株、AI投資のリスクと個人投資家の確認点を読み解く。
テキサスでスクリューワーム再確認、牛肉危機と州政府の緊急対応
テキサス州ザバラ郡の生後3週間の子牛で新世界スクリューワームが確認され、州政府とUSDAが20キロ圏の移動制限や不妊化ハエ放出を急ぐ。1966年の米本土根絶後に再浮上した害虫は、牛肉供給、食品安全への誤解、国境防疫、連邦・州の責任分担を同時に揺さぶる。南テキサスの初動と再定着阻止の条件を詳しく解説。
米新卒就職難が長期化、AI時代に広がる教育格差の傷痕と対策を読む
米国の2026年新卒市場はNACEが採用5.6%増を見込む一方、NY連銀は若年大卒失業率5.7%、不完全就業率41.5%と報告。AI、リモート勤務、学生ローン、OPT不安が重なり、初職の遅れが賃金と教育格差に残す傷痕を分析。第一世代学生や留学生へ負担が集中する構造と、大学・企業が取るべき支援策を読み解く。