NewsAngle
NewsAngle

AI安全制御はなぜ破られるのか、脱獄攻撃と防御設計の最新事情

by 坂本 亮
URLをコピーしました

AI安全制御が争点化した社会背景

ChatGPTの公開以降、生成AIは検索、文書作成、コード生成、顧客対応へ一気に広がりました。国際AI安全報告書は、ChatGPTが公開5日で100万人、2カ月で1億人に達した事例を、汎用AI普及の速さを示す象徴として取り上げています。

その普及に合わせて、AI企業は危険な依頼を拒否する安全制御を強めてきました。ところが、研究者やセキュリティ担当者は、プロンプト注入や脱獄攻撃によって制御が繰り返し迂回される事実を報告しています。重要なのは、これは単なる「いたずら入力」の問題ではなく、AIを外部データや業務ツールにつなぐ時代のシステム設計問題だという点です。

本稿では、NCSC、OWASP、NIST、OpenAI、Anthropic、主要研究論文を基に、なぜ安全制御は破られやすいのかを整理します。さらに、モデル単体の拒否性能だけに依存しない現実的な防御策を考えます。

脱獄攻撃が防御をすり抜ける技術的理由

指示とデータの境界不在

LLMの安全制御が難しい最大の理由は、自然言語の中で「命令」と「単なるデータ」が同じ入力空間に置かれることです。英国NCSCは、現在のLLMはプロンプト内で命令とデータの堅牢な境界を強制できないと説明し、プロンプト注入をSQLインジェクションと同じ発想で扱う危険性を指摘しています。

従来のソフトウェアでは、クエリ、権限、データ型、実行環境を分けることで、入力値が勝手に命令へ変わらないようにできます。LLMでは、外部文書、ユーザー発言、システム指示、ツール出力が同じ文脈に入り、モデルが確率的に次の応答を生成します。そのため「この文字列だけは命令として扱わない」と完全に保証することが難しいのです。

OWASPも、LLM向けのTop 10でプロンプト注入を主要リスクとして位置づけています。影響は有害回答の生成に限られません。システムプロンプトの漏えい、機密データの外部送信、接続ツールの不正利用、セッションをまたぐ操作誘導など、アプリケーション全体の信頼境界を揺さぶります。

自動探索で上がる突破確率

初期の脱獄は、架空の役割を演じさせる会話術や、指示を言い換える手作業に近いものでした。しかし研究は、脱獄が人間の勘だけに依存しない段階へ進んでいます。2023年の「Universal and Transferable Adversarial Attacks on Aligned Language Models」は、危険な依頼に短い敵対的サフィックスを付ける手法を示し、それがChatGPT、Bard、Claudeなどの公開インターフェースにも転移し得ると報告しました。

さらに2024年の「Best-of-N Jailbreaking」は、入力をランダムな大文字化や並べ替えなどで大量に変形し、通るまで試す単純なブラックボックス手法を示しました。同論文は、1万件の変形プロンプトをサンプリングした条件で、GPT-4oに89%、Claude 3.5 Sonnetに78%の攻撃成功率を報告しています。これは、攻撃者がモデル内部を知らなくても、試行回数と自動化で成功確率を押し上げられることを意味します。

もちろん、こうした実験は特定の評価条件に依存します。現実の製品では追加の監視、速度制限、ポリシー更新が入ります。それでも重要なのは、AI安全制御が「一度直せば終わる脆弱性」ではなく、探索可能な入力空間をめぐる継続戦になっている点です。

長文文脈が招く逆説的弱点

モデルの性能向上も、防御側にとって常に有利とは限りません。Anthropicが2024年に公表した「many-shot jailbreaking」は、長い文脈ウィンドウを使い、架空の対話例を大量に並べることで安全訓練を上書きするような挙動を示しました。同社は最大256例の架空対話を試し、ショット数が増えるほど有害応答が出やすくなる傾向を報告しています。

この現象は、LLMの強みである文脈内学習と表裏一体です。より長い資料を読めること、少数例から規則を推測できること、ユーザーの意図へ柔軟に合わせられることは、通常利用では価値になります。しかし攻撃者がその柔軟性を利用すると、安全ポリシーよりも文脈中の「例」に引き寄せられる場合があります。

Anthropicは、追加の微調整では脱獄を遅らせるだけだった一方、プロンプトを分類・修正する手法では、ある条件で攻撃成功率を61%から2%へ下げたと説明しています。ただし、これは万能な解決ではありません。検知器を強めれば誤拒否が増え、計算コストも上がります。安全性、利便性、速度、費用の間に避けがたい緊張関係があります。

エージェント化で広がる攻撃面

間接プロンプト注入の現実性

今日のリスクは、ユーザーが直接危険な指示を入力する場面だけではありません。メール、ウェブページ、PDF、チケット、コードコメントなど、AIが読み込む外部データの中に悪意ある指示が隠される場合があります。2023年の間接プロンプト注入研究は、攻撃者がAIと直接対話しなくても、取得されそうなデータへ指示を埋め込むことで、LLM統合アプリを遠隔から操作し得ると示しました。

この構図では、AIは「ユーザーの依頼を実行する代理人」であると同時に、「第三者が書いた情報を読む読者」でもあります。外部データの中に「前の指示を無視せよ」「この情報を別の宛先へ送れ」といった命令が含まれても、モデルはそれをただの引用文として無視すべきか、実行すべき指示として扱うべきかを完全には判定できません。

OpenAIも、プロンプト注入を第三者が会話文脈に悪意ある命令を紛れ込ませる攻撃として説明しています。特に、メール調査、ウェブ閲覧、業務データ検索のように、ユーザー本人以外の情報源を大量に扱うエージェントでは、入力元の信頼度を設計上区別することが不可欠です。

ツール権限が被害を決める構造

脱獄攻撃の深刻度は、モデルが何に接続されているかで大きく変わります。チャットボットが不適切な文章を出すだけなら、被害は主に情報品質や評判の問題です。しかしエージェントがメール送信、ファイル操作、社内DB検索、支払い、コード実行に接続されていれば、同じプロンプト注入がデータ漏えいや不正操作に変わります。

NCSCは、LLMシステムを「混乱しやすい代理人」として設計すべきだと説明しています。つまり、代理人が騙される可能性を前提に、そもそも重大な操作を単独でできないようにする発想です。外部メールを読むAIに、社内全データの検索権限や任意送信権限を与える設計は、見知らぬ差出人に同じ権限を渡すのに近いリスクを生みます。

OpenAIのエージェント構築ガイドも、未信頼データを開発者メッセージへ直接入れないこと、構造化出力でデータ流を制約すること、MCPツールでは承認を有効にすることを推奨しています。ここでの要点は、モデルをより従順にするだけでなく、モデルが誤って従った場合にも被害が限定される構造を作ることです。

マルチモーダル化と評価対象の拡大

攻撃面はテキストに閉じません。Best-of-N Jailbreakingは、視覚言語モデルや音声言語モデルにも攻撃が拡張できると報告しています。MetaのCyberSecEval 3も、LLMのサイバーリスクを、第三者へのリスクとアプリ開発者・エンドユーザーへのリスクに分け、複数の観点から測る必要性を示しています。

この流れは、AI安全を「チャット欄のフィルター」だけで考える限界を浮かび上がらせます。画像内の文字、ウェブページの隠し要素、ツール説明文、検索結果、プラグイン応答など、モデルが処理するものはすべて入力です。モデルが多機能になるほど、攻撃者が潜ませられる場所も増えます。

安全評価も追いつく必要があります。JailbreakBenchは、100種類の有害行動、標準化された脅威モデル、システムプロンプト、採点関数、リーダーボードを用意し、脱獄研究の再現性を高めようとしています。こうしたベンチマークは重要ですが、実運用の権限、業務フロー、利用者の癖までは完全に再現できません。

分類器とレッドチームに残る限界

改善しても消えない残余リスク

防御技術が無力というわけではありません。Anthropicが2025年に公表したConstitutional Classifiersは、入力と出力の分類器を用いて脱獄を検知・遮断する手法です。同社の自動評価では、分類器なしの条件で高度な脱獄プロンプトの成功率が86%だったのに対し、分類器ありでは4.4%まで下がったとされています。

同時に、この結果は安全制御の難しさも示しています。Anthropicは、当初の試作版では過剰拒否と計算資源の問題があったと説明しました。改良版では、5000会話のサンプルで拒否率増加は0.38%にとどまり、計算コストは23.7%高かったと報告しています。安全性を上げるほど、ユーザー体験や運用費用への影響が問われます。

さらに、同社が公開デモで実施したレッドチームでは、339人が約30万件のやり取りを行い、合計約3700時間の試行の末に、1件のユニバーサル脱獄が確認されました。これは「防御が進歩している」ことと「完全な遮断ではない」ことを同時に示す事例です。

評価ギャップと公開後の発見

NISTが公表した米英AI安全研究機関によるClaude 3.5 Sonnetの事前評価でも、セーフガードは重要な防御線である一方、公開済みや非公開の脱獄で迂回され得ると報告されています。米国側の評価では、公開済み脱獄の多くで内蔵セーフガードが迂回され、英国側もセーフガードが日常的に迂回され得ると確認しました。

国際AI安全報告書は、汎用AIの入力と出力が自由形式であるため、あらゆる利用文脈を事前実験で網羅することは困難だと指摘しています。さらに、モデルが公開前に評価されても、公開後すぐに新しい失敗モードが見つかることがあると述べています。これは、モデルカードやシステムカードを読めばリスク評価が完了する、という状況ではないことを意味します。

したがって、安全制御の評価では、拒否率だけでなく、誤拒否、攻撃探索コスト、ツール権限、監視体制、アップデート頻度、インシデント時の停止手順を合わせて見る必要があります。AI企業の発表数値は参考になりますが、企業ごとの業務環境にそのまま移植できる保証ではありません。

企業が採るべき多層防御の要点

AI安全制御が破られやすいという事実は、AI導入を止める理由ではなく、導入設計を変える理由です。第一に、LLMを最終判断者にしないことです。高リスク業務では、構造化出力、許可リスト、権限分離、人間承認、監査ログを標準にし、モデルの自由文が直接システム操作へ流れない設計にする必要があります。

第二に、未信頼データの扱いを明確にすることです。外部メール、ウェブ、PDF、顧客入力を読むときは、その情報源の権限までしかAIに行動させない設計が現実的です。検索や要約は許しても、外部送信や削除は別の検証を通すべきです。

第三に、評価を継続運用に組み込むことです。導入前のレッドチーム、導入後のログ監視、攻撃シナリオの更新、失敗時のロールバックを用意する企業ほど、残余リスクを管理しやすくなります。安全制御は壁ではなく摩擦です。破られない前提ではなく、破られても被害を限定する設計こそが、生成AI時代の実務的な安全策です。

参考資料:

坂本 亮

テクノロジー・サイエンス

宇宙開発・AI・バイオテクノロジーなど最先端の科学技術を、社会的インパクトの視点から読み解く。技術と倫理の交差点を追い続ける。

関連記事

AIワーム実証で始まる自律型サイバー攻撃時代の企業防衛再設計

トロント大学などの研究チームが、既知脆弱性や設定不備、再利用パスワードをAIで組み合わせて自律増殖するワームを隔離環境で実証した。商用AIの安全柵では止めにくい攻撃構造と、CISA KEV、NVD、ゼロトラストを軸に企業が急ぐべき脆弱性管理・分離防御、開発体制の再設計を科学技術の視点で詳しく読み解く。

中国製AIが揺らす米国優位、開放モデル経済と米中規制網の勝算

DeepSeekやQwen、GLM-5.2など中国発の開放型AIが、米企業の開発現場とクラウド基盤に広がっています。低コスト化が米国の閉鎖型モデル優位を揺さぶる一方、輸出規制、データ保護、検閲リスクは重く残ります。日本企業にも及ぶ調達判断の変化まで、米中AI覇権の新局面を政策と企業導入の両面から読み解く。

AnthropicのAI停止が映す輸出管理新時代と安全保障論

米政府はAnthropicのFable 5とMythos 5を外国人に使わせない輸出管理を命じ、同社は全顧客のアクセスを停止した。サイバー防衛に有益な高性能AIを国家安全保障資産として扱う判断が、研究利用、企業導入、国際競争に及ぼす影響を、米輸出規制とモデル安全性の交点から日本企業が読むべき論点まで解説。

最新ニュース

ジェネリック抗がん剤不足、米国がん治療を揺らす配分危機の深層

米国でカルボプラチンやシスプラチンなどの抗がん剤不足が再燃。ASHPは通常発注に足りない供給を示し、FDAも製造品質や需要増を要因に挙げる。安価なジェネリック注射薬の採算悪化、少数工場への依存、在庫情報の遅れが治療延期や代替薬選択を招く配分危機の構造と、患者が確認すべき供給回復の時期や代替療法の論点を読み解く。

民主社会主義とは何か、DSA躍進が映す米民主党左派の政策地図

DSAが掲げる国民皆保険、富裕層課税、対イスラエル軍事支援反対は何を意味するのか。ニューヨーク予備選での躍進、サンダース氏の系譜、ギャラップ調査が示す世論の分断を手がかりに、医療・住宅・労働・外交を権利と民主的統制へ組み替える民主社会主義の影響、民主党主流派との亀裂と2026年中間選挙への波及を読み解く。

ホンダEV公約失速、初赤字が映す米国戦略とハイブリッド回帰の先

ホンダはEV投資の見直しで最大2.5兆円の関連損失を見込み、2026年3月期に親会社帰属損失4239億円を計上した。米国補助金の失効、関税、中国勢との競争、Sony Honda Mobility中止が重なった誤算と、HEV回帰で再建を図る経営課題、北米工場と配当維持の持続性、株価評価の焦点までを解説。

AI雇用転換策、米大手主導の再訓練は地方の労働者に本当に届くか

OpenAI、Anthropic、Amazon、Microsoftが参加するRAISE USは、5億ドル超を元手に州政府とAI時代の再訓練策を試す。4州で始まる職業案内、賃金保険、短期資格は雇用不安を和らげるのか。既存の職業訓練が届きにくい低所得者、移民、若年層への実効性と企業責任の焦点を読み解く。