AI幻覚が法廷書面を汚した名門法律事務所の深刻な失敗と検証課題

はじめに

米国の名門法律事務所サリバン・アンド・クロムウェルが、ニューヨーク南部地区の米破産裁判所に提出した書面に、生成AIによる「幻覚」が含まれていたと認めました。架空の判例引用、誤った法令解釈、存在しない法的根拠が、裁判所に出す文書へ入り込んだという問題です。

この出来事が重いのは、AIに不慣れな個人ではなく、国際的な大型案件を扱うトップクラスの法律事務所で起きた点です。焦点は「AIを使ったか」ではなく、「検証されないAI出力が、どのように専門家組織の品質管理をすり抜けたか」です。

本稿では、裁判所提出書面、米司法省・財務省の発表、法曹倫理ガイドライン、AI幻覚に関する研究をもとに、今回の問題の構造と企業法務への示唆を読み解きます。

名門事務所で起きたAI幻覚の実像

4月9日の緊急申立と4月18日の謝罪

問題の舞台は、米破産裁判所南部ニューヨーク地区に係属する「Prince Global Holdings Limited and Paul Pretlove」のチャプター15手続です。破産関連情報サイトInforuptcyのドケット情報では、事件番号は26-10769、申立日は2026年4月8日、担当判事はMartin Glenn首席判事とされています。チャプター15は、外国倒産手続を米国で認識し、米国内資産や証拠保全に関わる救済を求める制度です。

サリバン・アンド・クロムウェルは4月9日、共同暫定清算人を代理して、破産法1519条に基づく緊急の暫定救済申立を提出しました。その後、4月18日付のAndrew G. Dietderich弁護士の書簡で、同申立に「不正確な引用とその他の誤り」が含まれていたと裁判所に報告しています。書簡は、誤りの一部がAIの幻覚、つまりAIツールが判例引用を作り出したり、法的権威を誤引用したり、存在しない法源を生成したりする現象だったと説明しました。

書簡に添付されたSchedule Aは、申立書、認識申立、共同管理申立、審理日程に関する申立、複数の宣誓書にまたがる修正点を列挙しています。誤りは、単純な表記揺れだけではありません。判例名、事件番号、Westlaw番号、破産法や破産規則の条文番号、引用文の内容に及んでいます。たとえば、実在する判例の引用箇所がずれている例、引用文の趣旨が変わっている例、法令名や条文番号が混線している例が確認できます。

同事務所は、誤りを発見したのは相手方のBoies Schiller Flexnerだったと認め、同社に直接謝罪したとも書簡で述べました。さらに、当該事件の他の提出書面を再点検し、AIに起因する追加の誤りは見つからなかったと説明しています。ただし、AI以外の手作業による非実質的・事務的誤りは確認され、それらもSchedule Aに含めたとしています。

プリンス・グループ事件という重い舞台

今回の誤りは、単なる小規模な民事紛争で起きたものではありません。背景にあるプリンス・グループ関連事件は、米司法省と米財務省が大規模な国際犯罪ネットワークとして扱う案件です。

米司法省は2025年10月、カンボジアを拠点とするPrince Holding Groupの創業者・会長とされるChen Zhiを、電信詐欺共謀とマネーロンダリング共謀で起訴したと発表しました。同グループは強制労働型詐欺施設を運営し、暗号資産投資詐欺を世界中の被害者に仕掛けていたとされています。発表は、米国が約150億ドル相当のビットコインを対象に、司法省史上最大規模の没収手続を申し立てたとも説明しています。

米財務省も同じ日に、英国当局と連携して東南アジアのサイバー犯罪ネットワークに対する大規模措置を発表しました。財務省は、Prince Groupを越境犯罪組織として制裁対象に指定し、関連する146の個人・団体を対象にしたとしています。つまり、この倒産関連手続は、資産保全、被害者救済、制裁、暗号資産追跡、人身取引の疑いが交差する高リスク案件です。

このような案件では、暫定救済の可否が資産の散逸防止や証拠保全に直結します。根拠となる法的引用が不正確であれば、裁判所の判断コストを増やすだけでなく、相手方、被害者、債権者の利害にも波及します。AI幻覚は「引用ミス」と軽く見られがちですが、複雑事件では手続全体の信頼を傷つけます。

法務AIの便利さと危うさの構造

検索エンジンではない生成モデル

生成AIの本質は、法令データベースから正解を取り出す検索エンジンではありません。大規模言語モデルは、学習した膨大なテキストの統計的パターンをもとに、もっともらしい文章を生成します。文体、判例名、法的議論の型を再現する能力は高い一方で、出力が実在する法源と一致する保証はありません。

この特性は、法律分野で特に危険です。法律文書では、論旨の説得力だけでなく、根拠が実在し、引用箇所が正確で、引用文の文脈が崩れていないことが不可欠です。AIが「判例らしい名前」「もっともらしい引用番号」「裁判所が書きそうな文」を生成できるほど、人間の目には一見正しく見えます。専門家ほど、形式が整っている出力を過信する危険もあります。

スタンフォード大学の研究者らがJournal of Legal Analysisに発表した2024年の論文「Large Legal Fictions」は、この問題を実証的に示しています。同論文は、公開モデルを法律タスクに用いた場合、少なくとも58%の頻度で法的事実と整合しない出力が生じたと報告しています。特定の連邦裁判例に関する検証可能な質問では、モデルによってさらに高い幻覚率が確認されています。

重要なのは、AIが間違えること自体ではなく、AIが自分の不確実性を十分に示せない場合があることです。モデルは「わかりません」と止まるより、自然な文章を続ける方向に働きやすい設計です。法律実務では、この滑らかさが危険になります。判例引用が正しいかどうかは、文章の流暢さではなく、公式データベースや裁判所記録との照合でしか確認できません。

ルールが求める人間の検証責任

南部ニューヨーク地区破産裁判所のローカルルール9011-1(d)は、生成AIの利用を明示的に扱っています。同ルールは、ChatGPT、Google Bard、Bing AI Chat、生成AIサービスなどの技術を用いて作成された法律文書についても、訴訟当事者が正確性と品質に責任を負うと定めています。さらに、技術が事実上または法律上不正確な内容を生む可能性に注意を促し、コンピューター生成コンテンツを確認・検証しなければならないとしています。

このローカルルールは、連邦破産規則9011とつながっています。同規則は、裁判所に文書を提出する弁護士または本人訴訟当事者が、状況に応じた合理的調査を経て、法的主張が現行法または誠実な法変更論に支えられ、事実主張に証拠上の裏付けがあることを保証する仕組みです。違反があれば、裁判所は弁護士、法律事務所、当事者に制裁を科すことができます。

米国法曹協会のFormal Opinion 512も、生成AIの利用について同じ方向を示しています。弁護士は、能力義務、守秘義務、依頼者とのコミュニケーション、部下や外部サービスの監督、裁判所への誠実義務、合理的な報酬請求を考慮しなければならないとされています。AI出力を使う場合でも、最終的な専門判断と責任は弁護士から外れません。

前例としてよく知られるのが、2023年のMata v. Avianca事件です。ニューヨーク南部地区連邦地裁は、ChatGPTが生成した存在しない判例を提出した弁護士らに対し、5,000ドルの制裁金、依頼者と架空判例に名前を使われた裁判官への通知を命じました。同判決は、AI利用自体を禁じるものではなく、裁判所提出前に真正性を確認する「ゲートキーパー」としての弁護士責任を強調しました。

今回のサリバン・アンド・クロムウェルの書簡も、この流れの延長線上にあります。同事務所は、AI利用前の必須研修、幻覚リスクの説明、AIプログラムから得た回答や判例引用を実質面・非実質面の双方で独立確認する内部規程があったと裁判所に説明しました。それでも誤りは提出書面に入り込みました。ここに、制度設計と現場運用の断層があります。

企業法務と法律事務所への実務的影響

ポリシーだけでは足りない統制

今回の教訓は、AI利用ポリシーの有無では測れません。書簡によれば、同事務所には包括的なポリシーと研修要件があり、AIツールへのアクセスは必須研修の完了を条件としていました。それでも、当該申立の作成過程ではポリシーが守られず、引用確認のレビューも不正確な引用を見抜けませんでした。

法務AIの統制は、三つの層で考える必要があります。第一に、誰がどのAIツールを使えるのかというアクセス管理です。第二に、AIが関与した作業範囲を記録するプロセス管理です。第三に、引用、条文、契約条項、事実認定を公式ソースで照合する品質管理です。ポリシーがあっても、作業履歴が残らず、レビュー担当者がAI関与箇所を知らなければ、検証は形式化します。

特に法律文書では、AIが生成した本文そのものより、AIが提案した引用や要約が危険です。文章表現の修正なら人間が読み返して違和感に気づきやすい一方、判例番号や引用箇所の誤りは、検索・照合しなければ発見できません。見た目の自然さが品質を保証しないため、レビュー手順は「読む」だけでなく「引く」「照らす」「再現する」作業を含むべきです。

Damien Charlotin氏が公開するAI幻覚事件データベースは、裁判所や仲裁機関がAI由来の幻覚を扱った事例を継続的に集計しています。同データベースは、2026年4月時点で1,316件を特定していると表示しており、弁護士、本人訴訟当事者、専門家、裁判官など複数の主体による事例を含みます。すべてが今回のような大手法律事務所の案件ではありませんが、裁判所がAI由来の偽引用を繰り返し目にしていることは明らかです。

日本企業が受け取るべき教訓

日本企業にとっても、この問題は対岸の火事ではありません。契約レビュー、訴訟資料の下書き、デューデリジェンス、社内規程の改定、海外子会社対応など、法務部門で生成AIを使う場面は増えています。外部法律事務所がAIを使うケースも含め、企業側が品質管理をどう求めるかが実務課題になります。

まず、外部弁護士との業務委託条件に、AI利用方針を明記することが考えられます。全面禁止ではなく、秘密情報の入力制限、利用可能ツール、生成物の検証方法、AI関与箇所の記録、ベンダー管理を定める方が現実的です。黙認より、範囲と責任を明文化した方が事故対応も容易になります。

次に、重要文書のレビュー基準を分ける必要があります。社内メモや論点整理であれば、AIは有用な補助線になります。しかし、裁判所、規制当局、取締役会、投資家、取引先へ提出する文書では、引用・数値・固有名詞・日付・条文の独立検証が必須です。AIの利用有無にかかわらず、第三者に出す文書は「根拠に戻れる」状態でなければなりません。

最後に、AIを使う人材教育は、失敗パターンを中心に設計すべきです。良いプロンプトの書き方だけでは、幻覚への耐性は高まりません。実在しない判例、古い法令、文脈を外した引用、似た名前の事件の混同、翻訳による条文ニュアンスの欠落などを、実例ベースで訓練する必要があります。

注意点・展望

今回の問題を「AI禁止」の根拠としてだけ読むのは短絡的です。AIは、論点整理、草案作成、証拠リストの要約、多言語文書の初期把握などで、法務実務の効率を大きく高めます。むしろ重要なのは、AIを検索データベース、若手アソシエイト、翻訳者、要約ツールのどれとして扱っているのかを明確にすることです。役割が曖昧なまま使うと、責任の所在も曖昧になります。

今後、米国の裁判所ではAI利用に関するローカルルールや個別判事の命令がさらに増える可能性があります。開示を求める裁判所、検証証明を求める裁判所、明示的な禁止ではなく責任確認にとどめる裁判所など、運用は分かれるでしょう。企業や法律事務所は、管轄ごとのルールを確認し、AI利用ログと検証記録を残す体制を整える必要があります。

技術面では、法令・判例データベースと連携した検索拡張生成、引用元へのリンク、出典照合、信頼度表示などが改善していくと考えられます。ただし、どれほどツールが進化しても、裁判所に提出する文書の責任は人間の専門家に残ります。AIが法務を変えるほど、最後に問われるのは人間の確認能力です。

まとめ

サリバン・アンド・クロムウェルのAI幻覚問題は、生成AIの失敗談ではなく、専門家組織の検証プロセスの失敗です。トップ法律事務所であっても、研修と規程だけでは、AIが作るもっともらしい誤りを防げないことが示されました。

企業法務が取るべき対応は明確です。AI利用を隠れた作業にせず、使う場面、使わない場面、検証する項目、責任者を明文化することです。生成AIは法務の速度を上げますが、裁判所や市場が評価するのは速度ではなく、根拠に支えられた正確性です。

参考資料:

NewsAngle

AI幻覚が法廷書面を汚した名門法律事務所の深刻な失敗と検証課題

はじめに

名門事務所で起きたAI幻覚の実像

4月9日の緊急申立と4月18日の謝罪

プリンス・グループ事件という重い舞台

法務AIの便利さと危うさの構造

検索エンジンではない生成モデル

ルールが求める人間の検証責任

企業法務と法律事務所への実務的影響

ポリシーだけでは足りない統制

日本企業が受け取るべき教訓

注意点・展望

まとめ

関連記事

GoogleのAI検索要約はどこまで正確か、便利さと誤答の構造

OpenAIとAnthropic、米AI規制を動かすロビー攻防

OpenAI死亡訴訟が問うAIチャットボット製品安全責任の行方

AIゼロデイ悪用未遂、Google報告が迫る防御戦略刷新の急務

AI議事録ツールが弁護士特権を脅かす法的リスクの深層

最新ニュース

中国レアアース規制が握るトランプ対中外交の主導権争いと新焦点

ゴールデンドーム1.2兆ドル試算が問う宇宙ミサイル防衛の現実

OpenAIとAnthropic、米AI規制を動かすロビー攻防

Polymarket疑惑が映す予測市場の内部情報規制の新局面

米国学力低下の深層、世代を超える成績後退と格差拡大の重い実像