NewsAngle

NewsAngle

AI幻覚が法廷書面を汚した名門法律事務所の深刻な失敗と検証課題

by 坂本 亮
URLをコピーしました

はじめに

米国の名門法律事務所サリバン・アンド・クロムウェルが、ニューヨーク南部地区の米破産裁判所に提出した書面に、生成AIによる「幻覚」が含まれていたと認めました。架空の判例引用、誤った法令解釈、存在しない法的根拠が、裁判所に出す文書へ入り込んだという問題です。

この出来事が重いのは、AIに不慣れな個人ではなく、国際的な大型案件を扱うトップクラスの法律事務所で起きた点です。焦点は「AIを使ったか」ではなく、「検証されないAI出力が、どのように専門家組織の品質管理をすり抜けたか」です。

本稿では、裁判所提出書面、米司法省・財務省の発表、法曹倫理ガイドライン、AI幻覚に関する研究をもとに、今回の問題の構造と企業法務への示唆を読み解きます。

名門事務所で起きたAI幻覚の実像

4月9日の緊急申立と4月18日の謝罪

問題の舞台は、米破産裁判所南部ニューヨーク地区に係属する「Prince Global Holdings Limited and Paul Pretlove」のチャプター15手続です。破産関連情報サイトInforuptcyのドケット情報では、事件番号は26-10769、申立日は2026年4月8日、担当判事はMartin Glenn首席判事とされています。チャプター15は、外国倒産手続を米国で認識し、米国内資産や証拠保全に関わる救済を求める制度です。

サリバン・アンド・クロムウェルは4月9日、共同暫定清算人を代理して、破産法1519条に基づく緊急の暫定救済申立を提出しました。その後、4月18日付のAndrew G. Dietderich弁護士の書簡で、同申立に「不正確な引用とその他の誤り」が含まれていたと裁判所に報告しています。書簡は、誤りの一部がAIの幻覚、つまりAIツールが判例引用を作り出したり、法的権威を誤引用したり、存在しない法源を生成したりする現象だったと説明しました。

書簡に添付されたSchedule Aは、申立書、認識申立、共同管理申立、審理日程に関する申立、複数の宣誓書にまたがる修正点を列挙しています。誤りは、単純な表記揺れだけではありません。判例名、事件番号、Westlaw番号、破産法や破産規則の条文番号、引用文の内容に及んでいます。たとえば、実在する判例の引用箇所がずれている例、引用文の趣旨が変わっている例、法令名や条文番号が混線している例が確認できます。

同事務所は、誤りを発見したのは相手方のBoies Schiller Flexnerだったと認め、同社に直接謝罪したとも書簡で述べました。さらに、当該事件の他の提出書面を再点検し、AIに起因する追加の誤りは見つからなかったと説明しています。ただし、AI以外の手作業による非実質的・事務的誤りは確認され、それらもSchedule Aに含めたとしています。

プリンス・グループ事件という重い舞台

今回の誤りは、単なる小規模な民事紛争で起きたものではありません。背景にあるプリンス・グループ関連事件は、米司法省と米財務省が大規模な国際犯罪ネットワークとして扱う案件です。

米司法省は2025年10月、カンボジアを拠点とするPrince Holding Groupの創業者・会長とされるChen Zhiを、電信詐欺共謀とマネーロンダリング共謀で起訴したと発表しました。同グループは強制労働型詐欺施設を運営し、暗号資産投資詐欺を世界中の被害者に仕掛けていたとされています。発表は、米国が約150億ドル相当のビットコインを対象に、司法省史上最大規模の没収手続を申し立てたとも説明しています。

米財務省も同じ日に、英国当局と連携して東南アジアのサイバー犯罪ネットワークに対する大規模措置を発表しました。財務省は、Prince Groupを越境犯罪組織として制裁対象に指定し、関連する146の個人・団体を対象にしたとしています。つまり、この倒産関連手続は、資産保全、被害者救済、制裁、暗号資産追跡、人身取引の疑いが交差する高リスク案件です。

このような案件では、暫定救済の可否が資産の散逸防止や証拠保全に直結します。根拠となる法的引用が不正確であれば、裁判所の判断コストを増やすだけでなく、相手方、被害者、債権者の利害にも波及します。AI幻覚は「引用ミス」と軽く見られがちですが、複雑事件では手続全体の信頼を傷つけます。

法務AIの便利さと危うさの構造

検索エンジンではない生成モデル

生成AIの本質は、法令データベースから正解を取り出す検索エンジンではありません。大規模言語モデルは、学習した膨大なテキストの統計的パターンをもとに、もっともらしい文章を生成します。文体、判例名、法的議論の型を再現する能力は高い一方で、出力が実在する法源と一致する保証はありません。

この特性は、法律分野で特に危険です。法律文書では、論旨の説得力だけでなく、根拠が実在し、引用箇所が正確で、引用文の文脈が崩れていないことが不可欠です。AIが「判例らしい名前」「もっともらしい引用番号」「裁判所が書きそうな文」を生成できるほど、人間の目には一見正しく見えます。専門家ほど、形式が整っている出力を過信する危険もあります。

スタンフォード大学の研究者らがJournal of Legal Analysisに発表した2024年の論文「Large Legal Fictions」は、この問題を実証的に示しています。同論文は、公開モデルを法律タスクに用いた場合、少なくとも58%の頻度で法的事実と整合しない出力が生じたと報告しています。特定の連邦裁判例に関する検証可能な質問では、モデルによってさらに高い幻覚率が確認されています。

重要なのは、AIが間違えること自体ではなく、AIが自分の不確実性を十分に示せない場合があることです。モデルは「わかりません」と止まるより、自然な文章を続ける方向に働きやすい設計です。法律実務では、この滑らかさが危険になります。判例引用が正しいかどうかは、文章の流暢さではなく、公式データベースや裁判所記録との照合でしか確認できません。

ルールが求める人間の検証責任

南部ニューヨーク地区破産裁判所のローカルルール9011-1(d)は、生成AIの利用を明示的に扱っています。同ルールは、ChatGPT、Google Bard、Bing AI Chat、生成AIサービスなどの技術を用いて作成された法律文書についても、訴訟当事者が正確性と品質に責任を負うと定めています。さらに、技術が事実上または法律上不正確な内容を生む可能性に注意を促し、コンピューター生成コンテンツを確認・検証しなければならないとしています。

このローカルルールは、連邦破産規則9011とつながっています。同規則は、裁判所に文書を提出する弁護士または本人訴訟当事者が、状況に応じた合理的調査を経て、法的主張が現行法または誠実な法変更論に支えられ、事実主張に証拠上の裏付けがあることを保証する仕組みです。違反があれば、裁判所は弁護士、法律事務所、当事者に制裁を科すことができます。

米国法曹協会のFormal Opinion 512も、生成AIの利用について同じ方向を示しています。弁護士は、能力義務、守秘義務、依頼者とのコミュニケーション、部下や外部サービスの監督、裁判所への誠実義務、合理的な報酬請求を考慮しなければならないとされています。AI出力を使う場合でも、最終的な専門判断と責任は弁護士から外れません。

前例としてよく知られるのが、2023年のMata v. Avianca事件です。ニューヨーク南部地区連邦地裁は、ChatGPTが生成した存在しない判例を提出した弁護士らに対し、5,000ドルの制裁金、依頼者と架空判例に名前を使われた裁判官への通知を命じました。同判決は、AI利用自体を禁じるものではなく、裁判所提出前に真正性を確認する「ゲートキーパー」としての弁護士責任を強調しました。

今回のサリバン・アンド・クロムウェルの書簡も、この流れの延長線上にあります。同事務所は、AI利用前の必須研修、幻覚リスクの説明、AIプログラムから得た回答や判例引用を実質面・非実質面の双方で独立確認する内部規程があったと裁判所に説明しました。それでも誤りは提出書面に入り込みました。ここに、制度設計と現場運用の断層があります。

企業法務と法律事務所への実務的影響

ポリシーだけでは足りない統制

今回の教訓は、AI利用ポリシーの有無では測れません。書簡によれば、同事務所には包括的なポリシーと研修要件があり、AIツールへのアクセスは必須研修の完了を条件としていました。それでも、当該申立の作成過程ではポリシーが守られず、引用確認のレビューも不正確な引用を見抜けませんでした。

法務AIの統制は、三つの層で考える必要があります。第一に、誰がどのAIツールを使えるのかというアクセス管理です。第二に、AIが関与した作業範囲を記録するプロセス管理です。第三に、引用、条文、契約条項、事実認定を公式ソースで照合する品質管理です。ポリシーがあっても、作業履歴が残らず、レビュー担当者がAI関与箇所を知らなければ、検証は形式化します。

特に法律文書では、AIが生成した本文そのものより、AIが提案した引用や要約が危険です。文章表現の修正なら人間が読み返して違和感に気づきやすい一方、判例番号や引用箇所の誤りは、検索・照合しなければ発見できません。見た目の自然さが品質を保証しないため、レビュー手順は「読む」だけでなく「引く」「照らす」「再現する」作業を含むべきです。

Damien Charlotin氏が公開するAI幻覚事件データベースは、裁判所や仲裁機関がAI由来の幻覚を扱った事例を継続的に集計しています。同データベースは、2026年4月時点で1,316件を特定していると表示しており、弁護士、本人訴訟当事者、専門家、裁判官など複数の主体による事例を含みます。すべてが今回のような大手法律事務所の案件ではありませんが、裁判所がAI由来の偽引用を繰り返し目にしていることは明らかです。

日本企業が受け取るべき教訓

日本企業にとっても、この問題は対岸の火事ではありません。契約レビュー、訴訟資料の下書き、デューデリジェンス、社内規程の改定、海外子会社対応など、法務部門で生成AIを使う場面は増えています。外部法律事務所がAIを使うケースも含め、企業側が品質管理をどう求めるかが実務課題になります。

まず、外部弁護士との業務委託条件に、AI利用方針を明記することが考えられます。全面禁止ではなく、秘密情報の入力制限、利用可能ツール、生成物の検証方法、AI関与箇所の記録、ベンダー管理を定める方が現実的です。黙認より、範囲と責任を明文化した方が事故対応も容易になります。

次に、重要文書のレビュー基準を分ける必要があります。社内メモや論点整理であれば、AIは有用な補助線になります。しかし、裁判所、規制当局、取締役会、投資家、取引先へ提出する文書では、引用・数値・固有名詞・日付・条文の独立検証が必須です。AIの利用有無にかかわらず、第三者に出す文書は「根拠に戻れる」状態でなければなりません。

最後に、AIを使う人材教育は、失敗パターンを中心に設計すべきです。良いプロンプトの書き方だけでは、幻覚への耐性は高まりません。実在しない判例、古い法令、文脈を外した引用、似た名前の事件の混同、翻訳による条文ニュアンスの欠落などを、実例ベースで訓練する必要があります。

注意点・展望

今回の問題を「AI禁止」の根拠としてだけ読むのは短絡的です。AIは、論点整理、草案作成、証拠リストの要約、多言語文書の初期把握などで、法務実務の効率を大きく高めます。むしろ重要なのは、AIを検索データベース、若手アソシエイト、翻訳者、要約ツールのどれとして扱っているのかを明確にすることです。役割が曖昧なまま使うと、責任の所在も曖昧になります。

今後、米国の裁判所ではAI利用に関するローカルルールや個別判事の命令がさらに増える可能性があります。開示を求める裁判所、検証証明を求める裁判所、明示的な禁止ではなく責任確認にとどめる裁判所など、運用は分かれるでしょう。企業や法律事務所は、管轄ごとのルールを確認し、AI利用ログと検証記録を残す体制を整える必要があります。

技術面では、法令・判例データベースと連携した検索拡張生成、引用元へのリンク、出典照合、信頼度表示などが改善していくと考えられます。ただし、どれほどツールが進化しても、裁判所に提出する文書の責任は人間の専門家に残ります。AIが法務を変えるほど、最後に問われるのは人間の確認能力です。

まとめ

サリバン・アンド・クロムウェルのAI幻覚問題は、生成AIの失敗談ではなく、専門家組織の検証プロセスの失敗です。トップ法律事務所であっても、研修と規程だけでは、AIが作るもっともらしい誤りを防げないことが示されました。

企業法務が取るべき対応は明確です。AI利用を隠れた作業にせず、使う場面、使わない場面、検証する項目、責任者を明文化することです。生成AIは法務の速度を上げますが、裁判所や市場が評価するのは速度ではなく、根拠に支えられた正確性です。

参考資料:

坂本 亮

テクノロジー・サイエンス

宇宙開発・AI・バイオテクノロジーなど最先端の科学技術を、社会的インパクトの視点から読み解く。技術と倫理の交差点を追い続ける。

関連記事

在宅老後テックの現実、介護不足時代の希望と見落としがちな限界

米国では50歳以上の75%が自宅で老いることを望む一方、介護人材不足と家族介護の負担は深刻化している。見守りセンサー、AI、遠隔医療、ロボットは転倒・服薬・孤独をどこまで補い、何を代替できないのか。市場規模1200億ドルという成長期待の裏側にある設計課題を含め、日本にも通じる在宅老後テックの条件と限界を読み解く。

Wall StreetのAI人員削減で銀行業務はどう再編されるか

Bank of Americaの213,000人、Citiの226,000人、Wells Fargoの205,000人という巨大雇用の現場で、生成AIは営業・審査・コールセンターを再設計し始めました。生産性向上と人員圧縮が同時進行する米銀の構造変化を、銀行開示、規制当局、労働市場データから読み解きます。

AmazonとAnthropic追加出資の本質とAI基盤争奪戦

AmazonがAnthropicに今すぐ50億ドル、将来最大200億ドルを追加投資する契約を発表しました。実態は単なる資本提携ではなく、Anthropicが10年で1000億ドル超をAWSに投じ、最大5ギガワットの計算資源を確保する長期インフラ契約です。米国のAI覇権、独禁当局の視線、Googleとの併用戦略まで解説。

就職難の新卒市場を生き抜く二つの言葉と初期キャリア設計最新戦略

米新卒市場はニューヨーク連銀で失業率5.7%、不完全就業率42.5%と悪化し、Handshakeでも求人15%減・1件当たり応募30%増が続きます。AIで入門業務が縮む時代に、インターン、経験の見せ方、成長思考の「まだ」で初期キャリアを再設計し、初職の勝ち筋を最新データから丁寧に整理して読み解きます。

最新ニュース

在宅老後テックの現実、介護不足時代の希望と見落としがちな限界

米国では50歳以上の75%が自宅で老いることを望む一方、介護人材不足と家族介護の負担は深刻化している。見守りセンサー、AI、遠隔医療、ロボットは転倒・服薬・孤独をどこまで補い、何を代替できないのか。市場規模1200億ドルという成長期待の裏側にある設計課題を含め、日本にも通じる在宅老後テックの条件と限界を読み解く。

イラン核合意とは何か、制限と破綻が招いた中東危機の深層を分析

2015年のイラン核合意は、濃縮度3.67%、低濃縮ウラン300キロ、IAEA監視を柱に核開発を遅らせる枠組みでした。米離脱、イランの段階的違反、国連制裁復活、米イスラエル攻撃後のトランプ政権による新交渉まで、フォルドゥ、アラク、スナップバックの仕組みを踏まえ、制度崩壊と中東危機の構図を詳しく読み解く。

米医療仲裁が肥大化、No Surprises Actの制度的盲点

No Surprises Actは患者を突然の高額請求から守る一方、連邦IDR仲裁は開始以来570万件超の申立へ膨張。医師側の高勝率、QPAをめぐる訴訟、民間保険料への波及、プライベートエクイティ系医師グループの活用実態、議会と裁判所の制度修正論から、米国医療の患者保護と費用抑制のねじれを読み解く。

英国たばこ販売禁止法案、世代別規制が問う公衆衛生と自由の境界線

英国で2009年以降生まれへのたばこ販売を恒久的に禁じる法案が国王裁可待ちとなった。成人喫煙率10.6%、年間8万人死亡、電子たばこ規制を背景に、世代別禁止が公衆衛生、自由、闇市場対策へ及ぼす影響を解説。ニュージーランドの撤回例や英国4地域の執行課題、小売業者への罰金制度も踏まえ、予防国家の広がりを読み解く。

2026年春の火球急増は異常か流星の起源と観測バイアスの限界

2026年3月、欧州の大火球やオハイオの昼間火球、ヒューストンへの隕石落下が続き、NASAは2〜4月の火球シーズン、AMSはQ1の50件超報告イベント40件という異例の偏りを指摘しました。火球は小惑星帯や反太陽点源のどこから来るのか。観測網の拡大と統計の限界を踏まえ、急増の実像を公開データで解説します。