NewsAngle

NewsAngle

Anthropic非公開判断が示すAI安全保障競争の危うい新局面

by YOUR_NAME
URLをコピーしました

はじめに

Anthropicが最新の高性能モデルを一般公開せず、限定的な防御目的の枠組みに閉じ込めた判断は、単なる企業の慎重姿勢ではありません。むしろ、生成AIの能力向上が、公開の常識や規制の準備速度を追い越し始めたことを示す重要なシグナルです。注目すべきなのは、問題が「便利すぎるAI」ではなく、「攻撃と防御の両方を加速させるAI」に移っている点です。

Anthropicは4月7日に公表したProject Glasswingで、未公開モデル「Claude Mythos Preview」が主要なOSやブラウザー全体で高深刻度の脆弱性を多数見つけたと説明しました。しかも、一般公開ではなく、AWSやGoogle、Microsoft、Linux Foundationなどを含む限定参加者に絞って運用しています。この記事では、この非公開判断がなぜ重いのか、企業の自主規律、サイバー防衛、雇用や産業への広がりをつなげて整理します。

非公開判断が示す能力閾値

数年単位ではなく数カ月単位で進む能力向上

Anthropicの説明でまず重いのは、Mythos Previewが「最も熟練した人間を除けば上回り得る」水準の脆弱性発見とエクスプロイト開発能力を見せたという点です。Project Glasswingでは、主要OSと主要ブラウザーの全てで脆弱性を見つけ、OpenBSDの27年前の欠陥やLinuxカーネルの権限昇格経路まで発見したとされています。Frontier Red Teamの技術ブログでは、ブラウザーのサンドボックス突破を含む高度な exploit 生成にも触れており、研究室のデモを超えた実務水準に近づいていることがうかがえます。

さらに重要なのは、Anthropic自身が「こうした能力は今後数カ月でさらに広がる」と見ていることです。ここでの警告は、遠い将来のSF的リスクではありません。数年後ではなく、数カ月単位で防御側の備えを更新しなければならない局面に入ったという認識です。国際AI安全性報告書2026も、AIは脆弱性探索と悪性コード生成で急速に能力を高めており、ある競技では実ソフトの脆弱性の77%をAIエージェントが特定したと整理しています。Anthropicの判断は、この国際評価と整合的です。

公開より限定配布を選んだ理由

AnthropicはMythos Previewを一般提供せず、40超の組織と主要パートナーに限定し、最大1億ドル分の利用クレジットと400万ドルのオープンソース支援を付けました。これは「売らない」というより、「先に防御用途で社会実装し、危険な出力を止める仕組みを整えるまで拡散を遅らせる」判断です。公開より先にパートナー実証を置いたこと自体が、従来のモデル公開競争とは違う段階に入った証拠です。

この判断が示すのは、性能そのものよりも、配布管理が製品戦略の中心に移ったということです。かつては「性能が高いほど早く広く出す」が成長物語でした。しかし攻撃能力を持つモデルでは、誰に、何の用途で、どの監視の下に渡すかが本体になります。Anthropicが今後のOpus系モデルで新しい safeguards を先に試すと述べているのも、その延長線上にあります。

ガバナンスが追いつかない構造

企業の自主ルールが実質インフラ化する現実

Anthropicは2026年2月にResponsible Scaling Policy 3.0を全面改定し、4月2日に3.1へ更新しました。その中では、モデルがAI研究開発を大きく加速しうる閾値に近づくほど、評価や停止判断が難しくなることを自ら認めています。2月10日の更新では、Claude Opus 4.6はAI R&D-4閾値を超えないと判断しつつも、それを自信を持って否定すること自体が難しくなっていると説明しました。

ここで見えるのは、法規制より前に企業内部のルールが実質的な安全装置になっている現実です。もちろん自主規制には限界があります。評価基準の設計者、実施者、商用化の意思決定者が同じ企業に属するからです。それでも現時点では、危険能力の初動管理を最も具体的に行っているのは各社の system card や RSP であり、公的制度はその後追いです。これは安心材料ではなく、むしろ制度空白の表れです。

防御と攻撃が同じ能力で進む現実

問題をさらに難しくするのは、サイバー領域で有益能力と危険能力がほぼ同じ源泉から生まれる点です。脆弱性を見つける力は、守る側には修正の加速、攻める側には侵入の自動化をもたらします。AnthropicがOpus 4.6向けに六つの新たなサイバー悪用検知プローブを導入したのは、この両義性を認めた対応です。

加えて、能力普及の速度も見逃せません。Anthropicの2026年3月のEconomic Indexでは、Claudeは既に「49%の職業で少なくとも4分の1のタスクに使われた実績がある」と報告されています。これは危険能力だけが特別な場所に閉じ込められているわけではなく、高性能モデルの基盤そのものが急速に経済へ浸透していることを示します。つまり、企業が1モデルを止めても、より広い技術基盤の普及は続くということです。

注意点・展望

この話題で避けたい誤解は二つあります。第一に、Anthropicが慎重だから安全だと考えることです。実際には、慎重さそのものが危険水準の上昇を示している可能性があります。第二に、非公開なら問題が消えると考えることです。Project Glasswingの文脈でも、Anthropicは同種能力の拡散が近い将来に起こる前提で動いています。

今後の焦点は三つです。第一に、危険能力を測る評価が第三者にも検証可能かどうかです。第二に、防御目的の限定配布が本当に漏えい・転用を防げるかです。第三に、各社の自主ルールを越えて、政府や標準化団体が最低限の共通基準を作れるかです。サイバー分野では、遅い規制は無規制に近い結果を生みます。だからAnthropicの非公開判断は、安心のニュースというより、準備時間が短いという警報として読むべきです。

まとめ

AnthropicがMythos級モデルを一般公開しなかったのは、企業イメージのための慎重論ではなく、AIが攻撃能力を含むインフラ技術へ変わったことの表れです。モデル性能の競争は続きますが、これからの本当の争点は、公開前に何を測り、どこまで止め、誰に先に使わせるかに移ります。

読者にとって重要なのは、AIの危険が「いつか来る話」ではなく、既に製品公開の判断を変える段階に入っていると理解することです。今後は新モデルのベンチマークだけでなく、system card、限定配布条件、悪用検知策、第三者検証の有無まで確認する視点が欠かせません。

参考資料:

関連記事

最新ニュース