OpenAI新GPT-5.5が映すAI競争とサイバー防衛の再設計
はじめに
OpenAIが2026年4月23日に公開したGPT-5.5は、単なる性能更新ではありません。公開資料を読むと、同社はこのモデルを「より賢い対話AI」としてではなく、コードを書き、資料を調べ、表計算を作り、複数のツールをまたいで仕事を完了するための実務基盤として位置づけています。焦点は、回答の巧拙よりも「曖昧な依頼を受けて、どこまで仕事を前に進められるか」に移りました。
この発表が重要なのは、性能競争と安全保障競争が同じ土俵に載ったからです。OpenAIはGPT-5.5のサイバー能力をPreparedness Framework上でHighと位置づけながら、一般有料ユーザー向けに展開しました。一方でAnthropicは、より強いサイバー能力を持つClaude Mythos Previewを限定公開し、別系統の検証プログラムで使い道を絞っています。この記事では、GPT-5.5の実力、OpenAIとAnthropicの戦略差、そして企業や研究現場に生じる意味を整理します。
GPT-5.5で動いた競争軸の変化
ベンチマークより重要な作業完遂力
OpenAIの発表資料では、GPT-5.5はTerminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%、OSWorld-Verifiedで78.7%、GDPvalで84.9%を記録しました。Claude Opus 4.7との比較では、Terminal-Bench 2.0で69.4%、OSWorld-Verifiedで78.0%、GDPvalで80.3%とされており、OpenAIはコーディングと知的労働の両方で優位を打ち出しています。数字そのもの以上に重要なのは、評価軸が「会話の自然さ」から「長い手順を自律的に進める能力」へ移っている点です。
発表文の記述もその方向を裏づけます。GPT-5.5は、書く、調べる、分析する、ソフトを操作するといった作業を一つの流れとして扱い、途中で道具を使い、誤りを確認しながら最後まで進むモデルとして説明されています。つまりOpenAIは、モデル単体の知能ではなく、仕事の完遂率を売る段階へ入ったのです。これは検索、表計算、IDE、社内データなどを横断する「作業OS」としてAIを売る構図に近い変化です。
OpenAI自身も、その変化を社内運用で示しています。公開文書では、社内の85%以上が毎週Codexを使っていると説明され、財務、広報、プロダクト運営まで用途が広がっているとされます。AIが一部の開発者向け補助ツールから、ホワイトカラー業務全体の共通レイヤーへ広がりつつあることを示す材料です。
価格表が示す効率重視の設計
ただし、この進化は無料ではありません。OpenAIはGPT-5.5をAPIで近く提供し、価格を入力100万トークンあたり5ドル、出力100万トークンあたり30ドル、上位のgpt-5.5-proを30ドルと180ドルに設定すると明らかにしました。前世代より高価ですが、同社はトークン効率が大きく改善したと説明しています。
独立系のArtificial Analysisも同じ方向の評価を示しています。同社はGPT-5.5が同社のIntelligence Indexで首位に立った一方、トークン単価の上昇を40%前後の出力量削減がかなり吸収し、総コスト増はおおむね20%にとどまると分析しました。ここで見えるのは、OpenAIが「高性能化」と「推論コスト抑制」を同時に進め、企業導入の採算ラインを死守しようとしていることです。
対照的にAnthropicは、一般公開したClaude Opus 4.7を入力5ドル、出力25ドルに据えつつ、より強力なMythos Previewは入力25ドル、出力125ドルの研究プレビューとして扱っています。OpenAIは広く配って実使用から学ぶ路線、Anthropicは高リスク能力を別枠に隔離して試験する路線です。価格差は単なる収益設計ではなく、どの能力をどこまで社会に流すかというガバナンスの違いを映しています。
サイバー防衛で分かれた公開戦略
OpenAIの本人確認付き拡大型
今回の発表で最も特徴的なのは、OpenAIがGPT-5.5のサイバー能力を隠さず、むしろ防衛用途への展開方針を前面に出したことです。発表文では、GPT-5.5の生物・化学とサイバーの能力をHighに分類しつつ、Criticalには達していないと説明しました。そのうえで、広い公開を支える条件として、認証済み利用、監視、厳しい分類器、反復的な安全策の改善を挙げています。
特に重要なのがTrusted Access for Cyberの設計です。OpenAIは4月14日の説明文で、この仕組みを数千人規模の認証済み防御者と数百チームへ広げると明言しました。さらに、正当な防御者のアクセスを中央で恣意的に決めるのではなく、本人確認やtrust signalsのような客観的指標で広げる方針を示しています。公開資料を比較すると、OpenAIが言う「開かれた姿勢」とは、モデルの重みを公開することではなく、防御目的の利用者を広く受け入れる運用上の開放性を指します。
その姿勢は周辺制度にも表れています。3月にはSecurity Bug Bountyに加えてSafety Bug Bountyを始め、AI特有の乱用や安全性上の問題も外部研究者から受け付ける体制を整えました。協調的脆弱性開示ポリシーでも、脆弱性、バグ、安全上の問題、乱用リスクを報告対象に含めています。加えてCodex Securityでは、直近30日で120万超のコミットを走査し、792件の重大脆弱性と1万561件の高深刻度所見を検出したと公表しました。モデル、製品、防御コミュニティ、報告制度を束ねて一つの防衛エコシステムを作ろうとしているわけです。
Anthropicの限定公開と検証先行型
Anthropicは同じ問題を、より慎重な順序で扱っています。4月7日の技術ブログでは、Claude Mythos Previewが主要OSや主要ブラウザーでゼロデイを発見し、攻撃コード化まで進められるほど強いと説明しました。しかも、未修正の脆弱性が99%超を占めるため詳細公表を抑える必要があるとも書いています。ここから見えるのは、Anthropicが危険情報の拡散コストをかなり重く見ていることです。
そのためAnthropicはMythosを一般配備せず、Project Glasswingの参加者向けに絞った研究プレビューにしました。公開ページによれば、AWS、Apple、Cisco、Google、Microsoft、Linux Foundationなどを含む立ち上げ参加者に加え、40を超える追加組織へもアクセスを広げ、1億ドルの利用クレジットと400万ドルの寄付を投じています。それでもアクセスは「gated research preview」のままで、誰でも使える製品にはしていません。
さらに一般公開されたClaude Opus 4.7でも、AnthropicはMythosのような強いサイバー能力は載せず、高リスク用途を自動検知・遮断する安全策を前提にしました。正当なセキュリティ専門家にはCyber Verification Program経由で利用を認めると説明しています。Responsible Scaling Policyでも、能力が危険域を超えた場合に備えた段階的な管理を明確にしています。つまりAnthropicは、強い能力を先に守りのサンドボックスへ閉じ込め、そこから徐々に社会実装する設計です。
ここで注意したいのは、Anthropicが不透明だという意味ではない点です。技術ブログ、System Card、RSP、Transparency Hubなど公開文書はむしろ厚い部類です。差は透明性の量より、配備の開放度にあります。OpenAIは「広く出し、認証と監視で守る」。Anthropicは「まず限って出し、検証後に広げる」。NYTの要約が示した対比は、公開資料だけを見ても大筋では妥当だといえます。
企業導入と研究現場への波及
開発部門で起きる内製化の前倒し
企業にとってGPT-5.5の意味は、単に開発速度が少し上がることではありません。Terminal-BenchやOSWorldのような評価で差が出ているのは、複数工程をまたぐ実務の自動化です。仕様理解、コード修正、検証、資料作成、ログ確認まで一気通貫で処理できるなら、これまで外注していた定型保守、一次分析、社内オペレーションの一部は内製化しやすくなります。
OpenAIが防衛用途を同時に押し出しているのも合理的です。生成AIがソフト開発を加速させるほど、セキュリティレビューはボトルネックになります。だから同社はGPT-5.5の発表と前後して、Codex Security、Trusted Access for Cyber、外部研究者向けの報奨制度を束ねています。攻撃能力の上昇を前提に、防御側の生産性を先に引き上げることで、社会的受容性を確保しようとしているのです。
ただし企業側の導入論点は、性能だけでは済みません。OpenAIはGPT-5.5のAPI提供を「very soon」としつつ、現時点でAPIには別の安全要件が必要だとしています。これは大企業が欲しがる本格導入ほど、監査、ログ、本人確認、用途制限、第三者プラットフォーム経由の可視性といった統制が重くなることを意味します。今後の競争は、モデルの賢さだけでなく、企業が安心して接続できる統制基盤の厚みで決まるはずです。
科学研究で広がる補助線と検証負荷
GPT-5.5のもう一つの含意は、科学研究の補助者としての実用域が広がったことです。OpenAIはGeneBenchやBixBenchでの改善、数学証明や遺伝子発現データ解析の事例を示し、科学者の探索ループを短縮できると訴えています。これは坂本亮氏の専門領域でもある「科学技術の社会的インパクト」という視点から見れば、研究の生産性を上げるだけでなく、研究費配分や人材育成の前提を揺らす変化です。
一方で、独立ベンチマークには不穏な含みもあります。Artificial AnalysisはGPT-5.5の知識精度向上を評価しつつ、幻覚率ではClaude Opus 4.7やGemini 3.1 Pro Previewに見劣りすると報告しました。研究補助に強いモデルほど、もっともらしい誤りが研究者の時間を奪う危険も増します。AIが下書き、仮説生成、コード実装を担うほど、人間の仕事は「最終判断」ではなく「中間検証」の密度を上げる方向へ移ります。
注意点・展望
よくある誤解は、OpenAIが安全性より拡大を優先し、Anthropicが安全性を優先していると単純化することです。実際には両社とも防衛用途を強く重視し、外部評価、脆弱性開示、政府機関や重要インフラとの連携を進めています。違うのは、安全性をどの段階で社会に埋め込むかという順序です。OpenAIは実運用の広がりから学び、Anthropicは能力隔離から学ぶ構えです。
今後の焦点は三つあります。第一に、OpenAIがAPI提供開始後も現在の安全策を維持できるかです。第二に、AnthropicがMythos級の能力をどの条件で一般市場へ下ろすかです。第三に、各国の規制や政府調達が「誰に、どのレベルのサイバーAIを使わせるか」という認証インフラの標準を作るかどうかです。モデル競争は、性能ランキングの争いから、社会が危険な能力をどう流通させるかという制度設計の争いへ移っています。
まとめ
GPT-5.5が示した本質は、OpenAIがAIをチャット製品ではなく、仕事を完了する汎用作業基盤として売り始めたことです。Terminal-Bench 2.0で82.7%、OSWorld-Verifiedで78.7%という数字は、その変化の表札にすぎません。実際の争点は、強いモデルを誰に、どの条件で、どこまで開くかにあります。
公開資料を踏まえると、OpenAIは本人確認と監視を前提に広く使わせる拡大型、Anthropicは強い能力を限定公開で囲い込む検証先行型です。どちらが正しいかはまだ決まっていません。ただし一つ確かなのは、AI競争の勝者は高いベンチマークを出した企業ではなく、強い能力を社会に接続する制度まで設計できた企業になるということです。読者がこのニュースを見るときは、モデル名よりも、その配り方と守り方に注目すべきです。
参考資料:
- Introducing GPT-5.5 | OpenAI
- GPT-5.5 System Card | OpenAI
- Our updated Preparedness Framework | OpenAI
- Introducing the OpenAI Safety Bug Bounty program | OpenAI
- Coordinated vulnerability disclosure policy | OpenAI
- Trusted access for the next era of cyber defense | OpenAI
- Accelerating the cyber defense ecosystem that protects us all | OpenAI
- Codex Security: now in research preview | OpenAI
- OpenAI’s GPT-5.5 is the new leading AI model | Artificial Analysis
- Introducing Claude Opus 4.7 | Anthropic
- Assessing Claude Mythos Preview’s cybersecurity capabilities | Anthropic
- Anthropic’s Responsible Scaling Policy | Anthropic
- Project Glasswing | Anthropic
テクノロジー・サイエンス
宇宙開発・AI・バイオテクノロジーなど最先端の科学技術を、社会的インパクトの視点から読み解く。技術と倫理の交差点を追い続ける。
関連記事
AIがサイバーセキュリティを根本から変える攻防の最前線
AI技術の進化がサイバー攻撃と防御の両面を加速させる新時代の到来
Anthropicとホワイトハウスの対話 AI安全保障の分岐点
ホワイトハウス首席補佐官とベッセント財務長官がAnthropicのアモデイCEOと「生産的」な会談を実施。ゼロデイ脆弱性を大量に発見する新AIモデル「Mythos」の政府利用を巡り、国防総省による前例のない「サプライチェーンリスク」指定と法廷闘争が続く中で歩み寄りの兆しが見えた背景と今後の展望を読み解く。
ジャグド・インテリジェンスが変えるAI能力論と雇用論点の再整理
AIは人間並みかという問いでは、仕事への影響を読み違えます。ハーバードとBCGの758人実験、NBERの職場研究、Anthropic・ILO・WEF・OpenAIの公開データ、SimpleQAやARC-AGI-2の評価を横断し、能力のムラ、現場導入の条件、置き換わる業務と残る人間の役割を読み解きます。
Anthropic非公開判断が示すAI安全保障競争の危うい新局面
Claude Mythos非公開の背景にある攻防両用AI、サイバー防衛と規制の時間差
AIが生むコードの洪水、企業が直面する新たな技術的負債
AI生成コードが全体の4割超に到達、セキュリティと品質管理の課題
最新ニュース
中国人民元圏は米制裁を越えるかイラン戦争が促す通貨戦略の再編
中国は2024年の人民元クロスボーダー収支を64.1兆元まで伸ばし、CIPSの参加機関も2026年4月時点で1791先に拡大した。イラン原油取引への米制裁、ロシア向け二次制裁、貿易金融での人民元シェア上昇は何を意味するのか。ドル決済網を握る米国の強制力と、中国が築く代替インフラの実力、限界、日本企業への含意を読み解く。
認知症リスクが指摘される4薬剤群と中高年の安全な見直し実践策
抗コリン薬や膀胱治療薬、ベンゾジアゼピン、Z薬は、認知症との関連が繰り返し報告されています。JAMA、BMJ Medicine、2023年Beers Criteriaなどを基に、薬剤群ごとの関連の強弱、因果関係が未確定な理由、市販薬を含む服薬見直し手順、医師に相談すべき代替策の考え方まで具体的に解説。
401kに広がる未公開資産と暗号資産の恩恵とリスクの全貌と構図
トランプ政権は2025年の大統領令と2026年の労働省案で、401(k)に未公開株やプライベートクレジット、暗号資産を組み込みやすくしました。だが401(k)資産10兆ドルを支える加入者にとっては、流動性不足、評価の難しさ、高コスト、詐欺やハッキングの危険が残ります。制度変更の核心と家計防衛の視点を解説。
トランプ政権の帰化取り消し拡大で問われる米市民権の境界線問題
米司法省は2025年6月、帰化取り消しを民事部門の重点課題に格上げし、同年9月には1月20日以降9件目の訴訟を公表、2026年も性犯罪、詐欺、戦争犯罪案件を連続提起しました。2024年度に81万8500人が新たに市民権を得た米国で、最高裁が求める厳格立証と民事手続きゆえの無償弁護不在が何を意味するのかを解説。
在宅老後テックの現実、介護不足時代の希望と見落としがちな限界
米国では50歳以上の75%が自宅で老いることを望む一方、介護人材不足と家族介護の負担は深刻化している。見守りセンサー、AI、遠隔医療、ロボットは転倒・服薬・孤独をどこまで補い、何を代替できないのか。市場規模1200億ドルという成長期待の裏側にある設計課題を含め、日本にも通じる在宅老後テックの条件と限界を読み解く。