OpenAI新GPT-5.5が映すAI競争とサイバー防衛の再設計

はじめに

OpenAIが2026年4月23日に公開したGPT-5.5は、単なる性能更新ではありません。公開資料を読むと、同社はこのモデルを「より賢い対話AI」としてではなく、コードを書き、資料を調べ、表計算を作り、複数のツールをまたいで仕事を完了するための実務基盤として位置づけています。焦点は、回答の巧拙よりも「曖昧な依頼を受けて、どこまで仕事を前に進められるか」に移りました。

この発表が重要なのは、性能競争と安全保障競争が同じ土俵に載ったからです。OpenAIはGPT-5.5のサイバー能力をPreparedness Framework上でHighと位置づけながら、一般有料ユーザー向けに展開しました。一方でAnthropicは、より強いサイバー能力を持つClaude Mythos Previewを限定公開し、別系統の検証プログラムで使い道を絞っています。この記事では、GPT-5.5の実力、OpenAIとAnthropicの戦略差、そして企業や研究現場に生じる意味を整理します。

GPT-5.5で動いた競争軸の変化

ベンチマークより重要な作業完遂力

OpenAIの発表資料では、GPT-5.5はTerminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%、OSWorld-Verifiedで78.7%、GDPvalで84.9%を記録しました。Claude Opus 4.7との比較では、Terminal-Bench 2.0で69.4%、OSWorld-Verifiedで78.0%、GDPvalで80.3%とされており、OpenAIはコーディングと知的労働の両方で優位を打ち出しています。数字そのもの以上に重要なのは、評価軸が「会話の自然さ」から「長い手順を自律的に進める能力」へ移っている点です。

発表文の記述もその方向を裏づけます。GPT-5.5は、書く、調べる、分析する、ソフトを操作するといった作業を一つの流れとして扱い、途中で道具を使い、誤りを確認しながら最後まで進むモデルとして説明されています。つまりOpenAIは、モデル単体の知能ではなく、仕事の完遂率を売る段階へ入ったのです。これは検索、表計算、IDE、社内データなどを横断する「作業OS」としてAIを売る構図に近い変化です。

OpenAI自身も、その変化を社内運用で示しています。公開文書では、社内の85%以上が毎週Codexを使っていると説明され、財務、広報、プロダクト運営まで用途が広がっているとされます。AIが一部の開発者向け補助ツールから、ホワイトカラー業務全体の共通レイヤーへ広がりつつあることを示す材料です。

価格表が示す効率重視の設計

ただし、この進化は無料ではありません。OpenAIはGPT-5.5をAPIで近く提供し、価格を入力100万トークンあたり5ドル、出力100万トークンあたり30ドル、上位のgpt-5.5-proを30ドルと180ドルに設定すると明らかにしました。前世代より高価ですが、同社はトークン効率が大きく改善したと説明しています。

独立系のArtificial Analysisも同じ方向の評価を示しています。同社はGPT-5.5が同社のIntelligence Indexで首位に立った一方、トークン単価の上昇を40%前後の出力量削減がかなり吸収し、総コスト増はおおむね20%にとどまると分析しました。ここで見えるのは、OpenAIが「高性能化」と「推論コスト抑制」を同時に進め、企業導入の採算ラインを死守しようとしていることです。

対照的にAnthropicは、一般公開したClaude Opus 4.7を入力5ドル、出力25ドルに据えつつ、より強力なMythos Previewは入力25ドル、出力125ドルの研究プレビューとして扱っています。OpenAIは広く配って実使用から学ぶ路線、Anthropicは高リスク能力を別枠に隔離して試験する路線です。価格差は単なる収益設計ではなく、どの能力をどこまで社会に流すかというガバナンスの違いを映しています。

サイバー防衛で分かれた公開戦略

OpenAIの本人確認付き拡大型

今回の発表で最も特徴的なのは、OpenAIがGPT-5.5のサイバー能力を隠さず、むしろ防衛用途への展開方針を前面に出したことです。発表文では、GPT-5.5の生物・化学とサイバーの能力をHighに分類しつつ、Criticalには達していないと説明しました。そのうえで、広い公開を支える条件として、認証済み利用、監視、厳しい分類器、反復的な安全策の改善を挙げています。

特に重要なのがTrusted Access for Cyberの設計です。OpenAIは4月14日の説明文で、この仕組みを数千人規模の認証済み防御者と数百チームへ広げると明言しました。さらに、正当な防御者のアクセスを中央で恣意的に決めるのではなく、本人確認やtrust signalsのような客観的指標で広げる方針を示しています。公開資料を比較すると、OpenAIが言う「開かれた姿勢」とは、モデルの重みを公開することではなく、防御目的の利用者を広く受け入れる運用上の開放性を指します。

その姿勢は周辺制度にも表れています。3月にはSecurity Bug Bountyに加えてSafety Bug Bountyを始め、AI特有の乱用や安全性上の問題も外部研究者から受け付ける体制を整えました。協調的脆弱性開示ポリシーでも、脆弱性、バグ、安全上の問題、乱用リスクを報告対象に含めています。加えてCodex Securityでは、直近30日で120万超のコミットを走査し、792件の重大脆弱性と1万561件の高深刻度所見を検出したと公表しました。モデル、製品、防御コミュニティ、報告制度を束ねて一つの防衛エコシステムを作ろうとしているわけです。

Anthropicの限定公開と検証先行型

Anthropicは同じ問題を、より慎重な順序で扱っています。4月7日の技術ブログでは、Claude Mythos Previewが主要OSや主要ブラウザーでゼロデイを発見し、攻撃コード化まで進められるほど強いと説明しました。しかも、未修正の脆弱性が99%超を占めるため詳細公表を抑える必要があるとも書いています。ここから見えるのは、Anthropicが危険情報の拡散コストをかなり重く見ていることです。

そのためAnthropicはMythosを一般配備せず、Project Glasswingの参加者向けに絞った研究プレビューにしました。公開ページによれば、AWS、Apple、Cisco、Google、Microsoft、Linux Foundationなどを含む立ち上げ参加者に加え、40を超える追加組織へもアクセスを広げ、1億ドルの利用クレジットと400万ドルの寄付を投じています。それでもアクセスは「gated research preview」のままで、誰でも使える製品にはしていません。

さらに一般公開されたClaude Opus 4.7でも、AnthropicはMythosのような強いサイバー能力は載せず、高リスク用途を自動検知・遮断する安全策を前提にしました。正当なセキュリティ専門家にはCyber Verification Program経由で利用を認めると説明しています。Responsible Scaling Policyでも、能力が危険域を超えた場合に備えた段階的な管理を明確にしています。つまりAnthropicは、強い能力を先に守りのサンドボックスへ閉じ込め、そこから徐々に社会実装する設計です。

ここで注意したいのは、Anthropicが不透明だという意味ではない点です。技術ブログ、System Card、RSP、Transparency Hubなど公開文書はむしろ厚い部類です。差は透明性の量より、配備の開放度にあります。OpenAIは「広く出し、認証と監視で守る」。Anthropicは「まず限って出し、検証後に広げる」。NYTの要約が示した対比は、公開資料だけを見ても大筋では妥当だといえます。

企業導入と研究現場への波及

開発部門で起きる内製化の前倒し

企業にとってGPT-5.5の意味は、単に開発速度が少し上がることではありません。Terminal-BenchやOSWorldのような評価で差が出ているのは、複数工程をまたぐ実務の自動化です。仕様理解、コード修正、検証、資料作成、ログ確認まで一気通貫で処理できるなら、これまで外注していた定型保守、一次分析、社内オペレーションの一部は内製化しやすくなります。

OpenAIが防衛用途を同時に押し出しているのも合理的です。生成AIがソフト開発を加速させるほど、セキュリティレビューはボトルネックになります。だから同社はGPT-5.5の発表と前後して、Codex Security、Trusted Access for Cyber、外部研究者向けの報奨制度を束ねています。攻撃能力の上昇を前提に、防御側の生産性を先に引き上げることで、社会的受容性を確保しようとしているのです。

ただし企業側の導入論点は、性能だけでは済みません。OpenAIはGPT-5.5のAPI提供を「very soon」としつつ、現時点でAPIには別の安全要件が必要だとしています。これは大企業が欲しがる本格導入ほど、監査、ログ、本人確認、用途制限、第三者プラットフォーム経由の可視性といった統制が重くなることを意味します。今後の競争は、モデルの賢さだけでなく、企業が安心して接続できる統制基盤の厚みで決まるはずです。

科学研究で広がる補助線と検証負荷

GPT-5.5のもう一つの含意は、科学研究の補助者としての実用域が広がったことです。OpenAIはGeneBenchやBixBenchでの改善、数学証明や遺伝子発現データ解析の事例を示し、科学者の探索ループを短縮できると訴えています。これは坂本亮氏の専門領域でもある「科学技術の社会的インパクト」という視点から見れば、研究の生産性を上げるだけでなく、研究費配分や人材育成の前提を揺らす変化です。

一方で、独立ベンチマークには不穏な含みもあります。Artificial AnalysisはGPT-5.5の知識精度向上を評価しつつ、幻覚率ではClaude Opus 4.7やGemini 3.1 Pro Previewに見劣りすると報告しました。研究補助に強いモデルほど、もっともらしい誤りが研究者の時間を奪う危険も増します。AIが下書き、仮説生成、コード実装を担うほど、人間の仕事は「最終判断」ではなく「中間検証」の密度を上げる方向へ移ります。

注意点・展望

よくある誤解は、OpenAIが安全性より拡大を優先し、Anthropicが安全性を優先していると単純化することです。実際には両社とも防衛用途を強く重視し、外部評価、脆弱性開示、政府機関や重要インフラとの連携を進めています。違うのは、安全性をどの段階で社会に埋め込むかという順序です。OpenAIは実運用の広がりから学び、Anthropicは能力隔離から学ぶ構えです。

今後の焦点は三つあります。第一に、OpenAIがAPI提供開始後も現在の安全策を維持できるかです。第二に、AnthropicがMythos級の能力をどの条件で一般市場へ下ろすかです。第三に、各国の規制や政府調達が「誰に、どのレベルのサイバーAIを使わせるか」という認証インフラの標準を作るかどうかです。モデル競争は、性能ランキングの争いから、社会が危険な能力をどう流通させるかという制度設計の争いへ移っています。

まとめ

GPT-5.5が示した本質は、OpenAIがAIをチャット製品ではなく、仕事を完了する汎用作業基盤として売り始めたことです。Terminal-Bench 2.0で82.7%、OSWorld-Verifiedで78.7%という数字は、その変化の表札にすぎません。実際の争点は、強いモデルを誰に、どの条件で、どこまで開くかにあります。

公開資料を踏まえると、OpenAIは本人確認と監視を前提に広く使わせる拡大型、Anthropicは強い能力を限定公開で囲い込む検証先行型です。どちらが正しいかはまだ決まっていません。ただし一つ確かなのは、AI競争の勝者は高いベンチマークを出した企業ではなく、強い能力を社会に接続する制度まで設計できた企業になるということです。読者がこのニュースを見るときは、モデル名よりも、その配り方と守り方に注目すべきです。

参考資料:

NewsAngle

OpenAI新GPT-5.5が映すAI競争とサイバー防衛の再設計

はじめに

GPT-5.5で動いた競争軸の変化

ベンチマークより重要な作業完遂力

価格表が示す効率重視の設計

サイバー防衛で分かれた公開戦略

OpenAIの本人確認付き拡大型

Anthropicの限定公開と検証先行型

企業導入と研究現場への波及

開発部門で起きる内製化の前倒し

科学研究で広がる補助線と検証負荷

注意点・展望

まとめ

関連記事

AIがサイバーセキュリティを根本から変える攻防の最前線

OpenAIとAnthropic、米AI規制を動かすロビー攻防

AIモデル事前審査へ揺れる米政権とサイバー安全保障政策の境界線

Mythos衝撃が変えたサイバーセキュリティの常識

AI企業は「善良」でいられるか利益と倫理が衝突する構造的矛盾

最新ニュース

中国レアアース規制が握るトランプ対中外交の主導権争いと新焦点

ゴールデンドーム1.2兆ドル試算が問う宇宙ミサイル防衛の現実

OpenAIとAnthropic、米AI規制を動かすロビー攻防

Polymarket疑惑が映す予測市場の内部情報規制の新局面

米国学力低下の深層、世代を超える成績後退と格差拡大の重い実像

はじめに

GPT-5.5で動いた競争軸の変化

ベンチマークより重要な作業完遂力

価格表が示す効率重視の設計

サイバー防衛で分かれた公開戦略

OpenAIの本人確認付き拡大型

Anthropicの限定公開と検証先行型

企業導入と研究現場への波及

開発部門で起きる内製化の前倒し

科学研究で広がる補助線と検証負荷

注意点・展望

まとめ

関連記事

AIがサイバーセキュリティを根本から変える攻防の最前線

OpenAIとAnthropic、米AI規制を動かすロビー攻防

AIモデル事前審査へ揺れる米政権とサイバー安全保障政策の境界線

Mythos衝撃が変えたサイバーセキュリティの常識

AI企業は「善良」でいられるか 利益と倫理が衝突する構造的矛盾

最新ニュース

中国レアアース規制が握るトランプ対中外交の主導権争いと新焦点

ゴールデンドーム1.2兆ドル試算が問う宇宙ミサイル防衛の現実

OpenAIとAnthropic、米AI規制を動かすロビー攻防

Polymarket疑惑が映す予測市場の内部情報規制の新局面

米国学力低下の深層、世代を超える成績後退と格差拡大の重い実像

AI企業は「善良」でいられるか利益と倫理が衝突する構造的矛盾