ジャグド・インテリジェンスが変えるAI能力論と雇用論点の再整理
はじめに
AIをめぐる議論では、いまなお「人間並みか、それ未満か」という一本の物差しが使われがちです。しかし、現場で起きていることはもっと入り組んでいます。最新のモデルは、難しい試験や専門的な文章生成では驚くほど高い水準を見せる一方、単純な事実確認や文脈の取り違えで崩れることがあります。この不均一さを指して広がった表現が「ジャグド・インテリジェンス」です。
重要なのは、この言葉が単なる流行語ではない点です。ハーバード大学とBCGの実験、NBERの職場研究、AnthropicやOpenAIの公開評価を並べると、AIの影響は「職業単位」ではなく「タスク単位」で読むべきだと見えてきます。本稿では、ジャグド・インテリジェンスの意味を整理したうえで、AI能力論と雇用論をどう組み替えるべきかを解説します。
用語の出自と問題設定
ジャグド・インテリジェンスという観察
「Artificial Jagged Intelligence(AJI)」という呼び方は、2025年6月公開のLex FridmanポッドキャストでGoogleのスンダー・ピチャイCEOが使い、広く知られるようになりました。ピチャイは、モデルが大きく進歩している一方で、数値ミスや文字数えのような初歩的な課題でつまずく状態をAJIと呼んでいます。研究側では、これをより構造的に「jagged technological frontier」と表現しています。つまり、AIの能力境界は滑らかな直線ではなく、でこぼこした輪郭を持つという見方です。
この整理を強く後押ししたのが、2026年にオンライン公開されたハーバード大学、MIT、ペンシルベニア大学、BCGなどの共同研究です。758人の知識労働者を対象にした事前登録実験では、AIの能力境界の内側にある18の現実的な業務で、AI利用者は未利用者より平均12.2%多くのタスクをこなし、25.1%速く完了しました。ところが、境界の外側に置かれた複雑な管理課題では、AI利用者の正答率が19ポイント低下しました。重要なのは、似たように見える知的作業でも、AIが助けになる仕事と足を引っ張る仕事が同じ職種の中に共存することです。
「人間並み」比較の限界
ここで従来のAI論の弱点が見えてきます。人間の知能を想像すると、読む、書く、計算する、文脈を理解する、といった能力はおおむね相関して伸びます。ところがAIでは、その相関が弱いまま高得点だけが先に立つ場面が珍しくありません。OpenAIが2024年に公開したSimpleQAは、4,326問の短い事実質問で構成されたベンチマークですが、その時点でGPT-4oの正答率は40%未満でした。学術試験や専門試験で高い性能を見せるモデルでも、短い事実質問では簡単に取りこぼすというわけです。
ARC PrizeのARC-AGI-2も同じ示唆を与えます。この評価では、公開評価セット120問を含む全タスクが少なくとも2人の人間に2回以内で解かれており、平均的な受験者スコアは60%でした。他方で、純粋なLLMは0%、推論システムでも一桁台にとどまると説明されています。つまり、人間にとって「常識的に解ける」課題と、AIが安定してこなせる課題はまだ大きく重なっていません。AIを一つのIQで語る発想は、ここで現実に負けます。
なぜ高難度に強く初歩で崩れるのか
ベンチマーク成功と現場失敗の共存
OpenAIはGPT-4公開時点で、同モデルが多くの専門・学術ベンチマークで人間水準の成績を示す一方、「完全には信頼できず」、事実の幻覚や推論ミスを残すと明記しました。内部の敵対的事実評価ではGPT-3.5より40%高いスコアを出したものの、それでも高リスク領域では人手確認が必要だという立場です。ここから分かるのは、能力向上と信頼性向上が同じ速度で進むとは限らないことです。
2025年のOpenAI研究「Why language models hallucinate」は、このズレの理由をさらに踏み込みます。同社は、標準的な学習と評価が「分からない」と言うより「当てにいく」行動を報いるため、モデルが不確実性を認めにくいと説明しました。精度だけを競うスコアボードでは、慎重に保留するモデルより、運よく当たるかもしれない推測型モデルの方が見かけ上は高得点になりやすいからです。ジャグドさは、モデルの中身だけでなく、評価の作り方にも支えられています。
推論能力と検証可能性の非対称
では、なぜ高度な課題に強いのに単純な課題で崩れるのでしょうか。ひとつの答えは、出力の検証可能性です。正解が明確で、自動採点しやすく、反復試行しやすい領域では、モデルは急激に伸びやすい傾向があります。逆に、正解が一つに定まりにくく、必要な前提知識が暗黙的で、失敗の理由も見えにくい仕事では、性能が不安定になります。
NBERのジョシュア・ガンズによる2026年の論文は、この現象を「利用者が局所的な信頼性を知りたいのに、実際に得られるのは粗い全体評価だけ」という情報問題として定式化しました。平均的な性能が上がっても、どの近傍で誤るかが分からなければ、現場では安心して委任できません。ジャグド・インテリジェンスとは、能力の不足だけではなく、信頼できる範囲が地図化されていない状態でもあるのです。
仕事への影響を読む視点
置き換えよりタスク分解
この見方に立つと、AIが「仕事を奪うか」という問いも立て直しが必要です。NBERの代表的研究「Generative AI at Work」では、5,179人のカスタマーサポート担当者にAI支援を導入した結果、平均生産性は14%上昇し、特に初心者や低技能の労働者では34%の改善が見られました。ここで起きていたのは、職種の丸ごとの代替というより、応答文作成やナレッジ検索のような部分工程の高速化です。ベストプラクティスの共有装置としてAIが働いた、と読む方が正確です。
2025年のNBER研究「Shifting Work Patterns with Generative AI」も、より現実的な補助線を与えます。66社・7,137人の知識労働者を対象にした実験では、AIツールを頻繁に使った労働者はメール処理時間が週2時間減り、時間外労働も減りました。しかし、仕事全体の量や構成がすぐ大きく変わったわけではありません。AIはまず、個人が単独で変えられる工程を圧縮し、組織的な役割分担の再設計までは直ちには進めない、という結果です。
境界の外側で起きる逆回転
一方で、境界の外側では逆のことが起きます。先述のハーバード大学とBCGの研究では、能力境界の外に置かれた管理課題でAI利用者の正答率が大きく落ちました。METRが2025年に公開した実験でも、経験豊富なオープンソース開発者16人が自分のリポジトリで実課題に取り組んだところ、AI利用時は完了まで19%長くかかりました。開発者自身は速くなったと感じていたのに、実測値は逆でした。
この差は示唆的です。コード生成のようにAIが得意そうに見える領域でも、実務では仕様の暗黙知、レビュー文化、テスト、依存関係、既存設計との整合性といった隠れた要件が大量にあります。つまり「書けること」と「責任を持って仕上げられること」は別です。AIの影響を読むときは、職種名よりも、成果物がどこまで検証可能で、例外処理や責任所在がどこに残るかを見る必要があります。
導入判断の実務設計
自動化より検証可能性
Anthropicの2026年1月レポートは、Claude.aiでの利用の52%が補完型、45%が自動化型だったと報告しています。API側では、コンピュータ・数学関連タスクが52%、Claude.aiでは36%で、APIの方がよりプログラム的で委任しやすい仕事に偏っていました。さらにOffice & Administrative系タスクもAPI側で15%と、Claude.aiの8%を大きく上回ります。ここから読めるのは、AIが先に深く入り込むのは、成果物の評価基準が比較的明確で、処理の分割がしやすいワークフローだということです。
同年3月のAnthropicレポートでは、Claude.aiの上位10タスク比率が24%から19%へ低下し、利用がやや多様化した一方、約49%の職業で少なくとも4分の1のタスクがClaudeで実行された経験があると整理されました。ただし、これは「半分の職業が半分自動化された」という意味ではありません。タスクに触れたことと、安定して代替できることは別だからです。Anthropic自身も、実効的なAIカバレッジを考えるなら、タスクの頻度や成功率を織り込む必要があると述べています。
人間の役割再配置
雇用全体の見通しも、同じ前提で読む必要があります。世界経済フォーラムの2025年報告では、2030年までに1億7,000万件の新規雇用が生まれる一方、9,200万件が失われ、差し引き7,800万件増えるとされました。同時に、AIの自動化を受けて41%の雇用主が人員削減を計画し、77%はアップスキリングを計画していると答えています。これは「AIが雇用を増やす」「AIが雇用を奪う」という二者択一ではなく、仕事の中身が再配分されるという理解に近い数字です。
ILOの2025年アップデートも慎重です。約3万タスクを使う精緻化手法で推計した結果、平均自動化スコアは2023年の0.30から2025年は0.29へやや低下しました。生成AIの潜在力を過小評価する必要はありませんが、単純な全面代替論も支持していません。実際に伸びるのは、課題設定、文脈の投入、結果の検証、例外の処理、そして複数工程の最終責任を引き受ける役割です。AI時代の人間の価値は、手を動かすことそのものより、境界条件を設計することに移っていきます。
注意点・展望
ジャグド・インテリジェンスをめぐる最大の誤解は、「AIが一度できたことは、周辺業務もすぐ安定してできる」と考えることです。実際には、近いように見える業務でも必要な前提、評価方法、失敗コストが違えば性能は跳ねます。だから企業の導入判断では、職種単位の導入率より、工程ごとの検証可能性、失敗時のリカバリー費用、責任の所在を先に棚卸しすべきです。
その一方で、ジャグドさは固定ではありません。Anthropicの継続レポートが示すように、利用者の習熟やモデル選択の最適化だけでも成功率は変わります。モデル更新で境界が外側へ広がることも続くでしょう。ただし、平均性能の向上がそのまま現場の信頼性に転化するとは限りません。今後の争点は「どこまで賢いか」より、「どこまで地図化され、監査できるか」に移るはずです。
まとめ
ジャグド・インテリジェンスは、AIを過大評価も過小評価もしないための有効な視点です。AIは人間のように均質に賢くなるのではなく、特定の課題で鋭く突き抜け、隣の課題であっさり崩れることがあります。したがって、AI論の中心に置くべき問いは、「人間並みか」ではなく、「どのタスクで、どの条件下なら、どれだけ信頼して任せられるか」です。
雇用への影響も同じです。消える職業の一覧を競うより、仕事をタスクへ分解し、AIが内側にいる工程、まだ外側にある工程、常に人間が責任を持つ工程を切り分ける方が実務に役立ちます。AI導入を検討する組織ほど、モデルの性能表ではなく、自社業務のジャグドな地図を作ることから始めるべきです。
参考資料:
- Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of Artificial Intelligence on Knowledge Worker Productivity and Quality
- Transcript for Sundar Pichai: CEO of Google and Alphabet | Lex Fridman Podcast #471
- Generative AI at Work | NBER
- Shifting Work Patterns with Generative AI | NBER
- A Model of Artificial Jagged Intelligence | NBER
- Anthropic Economic Index report: Economic primitives
- Anthropic Economic Index report: Learning curves
- Introducing SimpleQA | OpenAI
- Why language models hallucinate | OpenAI
- GPT-4 | OpenAI
- ARC-AGI-2
- Generative AI and jobs: A 2025 update | International Labour Organization
- Future of Jobs Report 2025: 78 Million New Job Opportunities by 2030 but Urgent Upskilling Needed to Prepare Workforces | World Economic Forum
- Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity | METR
テクノロジー・サイエンス
宇宙開発・AI・バイオテクノロジーなど最先端の科学技術を、社会的インパクトの視点から読み解く。技術と倫理の交差点を追い続ける。
関連記事
AI雇用論の転換点 エコノミストが仕事喪失を警戒し始めた理由
AIと雇用を結ぶ証拠が理論から実測へ移るなかで強まる政策準備不足への警戒
AIで変わるシリコンバレー 雇用再編と仕事設計の新現実を読む
AI導入が先行する米テック企業で進む採用抑制、職務再設計、開発現場の実務変化の全体像
AIモデル事前審査へ揺れる米政権とサイバー安全保障政策の境界線
トランプ政権がAIモデルの公開前審査を検討する背景には、AnthropicのMythosが示した脆弱性探索能力と、国防・政府調達でのAI利用拡大があります。規制緩和路線との矛盾、CAISIや英国AISI、EU AI法との違い、企業の競争圧力と日本への示唆も踏まえ、安全保障型AI統治の行方を詳しく解説。
AI企業は「善良」でいられるか 利益と倫理が衝突する構造的矛盾
Anthropicが国防総省との対立で連邦政府から排除され、OpenAIは非営利から公益法人への転換を完了した。AI企業は善良さと利益を本当に両立できるのか。安全政策の後退、安全責任者の辞任、巨額著作権訴訟が相次ぐ中、AI産業が直面する倫理的課題と公益法人という企業形態の構造的限界を技術と社会の交差点から読み解く。
OpenAI新GPT-5.5が映すAI競争とサイバー防衛の再設計
OpenAIが4月23日に公開したGPT-5.5は、Terminal-Bench 2.0で82.7%、OSWorld-Verifiedで78.7%を記録しつつ、サイバー能力をHigh扱いで一般展開しました。限定公開のAnthropic Mythosと何が違うのか。性能、価格、安全策、企業導入への含意を読み解きます。
最新ニュース
中絶薬ミフェプリストン最高裁再燃、遠隔処方と全米アクセス争点
米最高裁は中絶薬ミフェプリストンの郵送・遠隔処方規制を一時停止した。ルイジアナ州訴訟はFDAのREMS変更、13州の全面禁止、シールド法による越境診療を直撃する。2024年判決の原告適格論と行政国家への司法介入を踏まえ、患者、医師、州政府に及ぶ実務リスクと全米アクセスの行方、今後の焦点を詳しく読み解く。
オルフィン系オピオイドの脅威、米国検査網の死角と地域防衛策を問う
米国でbrorphineやcychlorphineなどオルフィン系合成オピオイドの検出が拡大。フェンタニル検査紙では拾えず、テネシーや中西部で死者が相次ぐ背景、規制回避型市場と検査格差、支援情報から取り残される人々の課題、低所得層や住居不安定層に重なるリスク、地域で必要な薬物チェック・ナロキソン・治療接続を解説。
強いエルニーニョ発生へ、温暖化で変わる世界の豪雨熱波と最新の備え
NOAAは2026年夏にエルニーニョが発生する確率を61%、冬に非常に強くなる可能性を4分の1程度と見込む。気象庁も夏の発生可能性70%を示した。温暖化で海と大気の基準線が上がる中、ENSOの仕組み、春予測の不確実性、豪雨、熱波、台風、農業、経済への影響と日本の気候リスク管理を最新資料から詳しく解説。
AIモデル事前審査へ揺れる米政権とサイバー安全保障政策の境界線
トランプ政権がAIモデルの公開前審査を検討する背景には、AnthropicのMythosが示した脆弱性探索能力と、国防・政府調達でのAI利用拡大があります。規制緩和路線との矛盾、CAISIや英国AISI、EU AI法との違い、企業の競争圧力と日本への示唆も踏まえ、安全保障型AI統治の行方を詳しく解説。
風力タービンは本当にレーダーを乱すのか米国防衛と再エネの論点
米国で風力発電の審査遅延が広がる中、タービンの回転翼が軍事・航空・気象レーダーに与える干渉を検証。DOD、DOE、NOAA、MITの資料を基に、誤検知や探知感度低下の仕組み、FAA審査、ソフト更新や配置変更で管理する現実、トランプ政権下で安全保障論点が政治化する構図、防衛任務と再エネ拡大を両立させる条件まで解説。