ジャグド・インテリジェンスが変えるAI能力論と雇用論点の再整理
はじめに
AIをめぐる議論では、いまなお「人間並みか、それ未満か」という一本の物差しが使われがちです。しかし、現場で起きていることはもっと入り組んでいます。最新のモデルは、難しい試験や専門的な文章生成では驚くほど高い水準を見せる一方、単純な事実確認や文脈の取り違えで崩れることがあります。この不均一さを指して広がった表現が「ジャグド・インテリジェンス」です。
重要なのは、この言葉が単なる流行語ではない点です。ハーバード大学とBCGの実験、NBERの職場研究、AnthropicやOpenAIの公開評価を並べると、AIの影響は「職業単位」ではなく「タスク単位」で読むべきだと見えてきます。本稿では、ジャグド・インテリジェンスの意味を整理したうえで、AI能力論と雇用論をどう組み替えるべきかを解説します。
用語の出自と問題設定
ジャグド・インテリジェンスという観察
「Artificial Jagged Intelligence(AJI)」という呼び方は、2025年6月公開のLex FridmanポッドキャストでGoogleのスンダー・ピチャイCEOが使い、広く知られるようになりました。ピチャイは、モデルが大きく進歩している一方で、数値ミスや文字数えのような初歩的な課題でつまずく状態をAJIと呼んでいます。研究側では、これをより構造的に「jagged technological frontier」と表現しています。つまり、AIの能力境界は滑らかな直線ではなく、でこぼこした輪郭を持つという見方です。
この整理を強く後押ししたのが、2026年にオンライン公開されたハーバード大学、MIT、ペンシルベニア大学、BCGなどの共同研究です。758人の知識労働者を対象にした事前登録実験では、AIの能力境界の内側にある18の現実的な業務で、AI利用者は未利用者より平均12.2%多くのタスクをこなし、25.1%速く完了しました。ところが、境界の外側に置かれた複雑な管理課題では、AI利用者の正答率が19ポイント低下しました。重要なのは、似たように見える知的作業でも、AIが助けになる仕事と足を引っ張る仕事が同じ職種の中に共存することです。
「人間並み」比較の限界
ここで従来のAI論の弱点が見えてきます。人間の知能を想像すると、読む、書く、計算する、文脈を理解する、といった能力はおおむね相関して伸びます。ところがAIでは、その相関が弱いまま高得点だけが先に立つ場面が珍しくありません。OpenAIが2024年に公開したSimpleQAは、4,326問の短い事実質問で構成されたベンチマークですが、その時点でGPT-4oの正答率は40%未満でした。学術試験や専門試験で高い性能を見せるモデルでも、短い事実質問では簡単に取りこぼすというわけです。
ARC PrizeのARC-AGI-2も同じ示唆を与えます。この評価では、公開評価セット120問を含む全タスクが少なくとも2人の人間に2回以内で解かれており、平均的な受験者スコアは60%でした。他方で、純粋なLLMは0%、推論システムでも一桁台にとどまると説明されています。つまり、人間にとって「常識的に解ける」課題と、AIが安定してこなせる課題はまだ大きく重なっていません。AIを一つのIQで語る発想は、ここで現実に負けます。
なぜ高難度に強く初歩で崩れるのか
ベンチマーク成功と現場失敗の共存
OpenAIはGPT-4公開時点で、同モデルが多くの専門・学術ベンチマークで人間水準の成績を示す一方、「完全には信頼できず」、事実の幻覚や推論ミスを残すと明記しました。内部の敵対的事実評価ではGPT-3.5より40%高いスコアを出したものの、それでも高リスク領域では人手確認が必要だという立場です。ここから分かるのは、能力向上と信頼性向上が同じ速度で進むとは限らないことです。
2025年のOpenAI研究「Why language models hallucinate」は、このズレの理由をさらに踏み込みます。同社は、標準的な学習と評価が「分からない」と言うより「当てにいく」行動を報いるため、モデルが不確実性を認めにくいと説明しました。精度だけを競うスコアボードでは、慎重に保留するモデルより、運よく当たるかもしれない推測型モデルの方が見かけ上は高得点になりやすいからです。ジャグドさは、モデルの中身だけでなく、評価の作り方にも支えられています。
推論能力と検証可能性の非対称
では、なぜ高度な課題に強いのに単純な課題で崩れるのでしょうか。ひとつの答えは、出力の検証可能性です。正解が明確で、自動採点しやすく、反復試行しやすい領域では、モデルは急激に伸びやすい傾向があります。逆に、正解が一つに定まりにくく、必要な前提知識が暗黙的で、失敗の理由も見えにくい仕事では、性能が不安定になります。
NBERのジョシュア・ガンズによる2026年の論文は、この現象を「利用者が局所的な信頼性を知りたいのに、実際に得られるのは粗い全体評価だけ」という情報問題として定式化しました。平均的な性能が上がっても、どの近傍で誤るかが分からなければ、現場では安心して委任できません。ジャグド・インテリジェンスとは、能力の不足だけではなく、信頼できる範囲が地図化されていない状態でもあるのです。
仕事への影響を読む視点
置き換えよりタスク分解
この見方に立つと、AIが「仕事を奪うか」という問いも立て直しが必要です。NBERの代表的研究「Generative AI at Work」では、5,179人のカスタマーサポート担当者にAI支援を導入した結果、平均生産性は14%上昇し、特に初心者や低技能の労働者では34%の改善が見られました。ここで起きていたのは、職種の丸ごとの代替というより、応答文作成やナレッジ検索のような部分工程の高速化です。ベストプラクティスの共有装置としてAIが働いた、と読む方が正確です。
2025年のNBER研究「Shifting Work Patterns with Generative AI」も、より現実的な補助線を与えます。66社・7,137人の知識労働者を対象にした実験では、AIツールを頻繁に使った労働者はメール処理時間が週2時間減り、時間外労働も減りました。しかし、仕事全体の量や構成がすぐ大きく変わったわけではありません。AIはまず、個人が単独で変えられる工程を圧縮し、組織的な役割分担の再設計までは直ちには進めない、という結果です。
境界の外側で起きる逆回転
一方で、境界の外側では逆のことが起きます。先述のハーバード大学とBCGの研究では、能力境界の外に置かれた管理課題でAI利用者の正答率が大きく落ちました。METRが2025年に公開した実験でも、経験豊富なオープンソース開発者16人が自分のリポジトリで実課題に取り組んだところ、AI利用時は完了まで19%長くかかりました。開発者自身は速くなったと感じていたのに、実測値は逆でした。
この差は示唆的です。コード生成のようにAIが得意そうに見える領域でも、実務では仕様の暗黙知、レビュー文化、テスト、依存関係、既存設計との整合性といった隠れた要件が大量にあります。つまり「書けること」と「責任を持って仕上げられること」は別です。AIの影響を読むときは、職種名よりも、成果物がどこまで検証可能で、例外処理や責任所在がどこに残るかを見る必要があります。
導入判断の実務設計
自動化より検証可能性
Anthropicの2026年1月レポートは、Claude.aiでの利用の52%が補完型、45%が自動化型だったと報告しています。API側では、コンピュータ・数学関連タスクが52%、Claude.aiでは36%で、APIの方がよりプログラム的で委任しやすい仕事に偏っていました。さらにOffice & Administrative系タスクもAPI側で15%と、Claude.aiの8%を大きく上回ります。ここから読めるのは、AIが先に深く入り込むのは、成果物の評価基準が比較的明確で、処理の分割がしやすいワークフローだということです。
同年3月のAnthropicレポートでは、Claude.aiの上位10タスク比率が24%から19%へ低下し、利用がやや多様化した一方、約49%の職業で少なくとも4分の1のタスクがClaudeで実行された経験があると整理されました。ただし、これは「半分の職業が半分自動化された」という意味ではありません。タスクに触れたことと、安定して代替できることは別だからです。Anthropic自身も、実効的なAIカバレッジを考えるなら、タスクの頻度や成功率を織り込む必要があると述べています。
人間の役割再配置
雇用全体の見通しも、同じ前提で読む必要があります。世界経済フォーラムの2025年報告では、2030年までに1億7,000万件の新規雇用が生まれる一方、9,200万件が失われ、差し引き7,800万件増えるとされました。同時に、AIの自動化を受けて41%の雇用主が人員削減を計画し、77%はアップスキリングを計画していると答えています。これは「AIが雇用を増やす」「AIが雇用を奪う」という二者択一ではなく、仕事の中身が再配分されるという理解に近い数字です。
ILOの2025年アップデートも慎重です。約3万タスクを使う精緻化手法で推計した結果、平均自動化スコアは2023年の0.30から2025年は0.29へやや低下しました。生成AIの潜在力を過小評価する必要はありませんが、単純な全面代替論も支持していません。実際に伸びるのは、課題設定、文脈の投入、結果の検証、例外の処理、そして複数工程の最終責任を引き受ける役割です。AI時代の人間の価値は、手を動かすことそのものより、境界条件を設計することに移っていきます。
注意点・展望
ジャグド・インテリジェンスをめぐる最大の誤解は、「AIが一度できたことは、周辺業務もすぐ安定してできる」と考えることです。実際には、近いように見える業務でも必要な前提、評価方法、失敗コストが違えば性能は跳ねます。だから企業の導入判断では、職種単位の導入率より、工程ごとの検証可能性、失敗時のリカバリー費用、責任の所在を先に棚卸しすべきです。
その一方で、ジャグドさは固定ではありません。Anthropicの継続レポートが示すように、利用者の習熟やモデル選択の最適化だけでも成功率は変わります。モデル更新で境界が外側へ広がることも続くでしょう。ただし、平均性能の向上がそのまま現場の信頼性に転化するとは限りません。今後の争点は「どこまで賢いか」より、「どこまで地図化され、監査できるか」に移るはずです。
まとめ
ジャグド・インテリジェンスは、AIを過大評価も過小評価もしないための有効な視点です。AIは人間のように均質に賢くなるのではなく、特定の課題で鋭く突き抜け、隣の課題であっさり崩れることがあります。したがって、AI論の中心に置くべき問いは、「人間並みか」ではなく、「どのタスクで、どの条件下なら、どれだけ信頼して任せられるか」です。
雇用への影響も同じです。消える職業の一覧を競うより、仕事をタスクへ分解し、AIが内側にいる工程、まだ外側にある工程、常に人間が責任を持つ工程を切り分ける方が実務に役立ちます。AI導入を検討する組織ほど、モデルの性能表ではなく、自社業務のジャグドな地図を作ることから始めるべきです。
参考資料:
- Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of Artificial Intelligence on Knowledge Worker Productivity and Quality
- Transcript for Sundar Pichai: CEO of Google and Alphabet | Lex Fridman Podcast #471
- Generative AI at Work | NBER
- Shifting Work Patterns with Generative AI | NBER
- A Model of Artificial Jagged Intelligence | NBER
- Anthropic Economic Index report: Economic primitives
- Anthropic Economic Index report: Learning curves
- Introducing SimpleQA | OpenAI
- Why language models hallucinate | OpenAI
- GPT-4 | OpenAI
- ARC-AGI-2
- Generative AI and jobs: A 2025 update | International Labour Organization
- Future of Jobs Report 2025: 78 Million New Job Opportunities by 2030 but Urgent Upskilling Needed to Prepare Workforces | World Economic Forum
- Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity | METR
関連記事
AI雇用論の転換点 エコノミストが仕事喪失を警戒し始めた理由
AIと雇用を結ぶ証拠が理論から実測へ移るなかで強まる政策準備不足への警戒
AIで変わるシリコンバレー 雇用再編と仕事設計の新現実を読む
AI導入が先行する米テック企業で進む採用抑制、職務再設計、開発現場の実務変化の全体像
AIが生むコードの洪水、企業が直面する新たな技術的負債
AI生成コードが全体の4割超に到達、セキュリティと品質管理の課題
AIがサイバーセキュリティを根本から変える攻防の最前線
AI技術の進化がサイバー攻撃と防御の両面を加速させる新時代の到来
AI巨額調達競争が映す資本集中と計算資源争奪の新局面とは何か
OpenAI、Anthropic、Waymo、xAIの大型調達が示すAI投資ブームの実態
最新ニュース
米大学院向け学生ローン新規制で広がる資金格差と私的借入の実態
2026年7月に米国で大学院向けGrad PLUSが新規停止となり、修士は年2万500ドル・総額10万ドル、専門職でも年5万ドル上限へ。MBA、MPH、MSW、DPT、PAなど高額課程ほど私的ローン依存が強まり、固定金利と返済保護のある連邦融資から信用審査や連帯保証人を要する民間融資へ移る構図を制度と大学試算から解説。
ライブネーション独占評決で問われる興行と券売り支配の全体構図
Live NationとTicketmasterへの独占評決は、80%以上とされた券売り支配、13件の独占的契約解消、手数料上限15%という司法省和解を同時に読む必要があります。会場囲い込みがどう続き、州訴訟だけが評決まで進んだのか、音楽業界の勢力図変化、ファン負担、今後の規制論点を丁寧に読み解く。
トランプ政権のFRB介入は難航、パウエル残留と法廷リスクの行方
トランプ政権がFRBへの影響力拡大を狙っても、パウエル議長の理事任期は2028年1月まで残り、後任ケビン・ウォーシュ氏の承認公聴会も2026年4月21日に控えます。最高裁はFedを他の独立機関と別扱いする姿勢を示し、政策金利も3.5%〜3.75%で据え置かれました。人事、司法、制度設計の三重の壁を読み解きます。
ガソリン高騰局面で比較するEV11車種と中古市場の賢い選び方
米国では2026年4月初旬のレギュラーガソリン全国平均が1ガロン4.08ドルまで上昇しました。一方で中古EVは2025年販売が前年比35%増、在庫の56%が3万ドル未満です。連邦税額控除終了後でも検討余地が残る背景を、電池交換率4%未満の実態、家庭充電の利点、注目11車種の特性とあわせて丁寧に読み解きます。
AmazonのGlobalstar買収 D2D衛星通信再編の核心
AmazonがGlobalstar買収で狙うのは、MSSライセンス、Band n53、Apple向け衛星機能、D2D市場への参入時間の短縮です。SEC開示の1株90ドル条件、2027年完了見通し、2028年開始予定のAmazon Leo D2D、Starlink先行下でなお残る打ち上げ制約まで解説。