NewsAngle
NewsAngle

ジャグド・インテリジェンスが変えるAI能力論と雇用論点の再整理

by 坂本 亮
URLをコピーしました

はじめに

AIをめぐる議論では、いまなお「人間並みか、それ未満か」という一本の物差しが使われがちです。しかし、現場で起きていることはもっと入り組んでいます。最新のモデルは、難しい試験や専門的な文章生成では驚くほど高い水準を見せる一方、単純な事実確認や文脈の取り違えで崩れることがあります。この不均一さを指して広がった表現が「ジャグド・インテリジェンス」です。

重要なのは、この言葉が単なる流行語ではない点です。ハーバード大学とBCGの実験、NBERの職場研究、AnthropicやOpenAIの公開評価を並べると、AIの影響は「職業単位」ではなく「タスク単位」で読むべきだと見えてきます。本稿では、ジャグド・インテリジェンスの意味を整理したうえで、AI能力論と雇用論をどう組み替えるべきかを解説します。

用語の出自と問題設定

ジャグド・インテリジェンスという観察

「Artificial Jagged Intelligence(AJI)」という呼び方は、2025年6月公開のLex FridmanポッドキャストでGoogleのスンダー・ピチャイCEOが使い、広く知られるようになりました。ピチャイは、モデルが大きく進歩している一方で、数値ミスや文字数えのような初歩的な課題でつまずく状態をAJIと呼んでいます。研究側では、これをより構造的に「jagged technological frontier」と表現しています。つまり、AIの能力境界は滑らかな直線ではなく、でこぼこした輪郭を持つという見方です。

この整理を強く後押ししたのが、2026年にオンライン公開されたハーバード大学、MIT、ペンシルベニア大学、BCGなどの共同研究です。758人の知識労働者を対象にした事前登録実験では、AIの能力境界の内側にある18の現実的な業務で、AI利用者は未利用者より平均12.2%多くのタスクをこなし、25.1%速く完了しました。ところが、境界の外側に置かれた複雑な管理課題では、AI利用者の正答率が19ポイント低下しました。重要なのは、似たように見える知的作業でも、AIが助けになる仕事と足を引っ張る仕事が同じ職種の中に共存することです。

「人間並み」比較の限界

ここで従来のAI論の弱点が見えてきます。人間の知能を想像すると、読む、書く、計算する、文脈を理解する、といった能力はおおむね相関して伸びます。ところがAIでは、その相関が弱いまま高得点だけが先に立つ場面が珍しくありません。OpenAIが2024年に公開したSimpleQAは、4,326問の短い事実質問で構成されたベンチマークですが、その時点でGPT-4oの正答率は40%未満でした。学術試験や専門試験で高い性能を見せるモデルでも、短い事実質問では簡単に取りこぼすというわけです。

ARC PrizeのARC-AGI-2も同じ示唆を与えます。この評価では、公開評価セット120問を含む全タスクが少なくとも2人の人間に2回以内で解かれており、平均的な受験者スコアは60%でした。他方で、純粋なLLMは0%、推論システムでも一桁台にとどまると説明されています。つまり、人間にとって「常識的に解ける」課題と、AIが安定してこなせる課題はまだ大きく重なっていません。AIを一つのIQで語る発想は、ここで現実に負けます。

なぜ高難度に強く初歩で崩れるのか

ベンチマーク成功と現場失敗の共存

OpenAIはGPT-4公開時点で、同モデルが多くの専門・学術ベンチマークで人間水準の成績を示す一方、「完全には信頼できず」、事実の幻覚や推論ミスを残すと明記しました。内部の敵対的事実評価ではGPT-3.5より40%高いスコアを出したものの、それでも高リスク領域では人手確認が必要だという立場です。ここから分かるのは、能力向上と信頼性向上が同じ速度で進むとは限らないことです。

2025年のOpenAI研究「Why language models hallucinate」は、このズレの理由をさらに踏み込みます。同社は、標準的な学習と評価が「分からない」と言うより「当てにいく」行動を報いるため、モデルが不確実性を認めにくいと説明しました。精度だけを競うスコアボードでは、慎重に保留するモデルより、運よく当たるかもしれない推測型モデルの方が見かけ上は高得点になりやすいからです。ジャグドさは、モデルの中身だけでなく、評価の作り方にも支えられています。

推論能力と検証可能性の非対称

では、なぜ高度な課題に強いのに単純な課題で崩れるのでしょうか。ひとつの答えは、出力の検証可能性です。正解が明確で、自動採点しやすく、反復試行しやすい領域では、モデルは急激に伸びやすい傾向があります。逆に、正解が一つに定まりにくく、必要な前提知識が暗黙的で、失敗の理由も見えにくい仕事では、性能が不安定になります。

NBERのジョシュア・ガンズによる2026年の論文は、この現象を「利用者が局所的な信頼性を知りたいのに、実際に得られるのは粗い全体評価だけ」という情報問題として定式化しました。平均的な性能が上がっても、どの近傍で誤るかが分からなければ、現場では安心して委任できません。ジャグド・インテリジェンスとは、能力の不足だけではなく、信頼できる範囲が地図化されていない状態でもあるのです。

仕事への影響を読む視点

置き換えよりタスク分解

この見方に立つと、AIが「仕事を奪うか」という問いも立て直しが必要です。NBERの代表的研究「Generative AI at Work」では、5,179人のカスタマーサポート担当者にAI支援を導入した結果、平均生産性は14%上昇し、特に初心者や低技能の労働者では34%の改善が見られました。ここで起きていたのは、職種の丸ごとの代替というより、応答文作成やナレッジ検索のような部分工程の高速化です。ベストプラクティスの共有装置としてAIが働いた、と読む方が正確です。

2025年のNBER研究「Shifting Work Patterns with Generative AI」も、より現実的な補助線を与えます。66社・7,137人の知識労働者を対象にした実験では、AIツールを頻繁に使った労働者はメール処理時間が週2時間減り、時間外労働も減りました。しかし、仕事全体の量や構成がすぐ大きく変わったわけではありません。AIはまず、個人が単独で変えられる工程を圧縮し、組織的な役割分担の再設計までは直ちには進めない、という結果です。

境界の外側で起きる逆回転

一方で、境界の外側では逆のことが起きます。先述のハーバード大学とBCGの研究では、能力境界の外に置かれた管理課題でAI利用者の正答率が大きく落ちました。METRが2025年に公開した実験でも、経験豊富なオープンソース開発者16人が自分のリポジトリで実課題に取り組んだところ、AI利用時は完了まで19%長くかかりました。開発者自身は速くなったと感じていたのに、実測値は逆でした。

この差は示唆的です。コード生成のようにAIが得意そうに見える領域でも、実務では仕様の暗黙知、レビュー文化、テスト、依存関係、既存設計との整合性といった隠れた要件が大量にあります。つまり「書けること」と「責任を持って仕上げられること」は別です。AIの影響を読むときは、職種名よりも、成果物がどこまで検証可能で、例外処理や責任所在がどこに残るかを見る必要があります。

導入判断の実務設計

自動化より検証可能性

Anthropicの2026年1月レポートは、Claude.aiでの利用の52%が補完型、45%が自動化型だったと報告しています。API側では、コンピュータ・数学関連タスクが52%、Claude.aiでは36%で、APIの方がよりプログラム的で委任しやすい仕事に偏っていました。さらにOffice & Administrative系タスクもAPI側で15%と、Claude.aiの8%を大きく上回ります。ここから読めるのは、AIが先に深く入り込むのは、成果物の評価基準が比較的明確で、処理の分割がしやすいワークフローだということです。

同年3月のAnthropicレポートでは、Claude.aiの上位10タスク比率が24%から19%へ低下し、利用がやや多様化した一方、約49%の職業で少なくとも4分の1のタスクがClaudeで実行された経験があると整理されました。ただし、これは「半分の職業が半分自動化された」という意味ではありません。タスクに触れたことと、安定して代替できることは別だからです。Anthropic自身も、実効的なAIカバレッジを考えるなら、タスクの頻度や成功率を織り込む必要があると述べています。

人間の役割再配置

雇用全体の見通しも、同じ前提で読む必要があります。世界経済フォーラムの2025年報告では、2030年までに1億7,000万件の新規雇用が生まれる一方、9,200万件が失われ、差し引き7,800万件増えるとされました。同時に、AIの自動化を受けて41%の雇用主が人員削減を計画し、77%はアップスキリングを計画していると答えています。これは「AIが雇用を増やす」「AIが雇用を奪う」という二者択一ではなく、仕事の中身が再配分されるという理解に近い数字です。

ILOの2025年アップデートも慎重です。約3万タスクを使う精緻化手法で推計した結果、平均自動化スコアは2023年の0.30から2025年は0.29へやや低下しました。生成AIの潜在力を過小評価する必要はありませんが、単純な全面代替論も支持していません。実際に伸びるのは、課題設定、文脈の投入、結果の検証、例外の処理、そして複数工程の最終責任を引き受ける役割です。AI時代の人間の価値は、手を動かすことそのものより、境界条件を設計することに移っていきます。

注意点・展望

ジャグド・インテリジェンスをめぐる最大の誤解は、「AIが一度できたことは、周辺業務もすぐ安定してできる」と考えることです。実際には、近いように見える業務でも必要な前提、評価方法、失敗コストが違えば性能は跳ねます。だから企業の導入判断では、職種単位の導入率より、工程ごとの検証可能性、失敗時のリカバリー費用、責任の所在を先に棚卸しすべきです。

その一方で、ジャグドさは固定ではありません。Anthropicの継続レポートが示すように、利用者の習熟やモデル選択の最適化だけでも成功率は変わります。モデル更新で境界が外側へ広がることも続くでしょう。ただし、平均性能の向上がそのまま現場の信頼性に転化するとは限りません。今後の争点は「どこまで賢いか」より、「どこまで地図化され、監査できるか」に移るはずです。

まとめ

ジャグド・インテリジェンスは、AIを過大評価も過小評価もしないための有効な視点です。AIは人間のように均質に賢くなるのではなく、特定の課題で鋭く突き抜け、隣の課題であっさり崩れることがあります。したがって、AI論の中心に置くべき問いは、「人間並みか」ではなく、「どのタスクで、どの条件下なら、どれだけ信頼して任せられるか」です。

雇用への影響も同じです。消える職業の一覧を競うより、仕事をタスクへ分解し、AIが内側にいる工程、まだ外側にある工程、常に人間が責任を持つ工程を切り分ける方が実務に役立ちます。AI導入を検討する組織ほど、モデルの性能表ではなく、自社業務のジャグドな地図を作ることから始めるべきです。

参考資料:

坂本 亮

テクノロジー・サイエンス

宇宙開発・AI・バイオテクノロジーなど最先端の科学技術を、社会的インパクトの視点から読み解く。技術と倫理の交差点を追い続ける。

関連記事

Anthropic上場申請が映すAI株式市場の評価転換と資金競争

AnthropicがSECへS-1草案を非公開提出し、9650億ドル評価のAI大手がIPO市場の主役に浮上。Claude Codeの収益力、AWSとの計算資本、公開株投資家が問う利益率、非公開申請で見えない価格決定や顧客集中リスク、OpenAIとの上場競争を米株市場の資金配分から実務的に詳しく読み解く。

AIスーパーPAC対決が映す米中間選挙と規制攻防の深層構造を読む

OpenAI幹部らが支えるLeading the FutureとAnthropic系Public Firstが、2026年米中間選挙でAI規制を争点化。FEC資料や各団体の政策文書、州AI法の動向から、巨額資金が候補者選び、連邦一元規制、AI安全策に与える影響を読み解き、投資家と有権者の注視点も整理する。

AIで解雇しない工場改革、シュナイダー流の生産性戦略を読み解く

シュナイダー・エレクトリックはAIを解雇の道具ではなく、製造現場と供給網の生産性を高める仕組みとして展開しています。14万人規模のAI研修、年間750万件の顧客対応、在庫10%削減、武漢工場の離職率改善などの事例を、WEFやILOの雇用調査と照合し、人を残すAI導入の条件と限界を現実的に深く読み解く。

最新ニュース

ディープフェイク時代、揺らぐ視覚証拠とAI鑑識の新社会防衛線

AI生成動画と音声の精度向上で、目視による真偽判断は限界に近づいています。Hany Farid氏のデジタル鑑識研究、C2PAや透かしの課題、選挙・詐欺・性的ディープフェイク被害の実例から、現実を共有する仕組みの再設計とニュース現場・企業・個人の確認手順、検出器に頼り切らない社会防衛実務までを読み解く。

日独再軍備が映す戦後秩序転換と欧州・インド太平洋安保の新連携

第二次大戦から80年を経て、ドイツと日本は防衛費拡大、NATO・インド太平洋連携、長射程兵器整備を同時に進める。ドイツの1000億ユーロ基金、日本のGDP2%方針を手がかりに、ロシアの侵攻、中国の圧力、北朝鮮のミサイル、米国の同盟運営の変化が両国を抑止重視へ動かす構図と民主的統制の課題の深層を読み解く。

皇室養子案で揺れる日本、女性天皇論と男系継承の国会協議の焦点

皇位継承資格者が秋篠宮さま、悠仁さま、常陸宮さまの3人に限られる中、国会は旧宮家男系男子の養子案を軸に制度改正を探る。共同通信調査で女性天皇支持90%が示された世論との距離、皇室典範が定める男系男子・養子禁止・女性皇族離脱の制約、皇族数減少の構造、愛子さま人気が映す象徴天皇制の現在を丁寧に読み解く。

Anthropic規制で露呈したトランプ政権AI統治の矛盾構図

トランプ政権がAnthropicのFable 5とMythos 5に外国人アクセス規制を発動した。90分通告、Amazon報告、輸出管理の「みなし輸出」、カナダや欧州の反応を検証し、安全保障と産業政策が先端AI市場をどう再編するかを読み解く。日本企業が調達・契約・法務で備える実務上の具体策まで解説。

英国軍のロシア影の船団タンカー拿捕が示す欧州対露制裁の新段階

英国軍が英仏海峡でロシアの影の船団タンカー「Smyrtos」を拿捕した。油価上限をすり抜ける老朽船団、曖昧な旗国、海洋インフラ防衛が交差する今回の作戦は、欧州の対露制裁が金融措置から海上での実力執行へ移る転換点だ。ロンドン、EU、NATOの狙いと、インド・中国向け輸送網に及ぶ今後の政策リスクを読み解く。