NewsAngle
NewsAngle

ジャグド・インテリジェンスが変えるAI能力論と雇用論点の再整理

by 坂本 亮
URLをコピーしました

ジャグド・インテリジェンスで読むAI雇用論

AIをめぐる議論では、いまなお「人間並みか、それ未満か」という一本の物差しが使われがちです。しかし、現場で起きていることはもっと入り組んでいます。最新のモデルは、難しい試験や専門的な文章生成では驚くほど高い水準を見せる一方、単純な事実確認や文脈の取り違えで崩れることがあります。この不均一さを指して広がった表現が「ジャグド・インテリジェンス」です。

重要なのは、この言葉が単なる流行語ではない点です。ハーバード大学とBCGの実験、NBERの職場研究、AnthropicやOpenAIの公開評価を並べると、AIの影響は「職業単位」ではなく「タスク単位」で読むべきだと見えてきます。本稿では、ジャグド・インテリジェンスの意味を整理したうえで、AI能力論と雇用論をどう組み替えるべきかを解説します。

用語の出自と問題設定

ジャグド・インテリジェンスという観察

「Artificial Jagged Intelligence(AJI)」という呼び方は、2025年6月公開のLex FridmanポッドキャストでGoogleのスンダー・ピチャイCEOが使い、広く知られるようになりました。ピチャイは、モデルが大きく進歩している一方で、数値ミスや文字数えのような初歩的な課題でつまずく状態をAJIと呼んでいます。研究側では、これをより構造的に「jagged technological frontier」と表現しています。つまり、AIの能力境界は滑らかな直線ではなく、でこぼこした輪郭を持つという見方です。

この整理を強く後押ししたのが、2026年にオンライン公開されたハーバード大学、MIT、ペンシルベニア大学、BCGなどの共同研究です。758人の知識労働者を対象にした事前登録実験では、AIの能力境界の内側にある18の現実的な業務で、AI利用者は未利用者より平均12.2%多くのタスクをこなし、25.1%速く完了しました。ところが、境界の外側に置かれた複雑な管理課題では、AI利用者の正答率が19ポイント低下しました。重要なのは、似たように見える知的作業でも、AIが助けになる仕事と足を引っ張る仕事が同じ職種の中に共存することです。

「人間並み」比較の限界

ここで従来のAI論の弱点が見えてきます。人間の知能を想像すると、読む、書く、計算する、文脈を理解する、といった能力はおおむね相関して伸びます。ところがAIでは、その相関が弱いまま高得点だけが先に立つ場面が珍しくありません。OpenAIが2024年に公開したSimpleQAは、4,326問の短い事実質問で構成されたベンチマークですが、その時点でGPT-4oの正答率は40%未満でした。学術試験や専門試験で高い性能を見せるモデルでも、短い事実質問では簡単に取りこぼすというわけです。

ARC PrizeのARC-AGI-2も同じ示唆を与えます。この評価では、公開評価セット120問を含む全タスクが少なくとも2人の人間に2回以内で解かれており、平均的な受験者スコアは60%でした。他方で、純粋なLLMは0%、推論システムでも一桁台にとどまると説明されています。つまり、人間にとって「常識的に解ける」課題と、AIが安定してこなせる課題はまだ大きく重なっていません。AIを一つのIQで語る発想は、ここで現実に負けます。

なぜ高難度に強く初歩で崩れるのか

ベンチマーク成功と現場失敗の共存

OpenAIはGPT-4公開時点で、同モデルが多くの専門・学術ベンチマークで人間水準の成績を示す一方、「完全には信頼できず」、事実の幻覚や推論ミスを残すと明記しました。内部の敵対的事実評価ではGPT-3.5より40%高いスコアを出したものの、それでも高リスク領域では人手確認が必要だという立場です。ここから分かるのは、能力向上と信頼性向上が同じ速度で進むとは限らないことです。

2025年のOpenAI研究「Why language models hallucinate」は、このズレの理由をさらに踏み込みます。同社は、標準的な学習と評価が「分からない」と言うより「当てにいく」行動を報いるため、モデルが不確実性を認めにくいと説明しました。精度だけを競うスコアボードでは、慎重に保留するモデルより、運よく当たるかもしれない推測型モデルの方が見かけ上は高得点になりやすいからです。ジャグドさは、モデルの中身だけでなく、評価の作り方にも支えられています。

推論能力と検証可能性の非対称

では、なぜ高度な課題に強いのに単純な課題で崩れるのでしょうか。ひとつの答えは、出力の検証可能性です。正解が明確で、自動採点しやすく、反復試行しやすい領域では、モデルは急激に伸びやすい傾向があります。逆に、正解が一つに定まりにくく、必要な前提知識が暗黙的で、失敗の理由も見えにくい仕事では、性能が不安定になります。

NBERのジョシュア・ガンズによる2026年の論文は、この現象を「利用者が局所的な信頼性を知りたいのに、実際に得られるのは粗い全体評価だけ」という情報問題として定式化しました。平均的な性能が上がっても、どの近傍で誤るかが分からなければ、現場では安心して委任できません。ジャグド・インテリジェンスとは、能力の不足だけではなく、信頼できる範囲が地図化されていない状態でもあるのです。

仕事への影響を読む視点

置き換えよりタスク分解

この見方に立つと、AIが「仕事を奪うか」という問いも立て直しが必要です。NBERの代表的研究「Generative AI at Work」では、5,179人のカスタマーサポート担当者にAI支援を導入した結果、平均生産性は14%上昇し、特に初心者や低技能の労働者では34%の改善が見られました。ここで起きていたのは、職種の丸ごとの代替というより、応答文作成やナレッジ検索のような部分工程の高速化です。ベストプラクティスの共有装置としてAIが働いた、と読む方が正確です。

2025年のNBER研究「Shifting Work Patterns with Generative AI」も、より現実的な補助線を与えます。66社・7,137人の知識労働者を対象にした実験では、AIツールを頻繁に使った労働者はメール処理時間が週2時間減り、時間外労働も減りました。しかし、仕事全体の量や構成がすぐ大きく変わったわけではありません。AIはまず、個人が単独で変えられる工程を圧縮し、組織的な役割分担の再設計までは直ちには進めない、という結果です。

境界の外側で起きる逆回転

一方で、境界の外側では逆のことが起きます。先述のハーバード大学とBCGの研究では、能力境界の外に置かれた管理課題でAI利用者の正答率が大きく落ちました。METRが2025年に公開した実験でも、経験豊富なオープンソース開発者16人が自分のリポジトリで実課題に取り組んだところ、AI利用時は完了まで19%長くかかりました。開発者自身は速くなったと感じていたのに、実測値は逆でした。

この差は示唆的です。コード生成のようにAIが得意そうに見える領域でも、実務では仕様の暗黙知、レビュー文化、テスト、依存関係、既存設計との整合性といった隠れた要件が大量にあります。つまり「書けること」と「責任を持って仕上げられること」は別です。AIの影響を読むときは、職種名よりも、成果物がどこまで検証可能で、例外処理や責任所在がどこに残るかを見る必要があります。

導入判断の実務設計

自動化より検証可能性

Anthropicの2026年1月レポートは、Claude.aiでの利用の52%が補完型、45%が自動化型だったと報告しています。API側では、コンピュータ・数学関連タスクが52%、Claude.aiでは36%で、APIの方がよりプログラム的で委任しやすい仕事に偏っていました。さらにOffice & Administrative系タスクもAPI側で15%と、Claude.aiの8%を大きく上回ります。ここから読めるのは、AIが先に深く入り込むのは、成果物の評価基準が比較的明確で、処理の分割がしやすいワークフローだということです。

同年3月のAnthropicレポートでは、Claude.aiの上位10タスク比率が24%から19%へ低下し、利用がやや多様化した一方、約49%の職業で少なくとも4分の1のタスクがClaudeで実行された経験があると整理されました。ただし、これは「半分の職業が半分自動化された」という意味ではありません。タスクに触れたことと、安定して代替できることは別だからです。Anthropic自身も、実効的なAIカバレッジを考えるなら、タスクの頻度や成功率を織り込む必要があると述べています。

人間の役割再配置

雇用全体の見通しも、同じ前提で読む必要があります。世界経済フォーラムの2025年報告では、2030年までに1億7,000万件の新規雇用が生まれる一方、9,200万件が失われ、差し引き7,800万件増えるとされました。同時に、AIの自動化を受けて41%の雇用主が人員削減を計画し、77%はアップスキリングを計画していると答えています。これは「AIが雇用を増やす」「AIが雇用を奪う」という二者択一ではなく、仕事の中身が再配分されるという理解に近い数字です。

ILOの2025年アップデートも慎重です。約3万タスクを使う精緻化手法で推計した結果、平均自動化スコアは2023年の0.30から2025年は0.29へやや低下しました。生成AIの潜在力を過小評価する必要はありませんが、単純な全面代替論も支持していません。実際に伸びるのは、課題設定、文脈の投入、結果の検証、例外の処理、そして複数工程の最終責任を引き受ける役割です。AI時代の人間の価値は、手を動かすことそのものより、境界条件を設計することに移っていきます。

AI導入で問われる業務地図化と監査性

ジャグド・インテリジェンスをめぐる最大の誤解は、「AIが一度できたことは、周辺業務もすぐ安定してできる」と考えることです。実際には、近いように見える業務でも必要な前提、評価方法、失敗コストが違えば性能は跳ねます。だから企業の導入判断では、職種単位の導入率より、工程ごとの検証可能性、失敗時のリカバリー費用、責任の所在を先に棚卸しすべきです。

その一方で、ジャグドさは固定ではありません。Anthropicの継続レポートが示すように、利用者の習熟やモデル選択の最適化だけでも成功率は変わります。モデル更新で境界が外側へ広がることも続くでしょう。ただし、平均性能の向上がそのまま現場の信頼性に転化するとは限りません。今後の争点は「どこまで賢いか」より、「どこまで地図化され、監査できるか」に移るはずです。

タスク分解から始めるAI活用判断

ジャグド・インテリジェンスは、AIを過大評価も過小評価もしないための有効な視点です。AIは人間のように均質に賢くなるのではなく、特定の課題で鋭く突き抜け、隣の課題であっさり崩れることがあります。したがって、AI論の中心に置くべき問いは、「人間並みか」ではなく、「どのタスクで、どの条件下なら、どれだけ信頼して任せられるか」です。

雇用への影響も同じです。消える職業の一覧を競うより、仕事をタスクへ分解し、AIが内側にいる工程、まだ外側にある工程、常に人間が責任を持つ工程を切り分ける方が実務に役立ちます。AI導入を検討する組織ほど、モデルの性能表ではなく、自社業務のジャグドな地図を作ることから始めるべきです。

参考資料:

坂本 亮

テクノロジー・サイエンス

宇宙開発・AI・バイオテクノロジーなど最先端の科学技術を、社会的インパクトの視点から読み解く。技術と倫理の交差点を追い続ける。

関連記事

Anthropic上場申請が映すAI株式市場の評価転換と資金競争

AnthropicがSECへS-1草案を非公開提出し、9650億ドル評価のAI大手がIPO市場の主役に浮上。Claude Codeの収益力、AWSとの計算資本、公開株投資家が問う利益率、非公開申請で見えない価格決定や顧客集中リスク、OpenAIとの上場競争を米株市場の資金配分から実務的に詳しく読み解く。

AIスーパーPAC対決が映す米中間選挙と規制攻防の深層構造を読む

OpenAI幹部らが支えるLeading the FutureとAnthropic系Public Firstが、2026年米中間選挙でAI規制を争点化。FEC資料や各団体の政策文書、州AI法の動向から、巨額資金が候補者選び、連邦一元規制、AI安全策に与える影響を読み解き、投資家と有権者の注視点も整理する。

AIで解雇しない工場改革、シュナイダー流の生産性戦略を読み解く

シュナイダー・エレクトリックはAIを解雇の道具ではなく、製造現場と供給網の生産性を高める仕組みとして展開しています。14万人規模のAI研修、年間750万件の顧客対応、在庫10%削減、武漢工場の離職率改善などの事例を、WEFやILOの雇用調査と照合し、人を残すAI導入の条件と限界を現実的に深く読み解く。

最新ニュース

AI投票相談が広がる米中間選挙、有権者判断を揺らす新たなリスク

2026年米中間選挙を前に、ChatGPTやClaudeなどのAI投票相談は候補者比較を一瞬で作る一方、投票所・登録期限・候補者情報の誤答が有権者を迷わせる。OpenAI、Anthropicの制限、公的投票サイト、州法、最新研究を基に、利便性の裏側にあるリスクと日本の読者にも役立つ安全な確認手順を解説。

豪中関係の融和を揺らす中国圧力外交と南太平洋の安全保障新局面

豪州と中国は2022年以降、ワインやロブスターの制限解除で関係を修復した一方、ASIO批判、AUKUS、バヌアツ協定をめぐり安全保障摩擦が再燃。対中貿易3260億豪ドル規模の依存、世論の対中認識、南太平洋での基地阻止策が交差する中、アルバニージー政権の実利外交が直面する新局面の深層構造を詳しく解説。

イラン最高指導者葬儀が映す権力空白と革命防衛隊主導の深い亀裂

2月28日の米イスラエル攻撃で死亡したアリ・ハメネイ師の国葬は、7月4日に大規模な結束演出として始まった。しかし後継モジタバ師の不在は、革命防衛隊、議会、外務省、最高安全保障評議会の主導権争いを露呈。葬儀の規模、憲法上の最高指導者権限、高官死の連鎖を踏まえ、対米交渉とホルムズ海峡危機の行方を読み解く。

北米の大規模停電、熱波と雷雨が露呈した都市送電網の脆弱性とは

米中西部から北東部、カナダ・オンタリオ州に広がった停電は、強い雷雨の風害と猛暑による電力需要が重なった事例です。PowerOutage.usや気象当局の情報をもとに、停電分布、PJMの需給逼迫、都市インフラの弱点、空調依存が高まる夏の復旧課題を読み解き、家庭と事業所で確認すべき備えも具体的に整理する。

米排ガス違反恩赦が示すトランプ政権の規制解体と献金政治の深層

トランプ氏が大気浄化法違反9件を含む11件の恩赦を実施し、アブラムオフ事件に連なるアダム・キダン氏も救済。344台の改造事例やEPAの5,550万ドル超の民事制裁、ディーゼル削除装置の健康影響、政治献金、州権限への波及を検証し、規制緩和と大統領権限が環境法治に与える米国政治上の制度リスクを読み解く。