2026年1月、ラスベガスのCESメイン基調講演で、NVIDIAのジェンスン・フアンCEOは舞台中央でこう宣言した。「ロボット工学のChatGPTモーメントが、ついに到来した」。背後の巨大スクリーンには、Boston Dynamics、Figure、1X、NEURA Roboticsなど世界のヒューマノイドが並び、それぞれがNVIDIAのCosmos基盤モデルやIsaac GR00T N1.6を使って動いていた。会場では「フィジカルAI」という言葉が繰り返され、これがその後の3カ月間、業界の標準語になった。

現状:基盤モデル時代のロボティクス

ここ12カ月で、ロボティクス業界は明確な転換を迎えた。従来のロボットは「タスクごとに専用プログラムを書く」のが当たり前だったが、2025年以降は「視覚・言語・行動を統合したVLA(Vision-Language-Action)基盤モデル」を一つ用意し、それを各ロボットに転移させるアプローチが主流になりつつある。NVIDIAはCES 2026でCosmos Reason 2を公開し、ロボットが物理世界を「見て、理解し、行動する」ための推論モデルとして位置づけた。Cosmos PredictとCosmos Transferを組み合わせることで、シミュレーション上で大量の学習データを生成できる仕組みだ。

ヒューマノイド単体の進歩も著しい。Figure AIは2025年に同社のFigure 02をBMWスパルタンバーグ工場に配備し、X3の生産で30,000台以上の車両組立に関与した。9万点以上の板金部品を、99%の精度で1日10時間運搬したと公表されている。1X Technologiesは2025年10月にNEOホームロボットの予約販売を開始し、初年度生産分10,000台を5日で完売した。1台2万ドル、月額499ドルのサブスクオプションも用意され、2026年中に米国家庭への出荷を予定している。

テスラのOptimusは2026年3月12日のAbundance Summitで「V3の量産は2026年夏開始」とマスクが明言した。当初2026年Q1に予定されていたGen 3の披露は「今年半ば」にずれ込んだが、フリーモント工場で年100万台規模の生産ラインを準備中、ギガファクトリー・テキサスでは2027年から年1,000万台規模を目指すという数字が改めて示された。

背景:なぜ今、フィジカルAIなのか

ここ数年でロボティクスが急加速した最大の理由は、LLMで蓄積された深層学習の知見が、ようやくロボット制御に転用できる段階に到達したことだ。VLAモデルの登場により、視覚センサー、自然言語の指示、そして関節制御の出力を同じネットワークで扱えるようになった。Physical IntelligenceがオープンソースとしたPi-0、それを発展させたPi-0.5は、複数のロボットプラットフォームと7種のロボットボディで学習させ、ゼロショットで新タスクをこなせる汎用ポリシーを実現した。これが業界の前提を一気に書き換えた。

もう一つの要因は、シミュレーションと合成データのコストが劇的に下がったことだ。NVIDIAのIsaac LabやCosmos Predictを使えば、現実のロボット運用で数年かかる経験データを、数日のGPU時間で生成できる。Sim-to-Realのギャップは依然として残るものの、転移学習の手法が洗練され、現実機での微調整が以前より格段に少なくて済むようになった。ハードウェア側でも、テスラやFigureが採用する22自由度のロボットハンドや、1Xが導入した3Dラティス構造のソフトボディなど、コスト削減と性能向上の両立が進んでいる。

資金面の追い風も大きい。Skild AIは2026年1月、SoftBank主導でNVIDIA NVentures、Bezos Expeditions、Samsung、LG、Schneider Electric、Salesforce Venturesが参加するシリーズCラウンドで14億ドルを調達し、評価額は140億ドルに達した。7カ月前の45億ドルから3倍以上に膨らんだ計算だ。Figure AIは2025年に評価額390億ドルで15億ドルの追加調達を進めており、ヒューマノイド領域だけで2026年第1四半期に数十億ドル単位の資金が流れ込んだ。

事例:3つの主要プレーヤーの戦い方

Figure AIは「産業用ヒューマノイド」を最初の主戦場に選んだ。BMWスパルタンバーグでの実装は、デモンストレーションではなく実生産ラインへの組み込みであり、99%の精度と10時間連続稼働という数字は、製造現場が必要とする信頼性に肉薄している。ブレット・アドコックCEOは過去にArcher Aviationを上場させたシリアル起業家であり、その経験が産業顧客との交渉力にも効いている。同社が独自に開発するFigure基盤モデル「Helix」は、NVIDIA非依存路線として注目を集めている。

1X Technologiesは家庭向けに振り切った戦略を取る。NEOは66ポンドの軽量設計、22dBという冷蔵庫より静かな動作音、150ポンドのリフト能力を備える。Day 1からドアを開ける、物を取ってくる、夜に照明を消すといった基本動作をこなし、ソフトウェアアップデートで能力を拡張する設計だ。カリフォルニア州ヘイワードに開設されたNEO Factoryは、米国初の垂直統合型ヒューマノイドロボット工場として位置づけられている。

Skild AIはハードウェアを作らず、ロボットの「脳」だけに集中する戦略だ。カーネギーメロン大学元教授のDeepak PathakとAbhinav Guptaが2023年に創業し、単一のSkild Brainモデルでどんなロボットでも、どんなタスクでも、専用の再学習なしに制御することを目指す。2025年中に売上ゼロから30Mドル相当へと急成長しており、ハードウェア各社にとっての中立な基盤モデル提供者というポジションを確立しつつある。Physical Intelligenceがオープンソース志向なのに対し、Skildはエンタープライズ向けクローズドモデルで勝負する。

学生・若手にとっての示唆

ロボティクスは長らく「ハードウェアの専門知識がないと入れない領域」だったが、フィジカルAIの登場で参入経路が大きく変わった。VLAモデルのファインチューニング、シミュレーション環境構築、データ収集パイプライン設計など、ソフトウェアエンジニアやML研究者が直接貢献できる領域が広がっている。慶應理工学部や情報工学を学ぶ学生にとって、Pi-0やGR00T、Cosmosといったオープンソースを実機やシミュレータで触っておくことは、5年後の市場で位置取りをする上で意味が大きい。

事業や政策の側から見ても、ヒューマノイドは介護、物流、製造、家事代行といった日本社会の構造的課題と直結する領域だ。労働人口が減少し続ける日本市場は、世界で最初にヒューマノイドが社会実装される場の一つになる可能性が高い。海外プレーヤーの動きを傍観するのではなく、日本側からも基盤モデル、部品、ユースケース開発で参戦できる余地は十分にある。慶應SFCや理工系の研究室を起点に動き始める学生が増えれば、その流れは加速する。

「ロボットがAIで賢くなる」というフレーズは、これまで何度も語られてきた。違いは、今回は基盤モデルというスケール可能な技術スタックと、産業・家庭の両方で具体的な顧客が現れたという事実だ。10年前に「自動運転は2020年に実用化される」と語られたときのような楽観はもう通用しない。それでも、2026年に起きた変化はおそらく後から振り返って「分水嶺」と呼ばれる類のものだ。スマートフォンが普及した10年と同じように、ヒューマノイドが社会に溶け込む10年が、今ようやく始まろうとしている。