2026年5月、Artificial Analysisのインテリジェンス指数のトップに躍り出たのは、商用モデルではなかった。Moonshot AIのKimi K2.6で、Anthropic、Google、OpenAIに次ぐ世界4位、オープンウェイトとしては首位だ。DeepSeek V3.2はMMLUで94.2%とGPT-4oに並び、MITライセンスで公開されている。GPT-4の登場時に1Mトークンあたり30〜60ドルだった推論コストは、いまや同等性能で0.4〜0.8ドル、Gemini 3.1 Flashは0.10ドル。3年で約99.7%の価格下落である。LLMの世界は「クローズドが圧倒、オープンは追随」という構図から、「両者が同じレースで殴り合う」段階に入った。

現状:性能差は縮小、価格差は依然大きい

2026年5月時点の主要オープンモデルを並べると、Llama 4 Maverick(400B / 17B active)、Qwen 3.5 397B-A17B、DeepSeek V3.2(671B / 37B active)、Mistral Large 3(675B / 41B active)、GLM-5などが上位を占める。どれもMoE(Mixture of Experts)アーキテクチャを採用し、総パラメータは数千億規模、推論時にはその数十分の一だけを活性化する。これにより、密ネットワーク前提のスケーリング法則とは別の経済性を確保している。

ベンチマーク別の主役はばらけている。コーディングはGLM-5(SWE-bench Verified 77.8%)またはDeepSeek V3.2-Speciale。数学・推論はDeepSeek R1(MATH-500で97.3%)とQwen 3 235B(GPQA Diamond 77.2%、AIME '24で85.7%)。多言語ではQwen 3.5が201言語、Mistral Large 3が80言語以上をカバー。チャット全般はLlama 4 Maverick(MMLU 85.5%)またはQwen 3.5。「最強の一つ」ではなく「タスク別に最適な複数モデル」を組み合わせる時代になった。

価格面はさらに極端だ。Together.aiでLlama 3.2 3Bは入力1Mトークンあたり0.06ドル。GPT-5.4の入力2.50ドルと比べると40倍以上の差。フロンティアラボのトップモデル(Claude Opus 4.7、GPT-5.4、Gemini 3.1 Pro)と、オープンソースの上位モデルとでは、価格差は10〜100倍のままだが、性能差はベンチマーク上では数ポイントまで縮まっている。

背景:なぜここまで安く・強くなったか

コスト低下の最大の駆動要因は、MoEアーキテクチャと推論最適化の両輪である。MoEは推論時に必要なパラメータだけを動かす仕組みで、メモリと計算のフットプリントを劇的に減らす。DeepSeekはこれを2024〜2025年にかけて徹底的に磨き上げ、学習時のGPU効率でも世界トップ水準に到達した。一方、推論側ではvLLM、SGLang、TensorRT-LLMといった推論エンジンが、量子化(4bit、8bit)と投機的デコーディングを駆使し、同じGPUで2〜5倍のスループットを叩き出すようになった。

もう一つの要因は、中国勢の本格参入だ。DeepSeek、Qwen(Alibaba)、Moonshot AI、Zhipu(GLM)、MiniMax、01.aiといったプレイヤーが、米国の輸出規制下にもかかわらず、効率重視のアーキテクチャで一気に世界水準に追いついた。「GPUが足りないから工夫する」という制約が、結果として性能とコストの両方で米欧勢にプレッシャーをかけている。Epoch AIは2026年初頭の分析で、性能マイルストーン別の価格下落率は年9〜900倍と試算しており、特定タスクの下落は急峻だ。

オープンソース化の戦略的意味も大きい。Meta(Llama)、Alibaba(Qwen)、DeepSeek、Mistralはいずれも、自社モデルを「事実上のインフラ」にすることで、データセンター需要、クラウド連携、エンタープライズ販売の主導権を取りに行っている。OpenAI・Anthropicに対する「囲い込み返し」の側面が強く、企業がフロンティアラボのAPIに依存しない選択肢を取れるだけの土壌が整いつつある。

事例:DeepSeek、Llama 4、Mistral

DeepSeekは2025年初頭のV3で世界を驚かせ、2026年に入ってV3.2をリリース。MMLU 94.2%、コーディングと数学で商用モデルに肩を並べる水準を、MITライセンスで配布した。学習コストは公開ベースで600万ドル前後と報じられ、これは同等性能の米国モデルの数十分の一。中国国内のクラウドだけでなく、Together.ai、Fireworks、Replicateなど米国の推論プロバイダーでも標準提供されており、企業ユーザーが「オープンモデルを安く回す」第一選択になりつつある。

MetaのLlama 4 Maverickは、MMLU 85.5%、コンテキスト100万トークン超を強みに、エンタープライズ向け基盤として広がっている。Meta自身はAIで直接マネタイズしないが、LlamaがAWS、Azure、GCP、Oracle Cloud、IBM watsonxで標準採用されることで、ハイパースケーラーの推論需要を底上げしている。Meta内部では既にLlama 5の学習が進行中とFTが報じており、2026年下期の登場が予測されている。

フランスのMistralは、欧州のソブリンAIの中核として政府・大企業に採用されている。Mistral Large 3は80言語以上に対応し、欧州データ主権の文脈で選ばれやすい。日本でも、富士通、NTTデータ、KDDIなどがMistralやLlamaを基盤に独自のドメイン特化LLMを構築する動きが加速している。Sakana AIのモデル進化的最適化も、こうしたオープンソース基盤の上に成り立つ。

学生・若手にとっての示唆

「LLMは触るには高い」という前提は、もう古い。Llama 4 8BクラスならGPU 1枚で動くし、APIなら1Mトークン数十円で試せる。学生が自分のアイデアを「動くPoC」にする距離は、3年前と比べて極端に短くなった。慶應の学生で、研究や課題、サークル運営、起業準備にLLMを組み込まない手はない。コストはほぼゼロ、必要なのは設計力と検証力だけだ。

もう一つは、キャリア上のシグナルだ。LLM周辺の仕事はもう「モデルを作る人」よりも「モデルを使い倒す人」に圧倒的に偏ってきている。プロンプトエンジニアリング、RAGの設計、エージェントワークフロー、評価・監視、ドメイン特化のファインチューニングといった応用層のスキルが、エントリーレベルの求人市場で広く求められている。フロンティアラボに入ることだけがAIキャリアの王道ではない。

次の12カ月で、OpenAIのGPT-5.5、Googleの新Geminiが出る一方、DeepSeek V4、Llama 5、Qwen 4が登場する予定だ。フロンティアとオープンの差はさらに縮み、推論価格はもう一段下がる。「LLMを作る競争」より「LLMを何に使うか」が問われるフェーズに、完全に入っている。チャンスは、モデル開発の最前線ではなく、それをどう実装し誰の問題を解くかという応用側にある。