📚 業界ナレッジ

GPU市場動向と個人向けLLM環境

【経済・電気機器】電気機器テーマ・トピック更新 2026-03-24

このページ

目次
  1. 概要
  2. 詳細レポート
  3. 第1部:グローバルGPU市場の現状
  4. 第2部:日本国内でのGPU展開
  5. 第3部:個人利用で選べる最新GPU
  6. 第4部:個人で動かせるオープンソースLLM
  7. まとめ
  8. 専門用語の解説
  9. 出典
  10. 一次情報
  11. 補足情報

GPU市場の最新動向・日本国内展開 & 個人で動かせるオープンソースLLM完全ガイド

一次情報

NVIDIA Blackwell Architecture — NVIDIA公式 AMD Instinct MI350 Series GPUs — AMD公式 Global GPU Market Report Q4 2025 — Technetbook, 2026

概要

GPU市場はAI需要を原動力に急成長を続けており、2025年のデータセンター向けGPU市場は約989億ドルに達した(Technetbook, 2026)。
NVIDIAがデータセンター向けで92%以上のシェアを維持する一方、AMDがMI350シリーズで追撃を開始し、カスタムASICの台頭も始まっている。
日本国内ではソフトバンク・KDDI・さくらインターネット等が兆円規模のAIインフラ投資を進めるが、GPU需要の「踊り場」も見え始めている。
個人利用では、RTX 5090(32GB VRAM)の登場とオープンソースLLMの飛躍的進化により、自宅PCで70B〜405Bパラメータのモデルを実用的に動かせる時代が到来した。

詳細レポート

第1部:グローバルGPU市場の現状

NVIDIAの圧倒的支配とBlackwellアーキテクチャ

2025年上半期時点で、NVIDIAはディスクリートGPU市場全体の約92%のシェアを占めている(Carbon Credits, 2025)。
AI アクセラレータ(AIの計算を専門に行うチップ)市場に限ると、訓練用途では90%超、推論を含めても80〜90%という圧倒的な支配力を維持している。

NVIDIAの現行フラッグシップはBlackwellアーキテクチャである。データセンター向けの主力製品は以下の通り:

モデル 位置づけ VRAM メモリ帯域 TDP 出荷時期
B200 Blackwell標準 192GB HBM3e 8 TB/s 1,000W 2025年Q1〜
B300 Blackwell Ultra 288GB HBM3e 8 TB/s 1,400W 2025年H2〜
GB200 NVL72 ラック型(Grace CPU×36 + B200 GPU×72) 2025年2月〜
GB300 NVL72 ラック型Ultra版 2025年H2〜

GB200 NVL72は、LLMの推論速度を従来比30倍に高速化するとNVIDIAは主張している。
GB300 NVL72はさらにGB200比で1.5倍のFP4演算性能と2倍のアテンション性能を実現する。

次世代ロードマップ

2026年後半には次世代「Vera Rubin」アーキテクチャ(TSMC 3nmプロセス、HBM4メモリ)が予定されている。
Rubin NVL144ラックは3.6 ExaFLOPSのFP4性能を目指す。

AMDの追撃 — MI350シリーズ

AMDはデータセンターGPU市場で約8%のシェアを持ち、2025年6月にCDNA 4アーキテクチャベースのMI350X / MI355Xを発表した。

項目 MI300X(前世代) MI350X / MI355X
プロセス 5nm TSMC N3P(3nm)
VRAM 192GB HBM3e 288GB HBM3e
メモリ帯域 5.3 TB/s 8 TB/s
FP4/FP6対応 ×
冷却 空冷 MI350X: 空冷 / MI355X: 液冷

AMDは前世代MI300X比で3倍の性能向上を主張し、一部の推論ベンチマークではNVIDIA製品を最大1.3倍上回るとしている(AMD公式ブログ, 2025)。
Microsoft Azure、Meta、Oracleなどの大手クラウド事業者がAMD GPUの採用を拡大中である。
2026年には次世代MI400シリーズが予定されている。

カスタムASICの台頭 — 「GPUの次」

2026年のもう一つの大きなトレンドは、ASIC(特定用途向け集積回路)の台頭である。
たとえるなら、GPUが「何でもできる万能ナイフ」だとすれば、ASICは「特定の作業に最適化された専用工具」である。
Google(TPU)、Amazon(Trainium/Inferentia)、Meta、Microsoftなどのハイパースケーラー(超大規模クラウド事業者)が、BroadcomやMarvellと共同でカスタムAIチップの開発を加速させている。GPUがAIチップ市場を独占する時代は終わりつつあり、2026年以降はGPUとASICの共存時代に移行するとの見方が広がっている(Motley Fool, 2025)。

Intelの苦戦

Intelのデータセンター向けGPU(Gaudi シリーズ)のシェアは1%未満にとどまっており、AI GPU市場では事実上の二強(NVIDIA vs AMD)体制が続いている。

第2部:日本国内でのGPU展開

兆円規模のAIインフラ投資

日本政府は「ソブリンAI」(AIの自国主権確保)政策のもと、国内AIインフラ整備を強力に推進している。主要な投資案件を以下にまとめる:

企業 投資規模 計画内容 GPU/インフラ
ソフトバンク 約2兆円 日本最大級のAIデータセンター。北海道苫小牧・大阪堺の2拠点。25 ExaFLOPS NVIDIA DGX SuperPOD(DGX B200)— 日本初導入
KDDI 非公開(兆円級) 大阪堺データセンター。2025年度中稼働予定 NVIDIA GB200 NVL72
さくらインターネット 約659億円 石狩DC。H100→Blackwell B200への移行。2027年再エネ100%目標 NVIDIA HGX B200
NTT 非公開 IOWN構想と連携したAI基盤整備

経済産業省もGPU確保に直接関与しており、NVIDIAとの交渉を通じて国内への優先供給を実現している(ダイヤモンド・オンライン, 2025)。

日本GPUアライアンスの設立

2025年10月、KDDI・さくらインターネット・ハイレゾの3社が「日本GPUアライアンス」を設立した。
KDDIの「GB200 NVL72」、さくらの「高火力」、ハイレゾの「GPUSOROBAN」を相互再販し、国内事業者間でGPUリソースを効率的に融通する体制を構築する。
たとえるなら「電力の送電網のように、GPUの計算能力を事業者間で共有するプラットフォーム」である。

国内GPU市場の課題 — 需要の「踊り場」

一方で、国内GPU市場には課題も顕在化している。
さくらインターネットは2026年3月期の業績予想で、GPUインフラサービスの売上を158億円→85億円に下方修正し、営業利益を38億円→3.5億円へ大幅に引き下げた。
大型案件の突然の終了により、GPU設備の一部が遊休化している。

構造的リスク

IDC Japanは2025年の国内インフラ市場が一時的にマイナス成長になると予測。
2024年をピークにGPU需要が踊り場を迎える可能性があり、「GPUを導入したが使いこなせない」という需要と供給のミスマッチが表面化しつつある。

この背景には、日本企業のAI活用が大企業の大型研究開発案件に偏っており、中小企業や産業全体への裾野拡大がまだ進んでいないという構造的課題がある。

第3部:個人利用で選べる最新GPU

個人でローカルLLMを動かす場合、最も重要なスペックはVRAM容量メモリ帯域幅である。LLMのパラメータ数が大きいほど多くのVRAMが必要であり、推論速度はメモリ帯域に大きく依存する。

NVIDIA GeForce RTX 50シリーズ(2025年1月〜)

モデル VRAM メモリ帯域 CUDAコア TDP 希望小売価格 動かせるLLM目安
RTX 5090 32GB GDDR7 1,792 GB/s 21,760 575W $1,999 70B(Q4)/ 405B(Q2-Q4・RAM併用)
RTX 5080 16GB GDDR7 960 GB/s 10,752 360W $999 30B(Q4)/ 70B(Q2-Q3)
RTX 5070 Ti 16GB GDDR7 896 GB/s 8,960 300W $749 30B(Q4)/ 70B(Q2-Q3)
RTX 5070 12GB GDDR7 672 GB/s 6,144 250W $549 14B(Q4)/ 30B(Q2-Q3)
コストパフォーマンスのおすすめ
  • 最高性能: RTX 5090(32GB)— 70Bモデルを快適に、405Bも量子化で動作可能
  • バランス型: RTX 5070 Ti(16GB)— 14B〜30Bモデルを快適に動かせる。$749は非常にコスパが高い
  • 入門: RTX 4060 Ti(8GB)— 7B〜8Bモデル向け。中古市場で安価に入手可能

RTX 5090のLLM性能

RTX 5090はコンシューマー向けGPUとして初めてBlackwellアーキテクチャを搭載し、NVFP4(ネイティブ4ビット推論)をハードウェアレベルでサポートする。主なベンチマーク結果:

(RunPod / DatabaseMart, 2025)

入手性の問題

RTX 5090の希望小売価格は$1,999だが、供給不足により実売価格は**$3,600超**に高騰している(2025年時点)。日本国内でも同様の品薄状態が続いている。

AMD Radeon — 個人向けの選択肢

AMDのコンシューマーGPU(Radeon RX 9070シリーズ)もLLM推論に使用可能だが、NVIDIAのCUDA/Tensor Coreに最適化されたソフトウェアエコシステム(vLLM、TensorRT-LLM等)が圧倒的に充実しているため、LLM用途ではNVIDIA GPUが事実上の標準である。
ただしROCm(AMDのGPUコンピューティングプラットフォーム)の互換性は年々改善されている。

第4部:個人で動かせるオープンソースLLM

2025〜2026年はオープンソースLLMの飛躍の年であり、多くのモデルが商用プロプライエタリモデルに匹敵するか、ベンチマークによっては上回る性能を達成している。

主要モデル一覧(2026年3月時点)

モデル 開発元 パラメータ数 特徴 ライセンス 必要VRAM目安(Q4量子化)
Qwen3-235B-A22B Alibaba(阿里巴巴) 235B(22B活性化) MoEモデル。推論・コード・多言語(119言語)で最強クラス。AIME25で92.3% Apache 2.0 約60GB(Q4)
Qwen3-32B Alibaba 32B 密結合モデル。コスパ最強。多くのベンチで70B級の性能 Apache 2.0 約18GB(Q4)
DeepSeek-V3.2 DeepSeek 685B(37B活性化) MoEモデル。GPT-5を推論タスクで上回るとされる MIT License 約90GB(Q4)
DeepSeek-R1 DeepSeek 671B(37B活性化) 推論特化。「考える」過程を出力するCoTモデル MIT License 約90GB(Q4)/ 131GB(1.58bit)
DeepSeek-R1-Distill-32B DeepSeek 32B R1を蒸留した軽量版。推論性能が高い MIT License 約18GB(Q4)
Llama 4 Scout Meta 非公開(MoE) 128Kコンテキスト。汎用性が高い Llama License
Llama 4 Maverick Meta 非公開(MoE) 128Kコンテキスト。Scoutより大型 Llama License
Mistral Small 3 Mistral AI 24B 高速・高効率。Apache 2.0で商用利用可 Apache 2.0 約14GB(Q4)
Gemma 3 Google 27B Googleの技術を搭載。軽量で高性能 Gemma License 約15GB(Q4)
日本語性能で選ぶなら

Qwen3シリーズが119言語対応で日本語性能が特に高い。DeepSeek-R1系も日本語での推論品質が良好。Llama 4は英語中心だが改善傾向にある。

GPU別おすすめモデル

GPU(VRAM) おすすめモデル 量子化 体感速度
RTX 5090(32GB) Qwen3-32B / DeepSeek-R1-Distill-32B / Qwen3-235B(Q2) Q4〜Q8 / Q2 快適〜実用的
RTX 5080/5070Ti(16GB) Qwen3-14B / Mistral Small 3 / Gemma 3 Q4〜Q6 快適
RTX 4090(24GB) Qwen3-32B(Q3)/ DeepSeek-R1-Distill-14B Q3〜Q4 快適
RTX 4060Ti(8GB) Qwen3-8B / DeepSeek-R1-Distill-7B Q4 実用的
RTX 5090×2(64GB) DeepSeek-R1(1.58bit)/ Qwen3-235B(Q4) Q2〜Q4 実用的

大型モデルを個人で動かす方法

671B〜685BパラメータのDeepSeek-R1やV3.2を個人環境で動かすには、以下の手法が使われている:

  1. 超低ビット量子化(1.58bit〜2bit): Unslothが開発した動的量子化により、DeepSeek-R1を約131GBまで圧縮可能。2枚のH100(計160GB VRAM)で高速推論が可能になった
  2. GGUF形式 + CPU/GPUオフロード: VRAMに収まらないレイヤーをシステムRAM(メインメモリ)に配置する方式。256GBのRAMを搭載したワークステーションであれば、Q8量子化のDeepSeek-R1をllama.cppで動作可能
  3. MoEアーキテクチャの活用: DeepSeekやQwen3-235BはMoE(Mixture of Experts)を採用しており、推論時には全パラメータの一部(37B / 22B)しか活性化しないため、量子化との相性が良い

ローカル推論のツールチェーン

ツール 用途 特徴
Ollama 手軽なローカル推論 ollama run qwen3:32b で即座に開始。初心者に最適
llama.cpp 高度なカスタマイズ GGUF形式対応。CPU/GPUオフロードに強い
vLLM 高スループット推論 PagedAttentionで効率化。v0.11.0でBlackwell(RTX 5090)ネイティブ対応
LM Studio GUIベース ドラッグ&ドロップでモデルをダウンロード・実行。非技術者向け
Open WebUI Web UI ChatGPT風のインターフェースでローカルモデルを利用

まとめ

GPU市場はNVIDIAの圧倒的支配が続くが、AMDの追撃とカスタムASICの台頭により、2026年以降は多極化の兆しが見える。
日本国内では兆円規模のインフラ投資が進む一方、需要と供給のミスマッチという構造的課題が浮上している。
個人利用においては、RTX 5090(32GB)とQwen3-32B / DeepSeek-R1-Distill-32Bの組み合わせが、2026年時点での最も実用的な「自宅AI環境」と言える。
オープンソースLLMが商用モデルと肩を並べる時代が到来し、「AIの民主化」は着実に進行している。

専門用語の解説

用語 読み方 解説
GPU ジーピーユー Graphics Processing Unit。元々は画像処理用チップだが、並列計算に優れるためAI計算の中核に
VRAM ブイラム GPU専用のメモリ。LLMのパラメータを格納するため、容量が大きいほど大きなモデルを動かせる
HBM3e エイチビーエムスリーイー High Bandwidth Memory。超高速・大容量のGPUメモリ規格。データセンター向けGPUに搭載
GDDR7 ジーディーディーアールセブン コンシューマーGPU向けの高速メモリ規格。RTX 50シリーズから採用
ASIC エーシック Application Specific Integrated Circuit。特定用途に特化した半導体チップ
MoE エムオーイー Mixture of Experts。推論時にモデルの一部だけを活性化するアーキテクチャ。大規模モデルを効率的に動作させる
量子化 りょうしか モデルの精度(32bit→4bit等)を下げてメモリ使用量を削減する技術。性能低下は限定的
GGUF ジージーユーエフ llama.cpp向けのモデルフォーマット。CPU/GPUの混在実行に対応
FP4 / FP8 4ビット / 8ビット浮動小数点。低精度で計算し速度とメモリ効率を向上させる
ExaFLOPS エクサフロップス 1秒あたり10の18乗回の浮動小数点演算。スーパーコンピュータ級の性能指標
TDP ティーディーピー Thermal Design Power。チップの最大消費電力の設計目標値
ソブリンAI AI技術の自国主権確保。他国のインフラに依存せず自国でAI計算基盤を保有する政策概念
PagedAttention vLLMが開発した技術。メモリの断片化を50%以上削減し、推論スループットを2〜4倍に向上
CoT シーオーティー Chain of Thought。AIが「考える過程」を段階的に出力する推論手法
蒸留 じょうりゅう 大型モデルの知識を小型モデルに転写する技術。性能を維持しつつ軽量化する

出典

一次情報

補足情報