GPU市場動向と個人向けLLM環境
このページ
- まず見る概要
- 次に読むNVIDIA_AI動向_CES・GTC_2026
目次
GPU市場の最新動向・日本国内展開 & 個人で動かせるオープンソースLLM完全ガイド
NVIDIA Blackwell Architecture — NVIDIA公式 AMD Instinct MI350 Series GPUs — AMD公式 Global GPU Market Report Q4 2025 — Technetbook, 2026
概要
GPU市場はAI需要を原動力に急成長を続けており、2025年のデータセンター向けGPU市場は約989億ドルに達した(Technetbook, 2026)。
NVIDIAがデータセンター向けで92%以上のシェアを維持する一方、AMDがMI350シリーズで追撃を開始し、カスタムASICの台頭も始まっている。
日本国内ではソフトバンク・KDDI・さくらインターネット等が兆円規模のAIインフラ投資を進めるが、GPU需要の「踊り場」も見え始めている。
個人利用では、RTX 5090(32GB VRAM)の登場とオープンソースLLMの飛躍的進化により、自宅PCで70B〜405Bパラメータのモデルを実用的に動かせる時代が到来した。
詳細レポート
第1部:グローバルGPU市場の現状
NVIDIAの圧倒的支配とBlackwellアーキテクチャ
2025年上半期時点で、NVIDIAはディスクリートGPU市場全体の約92%のシェアを占めている(Carbon Credits, 2025)。
AI アクセラレータ(AIの計算を専門に行うチップ)市場に限ると、訓練用途では90%超、推論を含めても80〜90%という圧倒的な支配力を維持している。
NVIDIAの現行フラッグシップはBlackwellアーキテクチャである。データセンター向けの主力製品は以下の通り:
| モデル | 位置づけ | VRAM | メモリ帯域 | TDP | 出荷時期 |
|---|---|---|---|---|---|
| B200 | Blackwell標準 | 192GB HBM3e | 8 TB/s | 1,000W | 2025年Q1〜 |
| B300 | Blackwell Ultra | 288GB HBM3e | 8 TB/s | 1,400W | 2025年H2〜 |
| GB200 NVL72 | ラック型(Grace CPU×36 + B200 GPU×72) | — | — | — | 2025年2月〜 |
| GB300 NVL72 | ラック型Ultra版 | — | — | — | 2025年H2〜 |
GB200 NVL72は、LLMの推論速度を従来比30倍に高速化するとNVIDIAは主張している。
GB300 NVL72はさらにGB200比で1.5倍のFP4演算性能と2倍のアテンション性能を実現する。
2026年後半には次世代「Vera Rubin」アーキテクチャ(TSMC 3nmプロセス、HBM4メモリ)が予定されている。
Rubin NVL144ラックは3.6 ExaFLOPSのFP4性能を目指す。
AMDの追撃 — MI350シリーズ
AMDはデータセンターGPU市場で約8%のシェアを持ち、2025年6月にCDNA 4アーキテクチャベースのMI350X / MI355Xを発表した。
| 項目 | MI300X(前世代) | MI350X / MI355X |
|---|---|---|
| プロセス | 5nm | TSMC N3P(3nm) |
| VRAM | 192GB HBM3e | 288GB HBM3e |
| メモリ帯域 | 5.3 TB/s | 8 TB/s |
| FP4/FP6対応 | × | ○ |
| 冷却 | 空冷 | MI350X: 空冷 / MI355X: 液冷 |
AMDは前世代MI300X比で3倍の性能向上を主張し、一部の推論ベンチマークではNVIDIA製品を最大1.3倍上回るとしている(AMD公式ブログ, 2025)。
Microsoft Azure、Meta、Oracleなどの大手クラウド事業者がAMD GPUの採用を拡大中である。
2026年には次世代MI400シリーズが予定されている。
カスタムASICの台頭 — 「GPUの次」
2026年のもう一つの大きなトレンドは、ASIC(特定用途向け集積回路)の台頭である。
たとえるなら、GPUが「何でもできる万能ナイフ」だとすれば、ASICは「特定の作業に最適化された専用工具」である。
Google(TPU)、Amazon(Trainium/Inferentia)、Meta、Microsoftなどのハイパースケーラー(超大規模クラウド事業者)が、BroadcomやMarvellと共同でカスタムAIチップの開発を加速させている。GPUがAIチップ市場を独占する時代は終わりつつあり、2026年以降はGPUとASICの共存時代に移行するとの見方が広がっている(Motley Fool, 2025)。
Intelの苦戦
Intelのデータセンター向けGPU(Gaudi シリーズ)のシェアは1%未満にとどまっており、AI GPU市場では事実上の二強(NVIDIA vs AMD)体制が続いている。
第2部:日本国内でのGPU展開
兆円規模のAIインフラ投資
日本政府は「ソブリンAI」(AIの自国主権確保)政策のもと、国内AIインフラ整備を強力に推進している。主要な投資案件を以下にまとめる:
| 企業 | 投資規模 | 計画内容 | GPU/インフラ |
|---|---|---|---|
| ソフトバンク | 約2兆円 | 日本最大級のAIデータセンター。北海道苫小牧・大阪堺の2拠点。25 ExaFLOPS | NVIDIA DGX SuperPOD(DGX B200)— 日本初導入 |
| KDDI | 非公開(兆円級) | 大阪堺データセンター。2025年度中稼働予定 | NVIDIA GB200 NVL72 |
| さくらインターネット | 約659億円 | 石狩DC。H100→Blackwell B200への移行。2027年再エネ100%目標 | NVIDIA HGX B200 |
| NTT | 非公開 | IOWN構想と連携したAI基盤整備 | — |
経済産業省もGPU確保に直接関与しており、NVIDIAとの交渉を通じて国内への優先供給を実現している(ダイヤモンド・オンライン, 2025)。
日本GPUアライアンスの設立
2025年10月、KDDI・さくらインターネット・ハイレゾの3社が「日本GPUアライアンス」を設立した。
KDDIの「GB200 NVL72」、さくらの「高火力」、ハイレゾの「GPUSOROBAN」を相互再販し、国内事業者間でGPUリソースを効率的に融通する体制を構築する。
たとえるなら「電力の送電網のように、GPUの計算能力を事業者間で共有するプラットフォーム」である。
国内GPU市場の課題 — 需要の「踊り場」
一方で、国内GPU市場には課題も顕在化している。
さくらインターネットは2026年3月期の業績予想で、GPUインフラサービスの売上を158億円→85億円に下方修正し、営業利益を38億円→3.5億円へ大幅に引き下げた。
大型案件の突然の終了により、GPU設備の一部が遊休化している。
IDC Japanは2025年の国内インフラ市場が一時的にマイナス成長になると予測。
2024年をピークにGPU需要が踊り場を迎える可能性があり、「GPUを導入したが使いこなせない」という需要と供給のミスマッチが表面化しつつある。
この背景には、日本企業のAI活用が大企業の大型研究開発案件に偏っており、中小企業や産業全体への裾野拡大がまだ進んでいないという構造的課題がある。
第3部:個人利用で選べる最新GPU
個人でローカルLLMを動かす場合、最も重要なスペックはVRAM容量とメモリ帯域幅である。LLMのパラメータ数が大きいほど多くのVRAMが必要であり、推論速度はメモリ帯域に大きく依存する。
NVIDIA GeForce RTX 50シリーズ(2025年1月〜)
| モデル | VRAM | メモリ帯域 | CUDAコア | TDP | 希望小売価格 | 動かせるLLM目安 |
|---|---|---|---|---|---|---|
| RTX 5090 | 32GB GDDR7 | 1,792 GB/s | 21,760 | 575W | $1,999 | 70B(Q4)/ 405B(Q2-Q4・RAM併用) |
| RTX 5080 | 16GB GDDR7 | 960 GB/s | 10,752 | 360W | $999 | 30B(Q4)/ 70B(Q2-Q3) |
| RTX 5070 Ti | 16GB GDDR7 | 896 GB/s | 8,960 | 300W | $749 | 30B(Q4)/ 70B(Q2-Q3) |
| RTX 5070 | 12GB GDDR7 | 672 GB/s | 6,144 | 250W | $549 | 14B(Q4)/ 30B(Q2-Q3) |
- 最高性能: RTX 5090(32GB)— 70Bモデルを快適に、405Bも量子化で動作可能
- バランス型: RTX 5070 Ti(16GB)— 14B〜30Bモデルを快適に動かせる。$749は非常にコスパが高い
- 入門: RTX 4060 Ti(8GB)— 7B〜8Bモデル向け。中古市場で安価に入手可能
RTX 5090のLLM性能
RTX 5090はコンシューマー向けGPUとして初めてBlackwellアーキテクチャを搭載し、NVFP4(ネイティブ4ビット推論)をハードウェアレベルでサポートする。主なベンチマーク結果:
- 8Bモデル(Llama 3.1等):最大213 tokens/秒
- Qwen2-0.5B:バッチ推論で最大65,000 tokens/秒
- バッチサイズ8・1024トークン出力:5,841 tokens/秒(A100比2.6倍)
- 2枚構成(RTX 5090 ×2)の70Bモデル推論では、H100やA100×2を上回るスループットを達成
(RunPod / DatabaseMart, 2025)
RTX 5090の希望小売価格は$1,999だが、供給不足により実売価格は**$3,600超**に高騰している(2025年時点)。日本国内でも同様の品薄状態が続いている。
AMD Radeon — 個人向けの選択肢
AMDのコンシューマーGPU(Radeon RX 9070シリーズ)もLLM推論に使用可能だが、NVIDIAのCUDA/Tensor Coreに最適化されたソフトウェアエコシステム(vLLM、TensorRT-LLM等)が圧倒的に充実しているため、LLM用途ではNVIDIA GPUが事実上の標準である。
ただしROCm(AMDのGPUコンピューティングプラットフォーム)の互換性は年々改善されている。
第4部:個人で動かせるオープンソースLLM
2025〜2026年はオープンソースLLMの飛躍の年であり、多くのモデルが商用プロプライエタリモデルに匹敵するか、ベンチマークによっては上回る性能を達成している。
主要モデル一覧(2026年3月時点)
| モデル | 開発元 | パラメータ数 | 特徴 | ライセンス | 必要VRAM目安(Q4量子化) |
|---|---|---|---|---|---|
| Qwen3-235B-A22B | Alibaba(阿里巴巴) | 235B(22B活性化) | MoEモデル。推論・コード・多言語(119言語)で最強クラス。AIME25で92.3% | Apache 2.0 | 約60GB(Q4) |
| Qwen3-32B | Alibaba | 32B | 密結合モデル。コスパ最強。多くのベンチで70B級の性能 | Apache 2.0 | 約18GB(Q4) |
| DeepSeek-V3.2 | DeepSeek | 685B(37B活性化) | MoEモデル。GPT-5を推論タスクで上回るとされる | MIT License | 約90GB(Q4) |
| DeepSeek-R1 | DeepSeek | 671B(37B活性化) | 推論特化。「考える」過程を出力するCoTモデル | MIT License | 約90GB(Q4)/ 131GB(1.58bit) |
| DeepSeek-R1-Distill-32B | DeepSeek | 32B | R1を蒸留した軽量版。推論性能が高い | MIT License | 約18GB(Q4) |
| Llama 4 Scout | Meta | 非公開(MoE) | 128Kコンテキスト。汎用性が高い | Llama License | — |
| Llama 4 Maverick | Meta | 非公開(MoE) | 128Kコンテキスト。Scoutより大型 | Llama License | — |
| Mistral Small 3 | Mistral AI | 24B | 高速・高効率。Apache 2.0で商用利用可 | Apache 2.0 | 約14GB(Q4) |
| Gemma 3 | 27B | Googleの技術を搭載。軽量で高性能 | Gemma License | 約15GB(Q4) |
Qwen3シリーズが119言語対応で日本語性能が特に高い。DeepSeek-R1系も日本語での推論品質が良好。Llama 4は英語中心だが改善傾向にある。
GPU別おすすめモデル
| GPU(VRAM) | おすすめモデル | 量子化 | 体感速度 |
|---|---|---|---|
| RTX 5090(32GB) | Qwen3-32B / DeepSeek-R1-Distill-32B / Qwen3-235B(Q2) | Q4〜Q8 / Q2 | 快適〜実用的 |
| RTX 5080/5070Ti(16GB) | Qwen3-14B / Mistral Small 3 / Gemma 3 | Q4〜Q6 | 快適 |
| RTX 4090(24GB) | Qwen3-32B(Q3)/ DeepSeek-R1-Distill-14B | Q3〜Q4 | 快適 |
| RTX 4060Ti(8GB) | Qwen3-8B / DeepSeek-R1-Distill-7B | Q4 | 実用的 |
| RTX 5090×2(64GB) | DeepSeek-R1(1.58bit)/ Qwen3-235B(Q4) | Q2〜Q4 | 実用的 |
大型モデルを個人で動かす方法
671B〜685BパラメータのDeepSeek-R1やV3.2を個人環境で動かすには、以下の手法が使われている:
- 超低ビット量子化(1.58bit〜2bit): Unslothが開発した動的量子化により、DeepSeek-R1を約131GBまで圧縮可能。2枚のH100(計160GB VRAM)で高速推論が可能になった
- GGUF形式 + CPU/GPUオフロード: VRAMに収まらないレイヤーをシステムRAM(メインメモリ)に配置する方式。256GBのRAMを搭載したワークステーションであれば、Q8量子化のDeepSeek-R1をllama.cppで動作可能
- MoEアーキテクチャの活用: DeepSeekやQwen3-235BはMoE(Mixture of Experts)を採用しており、推論時には全パラメータの一部(37B / 22B)しか活性化しないため、量子化との相性が良い
ローカル推論のツールチェーン
| ツール | 用途 | 特徴 |
|---|---|---|
| Ollama | 手軽なローカル推論 | ollama run qwen3:32b で即座に開始。初心者に最適 |
| llama.cpp | 高度なカスタマイズ | GGUF形式対応。CPU/GPUオフロードに強い |
| vLLM | 高スループット推論 | PagedAttentionで効率化。v0.11.0でBlackwell(RTX 5090)ネイティブ対応 |
| LM Studio | GUIベース | ドラッグ&ドロップでモデルをダウンロード・実行。非技術者向け |
| Open WebUI | Web UI | ChatGPT風のインターフェースでローカルモデルを利用 |
まとめ
GPU市場はNVIDIAの圧倒的支配が続くが、AMDの追撃とカスタムASICの台頭により、2026年以降は多極化の兆しが見える。
日本国内では兆円規模のインフラ投資が進む一方、需要と供給のミスマッチという構造的課題が浮上している。
個人利用においては、RTX 5090(32GB)とQwen3-32B / DeepSeek-R1-Distill-32Bの組み合わせが、2026年時点での最も実用的な「自宅AI環境」と言える。
オープンソースLLMが商用モデルと肩を並べる時代が到来し、「AIの民主化」は着実に進行している。
専門用語の解説
| 用語 | 読み方 | 解説 |
|---|---|---|
| GPU | ジーピーユー | Graphics Processing Unit。元々は画像処理用チップだが、並列計算に優れるためAI計算の中核に |
| VRAM | ブイラム | GPU専用のメモリ。LLMのパラメータを格納するため、容量が大きいほど大きなモデルを動かせる |
| HBM3e | エイチビーエムスリーイー | High Bandwidth Memory。超高速・大容量のGPUメモリ規格。データセンター向けGPUに搭載 |
| GDDR7 | ジーディーディーアールセブン | コンシューマーGPU向けの高速メモリ規格。RTX 50シリーズから採用 |
| ASIC | エーシック | Application Specific Integrated Circuit。特定用途に特化した半導体チップ |
| MoE | エムオーイー | Mixture of Experts。推論時にモデルの一部だけを活性化するアーキテクチャ。大規模モデルを効率的に動作させる |
| 量子化 | りょうしか | モデルの精度(32bit→4bit等)を下げてメモリ使用量を削減する技術。性能低下は限定的 |
| GGUF | ジージーユーエフ | llama.cpp向けのモデルフォーマット。CPU/GPUの混在実行に対応 |
| FP4 / FP8 | — | 4ビット / 8ビット浮動小数点。低精度で計算し速度とメモリ効率を向上させる |
| ExaFLOPS | エクサフロップス | 1秒あたり10の18乗回の浮動小数点演算。スーパーコンピュータ級の性能指標 |
| TDP | ティーディーピー | Thermal Design Power。チップの最大消費電力の設計目標値 |
| ソブリンAI | — | AI技術の自国主権確保。他国のインフラに依存せず自国でAI計算基盤を保有する政策概念 |
| PagedAttention | — | vLLMが開発した技術。メモリの断片化を50%以上削減し、推論スループットを2〜4倍に向上 |
| CoT | シーオーティー | Chain of Thought。AIが「考える過程」を段階的に出力する推論手法 |
| 蒸留 | じょうりゅう | 大型モデルの知識を小型モデルに転写する技術。性能を維持しつつ軽量化する |
出典
一次情報
- NVIDIA Blackwell Architecture — NVIDIA公式
- NVIDIA GB300 NVL72 — NVIDIA公式
- GeForce RTX 5090 — NVIDIA公式
- AMD Instinct MI350 Series GPUs — AMD公式
- AMD Instinct MI350 Series: A Game Changer — AMD公式ブログ, 2025
- KDDIほか「日本GPUアライアンス」設立 — KDDI公式, 2025年10月
- さくらインターネット 2026年3月期第2四半期 決算説明資料 — さくらインターネット, 2025年10月
- Global GPU Market Report Q4 2025 — Technetbook, 2026
補足情報
- NVIDIA Controls 92% of the GPU Market in 2025 — Carbon Credits
- NVIDIA GPU Market Share 2024-2026 — Silicon Analysts
- RTX 5090 LLM Benchmarks — RunPod
- 2×RTX 5090 Ollama Benchmark — DatabaseMart
- Best GPU for Local LLMs in 2026 — Decodes Future
- 10 Best Open-Source LLM Models — Hugging Face
- Top 10 Open Source LLMs 2026 — o-mega.ai
- 売れ残り始めたGPU…さくらインターネットの成長に急ブレーキ — 東洋経済オンライン
- 日本のクラウド各社がNVIDIAのAIインフラを構築へ — Data Center Café
- エヌビディアGPU奪取に政府が直談判 — ダイヤモンド・オンライン
- Run DeepSeek-R1 Dynamic 1.58-bit — Unsloth
- Private LLM Inference on Consumer Blackwell GPUs — arXiv, 2026