NVIDIAのサーバー用メモリーはHBM(ハイバンドメモリー)一択でした。特殊で高価なのでHBMメーカーはおかげで儲かっています。
LLMの処理を学習と推論に分けると、学習は時間を掛けてもいいですが、推論はユーザーへの応答なので、時間を掛けていてはダメ。大規模なモデルを使おうとすると当然ですがGPUに近いメモリーにモデル(データ)を載せきらないといけなくなる。これが乱暴ですがHBMの必要性でした。しかし、これが今後は変わるのか?詳しい背景は下記URLからどうぞ
衝撃の「LPDDRショック」:NVIDIAのAIサーバー戦略が招く、スマホ・PC価格高騰の最悪シナリオ
https://xenospectrum.com/nvidia-shift-to-lpddr-ai-server-memory-shortage-price-hike-2026/
https://eetimes.itmedia.co.jp/ee/articles/2512/01/news080.html