生成AIでGPU不足深刻化、NVIDIA新投入のGH200とは? メタやテスラが抱える驚きのGPU数
コメント
注目のコメント
この記事では、NvidiaのGPUしか取り上げられていませんが、生成AI向けのエンジンには、AMDのMI300製品や、スタートアップCerebrasのCS-2ウェーハスケールLSIも生成AIのような巨大なソフトウエアモデルを計算するための巨大な半導体チップが必要です。もちろん、Nvidiaの最新チップのGH200はA100より桁違いに性能が高くなっています。CS-2はA100の1000倍の性能だとしています。
大規模なソフトウエアモデルに対して大規模な半導体がこれからの生成AI向けに開発されます。日本も同じスタートラインに立てるでしょう。頑張ってほしいです。大規模言語モデルの開発に限らず、機械学習モデルの開発にGPUは必要となります。一般的には自社で保有するのではなくGCPやAWSなどのクラウドサービスを利用するのですが、ここしばらくA100は本当に取りづらくなっています。
特に(当たり前ですが)、余剰インスタンスを割り当ててもらうことで比較的安価でGPUインスタンスを利用できるプリエンプティブル/スポットのインスタンスは全く取れないため、個人での開発は金銭面的にハードルが上がっているように思います。GPU不足は報道されないだけで日本国内でもすでに起きています。
詳しく書くといけないので詳細は避けますが、GPUを購入しようとすると、あのモデルは新規出荷停止(各代理店の在庫があるだけ)、そっちのモデルはそもそもNVIDIAが購入できる業者を指定・・・などです。
また、GPUの高騰も問題です。為替の問題もあるでしょうし、そもそも価格が上昇しています。
無事入手できたとしても問題は続きます。DGX A100の最大消費電力は6.5kW、H100は10.2kW。そもそも100V駆動ではないという話はおいておいても、DGX-H100を起動したら2家庭分のブレーカーが落ちるくらいの電源を必要とします。これに耐えられる事業所、研究所はなかなか無いです。