NVIDIAネットワーク製品責任者が語るAIデータセンター向けネットワークの重要性と次世代技術

138DATA

AI時代における半導体産業の勝者であるNVIDIAの強みは、GPUとCUDAだけではない。複数のGPUを1つのGPUとして扱える技術と、それを支えるネットワークコントローラが重要な要素となっている。今回、NVIDIAネットワーキング担当上級副社長ギラッド・シャイナー氏へのインタビューから、同社のネットワーク製品の特徴と将来性について紹介する。

CUDAによる複数GPU統合がAI学習で重要な理由

AI学習にNVIDIA GPUが採用される最大の理由は、スケーラビリティにあると記事では報じられている。AIモデルを構築するには膨大な量のデータを利用した学習が必要で、これには膨大な時間がかかるため、研究者たちが2010年代半ばにCPUからGPUに切り替えたとのことだ。

NVIDIAは2006年にCUDAを導入した際、複数のGPUをクラスターとして利用できる仕組みを採用したと報じられている。これにより、GPUが1基でも512基でも、ソフトウェアからは1つのGPUとして見え、ソフトウェア開発者がハードウェアの詳細を知らなくても、GPU数を増やすだけで性能が向上するようになったとのことだ。

ネットワーク性能がGPUクラスターの鍵を握る

ハードウェアの視点では、性能を低下させないためにGPU間を接続するインターコネクトやネットワークの性能が重要になると、シャイナー氏は説明している。これらの性能が低いと、「GPUがインターコネクトやネットワークの先にある、ほかのGPUの処理が終わるまで待たないといけなくなり、その間GPUはただ待っているだけになる」と同氏は述べている。

記事によると、NVIDIAは3つのスケーリング手法を提供している。スケールアップ(ラック内でのクラスター化)、スケールアウト(ラック間のクラスター化)、そしてスケールアクロス(クラスターのさらなるクラスター化)だ。

第6世代NVLinkで帯域幅が3.6TB/秒に向上

スケールアップには、NVLinkと呼ばれるインターコネクトが利用されていると報じられている。現在のBlackwell世代では第5世代NVLinkが提供され、1.8TB/秒の帯域幅を実現しているが、1月のCESで発表された次世代GPU「Rubin」では第6世代へと強化され、帯域幅は3.6TB/秒へと倍増するとのことだ。

NVLinkには、NVLink Switchというスイッチコントローラが提供されており、複数のインターコネクトから構成されるネットワークを切り替えて活用できるようになると記事では説明されている。これにより、理論上はすべてのネットワークでフルの帯域幅を確保でき、効率的なスケールアップが可能になるとのことだ。

コスト効率を考慮した段階的なスケーリング戦略

記事によると、NVLink SwitchのコストはEthernetスイッチなどに比べて高価であり、必要以上にスケールアップすると費用対効果が下がってしまうという。そのため、ある程度の台数まではNVLinkとNVLink Switchでスケールアップし、その後はInfiniBandやEthernet(現状1ポートで最大800Gb/秒)などでスケールアウトするのが一般的だと説明されている。

現状では、NVIDIA自身の標準的なラックデザインとなるGB200 NVL72、Vera Rubin NVL72のように、CPU36基/GPU72基までという構成が採用されているとのことだ。

AIから見た分析

短期的影響:第6世代NVLinkによる帯域幅の倍増は、AI学習の高速化に直結し、データセンター事業者にとって競争優位性の確保につながる可能性があります。特に大規模なAIモデル開発において、処理時間の短縮は開発コストの削減に直結します。

中長期的影響:NVIDIAのネットワーク技術統合戦略は、AI分野における同社の支配的地位をさらに強固にする可能性があります。GPU、インターコネクト、ネットワークの一体的な最適化により、他社製品との互換性よりもNVIDIAエコシステム内での効率性が重視される傾向が続くと予想されます。

読者への示唆:AI関連事業を検討している企業は、単純なGPU性能だけでなく、ネットワーク帯域幅やスケーリング戦略も含めた総合的なシステム設計の重要性を理解し、長期的な投資計画を立てることが推奨されます。