Sıvı Soğutmalı Supermicro SYS-821GE-TNHR
Sıvı Soğutmalı Supermicro SYS-821GE-TNHR 8x NVIDIA H100 Yapay Zeka Sunucusuna Bir Bakış
Sıvı Soğutmalı Supermicro SYS-821GE-TNHR
Supermicro Yatay Manifold SYS 821GE TNHR ve CDU 1
Sıvı Soğutmalı Supermicro SYS-821GE-TNHR 8x NVIDIA H100 Yapay Zeka Sunucusuna Bir Bakış
Supermicro’ya bu parçayı yaptığımızı söylemedik ama orijinal parçanın uçuş masraflarını onlar ödediği için bunun sponsorlu olduğunu söylemek zorundayız.
Burada yatay raf manifoldu üstte ve Supermicro soğutma dağıtım ünitesi (CDU) altta olacak şekilde resimde görülen sistem görülmektedir.
Supermicro Yatay Manifold SYS 821GE TNHR ve CDU 1
Görüldüğü gibi yatay raf manifoldu, sıvı soğutma için beş farklı giriş/çıkış çiftine izin verir.
Bu çiftlerden dördü üst tepsiye, biri de CPU tepsisine gider.
İşte hortumların hepsi bağlantısı kesilmiş. On hızlı bağlantı kesme tertibatının tamamının bağlantısını kesmek yaklaşık 20 saniye sürdü.
Bu sistemdeki GPU tepsisi dışarı doğru kayar. Piyasada hâlâ GPU tepsisinin bu kadar kolay kaymadığı birkaç sistem var, bu da fark yaratıyor. GPU’lar aslında özellikle 24×7 HPC veya AI kümelerinde başarısız oluyor, dolayısıyla bu, üst düzey kurulumlar için hemen hemen gerekli bir özelliktir.
Tepsinin içinde, tek bir NVSwitch bloğuna sahip dört set çift GPU sıvı soğutma bloğunu görebiliyoruz. Her üç bileşen de bir döngü kullanılarak soğutulur ve sistemde GPU’lar için dört döngü bulunur.
İşte NVSwitch tarafının kasanın önünde olduğu başka bir görünüm.
NVSwitch’leri soğutmayan başka sıvı soğutma çözümleri de gördük, ancak bunların her biri 100W’ın çok üzerinde olduğundan fan hızlarını düşük tutmak için sıvıyla soğutulmaları gerekiyor.
İşte GPU tarafından sıvı soğutma bloğuna bir bakış.
İşte diğer taraf.
Bunlar Supermicro olarak tasarlandıkları için küçük logoları bile var.
İşte NVSwitch için daha küçük blok.
İşte iki GPU soğuk plakasının ve NVSwitch soğuk plakasının bulunduğu alt kısım.
Başka bir açıdan baktığımızda, H100’ün tüm önemli bileşenleri için macun ve pedleri görebiliriz.
İşte taşırken yapıştırmayı bozduğumuz veya bozmadığımız NVSwitch bloğu.
GPU tepsisinin altında CPU ve depolama tepsisi bulunur.
Burada sistem için bir dizi depolama alanını ve CPU soğutma döngüsü için iki giriş hortumunu görebiliriz.
Sağ tarafta IPMI ve yerel yönetim gibi özellikler için kasa yönetim modülünü görüyoruz.
İşte CPU soğutma döngüsüne ve fanlarına daha iyi bir bakış. DDR5 modülleri, PCIe anahtarları vb. gibi düşük güçlü bileşenlerin tamamını soğutmak için fanlara hâlâ ihtiyaç duyuluyor.
CPU’yu ve depolama tepsisini dışarı çektiğimizde pek çok şeyin olduğunu görebiliriz.
Havayı 32 DDR5 DIMM yuvası üzerinden yönlendirmek için bir hava akışı kılavuzu bulunmaktadır.
Burada CPU sıvı soğutma bloğunu görüyoruz. Unutulmaması gereken bir nokta, Supermicro’nun bu sunucuda kullanılabilecek hem Intel Xeon hem de AMD EPYC CPU tepsilerine sahip olmasıdır; bu nedenle, Intel’in yerleşik hızlandırıcıları veya 128 çekirdekli AMD EPYC Bergamo parçaları gibi ilginç bir şey kullanmak istenirse, bunun özelleştirilmesi oldukça kolaydır.
Bugünlerde yapay zeka sunucularının büyük bir kısmı PCIe anahtarlarından oluşuyor. CPU’lar, PCIe anahtar kartı ve diğer bileşenler arasında kablolu bağlantılara ihtiyacımız olduğundan burada PCIe kablolarını görebiliriz.
Bu soğutucuların altında PCIe anahtarlarımız var.
İşte başka bir PCIe kablosu seti.
İşte bunların üstten görünümü.
Burada DP801 genişletme modelini görebiliriz. NIC DP801’ler, PCIe genişletici DP801’ler ve daha fazlası var.
Sistemin arka kısmına baktığımızda, önde gelen AI sistem oyuncularının sunduğu oldukça standart bir özellik seti görüyoruz. Arkada güç kaynakları, ağ ve fanlar bulunur.
Fanlar çalışırken değiştirilebilir ve güç kaynakları büyüktür.
Her güç kaynağı 3kW PSU’dur. Tahmin edilebileceği gibi Supermicro bu sistemi yalnızca mevcut nesil GPU’lar için değil aynı zamanda gelecekteki GPU’lar için de geliştirdi. Sistem aynı zamanda daha yüksek şasi güç çekişi beklediğimiz hava soğutması için de alternatif olarak tasarlanmıştır.
İşte ağ tepsisine bir bakış. Ağ tepsisinde Infiniband, 100GbE, 200GbE, 400GbE adaptörleri ve daha fazlası bulunabilir. Hatta burada iki adet bakır port görüyoruz.
Görüldüğü gibi, kolay servis ve kişiselleştirme için ağ tepsisi çıkarılabilir.
Fark etmiş olabileceğiniz gibi bu sunucuların birden fazlasına baktık. Hava soğutma ve sıvı soğutma için NVIDIA H100 80GB GPU’ların performansına baktığımızda performansın fiilen aynı olduğunu gördük. Sıvı soğutma seçeneğinin tercih edilmesinin nedeni, daha düşük güç tüketimi, dolayısıyla daha düşük işletme maliyetleri ve potansiyel olarak daha yüksek raf yoğunluğudur.
Son sözler
Çoğu zaman insanlar tüm NVIDIA H100 8 yollu Delta Next sistemlerinin aynı olduğunu varsayar. Artık hemen hemen tüm seçeneklerle uygulamalı zaman geçirdiğimize göre, bunların öyle olmadığı açık. Hava soğutma ve Intel Xeon Sapphire Rapids (ve yakında Emerald Rapids) bu noktada masada yer alıyor. Fiyatlandırma, kullanılabilirlik, servis kolaylığı ve sıvı soğutma, AMD seçenekleri, farklı NIC’ler ve daha fazlası gibi özelliklerle özelleştirme yeteneği bu noktada en büyük fark yaratan unsurlardır.
Umarım bu Supermicro SYS-821GE-TNHR sistemine harika bir bakış olmuştur. Bu, yapay zeka için son derece popüler olan devasa sistemlerden biridir. 2016/2017’den beri Supermicro AI GPU eğitim sistemlerine bakıyoruz ve 8x ve 10x PCIe GPU eğitim sunucularından günümüzün çok esnek sıvı soğutmalı seçeneklerine nasıl geldiğimiz harika.
Daha fazla bilgi edinmek için bizimle iletişime geçin!