Başarı için kritik öneme sahip gen yapay zeka teknoloji yığınında NVIDIA ve Supermicro
Üretken yapay zeka, sektörlere yıllık olarak 2,6 trilyon ila 4,4 trilyon dolar eşdeğeri katkı sağlayabilir . Ama aynı zamanda kaynaklara da aç; daha önce gelen tüm teknolojilerden katlanarak daha fazla bilgi işlem, kaynak, ağ ve depolama tüketiyor. Verilere erişmek ve bunları işlemek, önceden eğitilmiş modelleri özelleştirmek ve bunları optimum düzeyde ve uygun ölçekte çalıştırmak, yeni teknik uzmanlığın yanı sıra eksiksiz bir yapay zekaya hazır donanım ve yazılım yığını gerektirir.
NVIDIA’nın kıdemli ürün pazarlama müdürü Anthony Larijani ve Supermicro’nun kıdemli ürün pazarlama müdürü Yusuke Kondo, OctoML’in kurucu ortağı ve CEO’su Luis Ceze ile üretken yapay zekanın bir kuruluşa nerede fayda sağlayabileceğinin nasıl belirleneceği ve kullanımıyla nasıl denemeler yapılabileceği hakkında konuştu. vakalar ve bir gen yapay zeka stratejisini desteklemek için kritik olan teknoloji.
Altyapı kararları ve iş yükü hususları
Laricani, ihtiyaçların altyapıyla eşleştirilmesinin ilk önemli gereklilik olduğunu söylüyor.
“Bunu yapmanın yolu nihai hedefi akılda tutarak başlamaktır” diye açıklıyor. “Bu altyapının ne için kullanılacağını hayal ettiğinizi, üzerinde çalışan iş yükü türlerini nasıl gördüğünüzü görselleştirmeye çalışın. Örneğin, çok büyük ölçekli bir temel modelin eğitimi doğrultusundaysa, çok sayıda kullanıcıya gerçek zamanlı performans sunması gereken bir çıkarım uygulaması sunmak için farklı hesaplama gereksinimlerine sahip olacaktır.”
Ölçeklenebilirlik de bu noktada devreye giriyor. Yalnızca modelin iş yükünü değerlendirmeniz gerekmez, aynı zamanda çalıştırıyor olabileceğiniz uygulamadaki talep türünü de tahmin etmeniz gerekir. Bu, ister toplu tipte bir kullanım durumu, ister sohbet robotu gibi gerçek zamanlı bir kullanım durumu olsun, çalıştıracağınız çıkarım iş yükü türleriyle ilgili diğer hususlarla örtüşmektedir.
Bulut ve şirket içi hususlar
Nesil AI uygulamaları genellikle ölçek gerektirir ve bu, bulut ve şirket içi değerlendirmelerin konuşmaya dahil olduğu anlamına gelir. Kondo, bunun açıkça ihtiyaç duyulan kullanım senaryosuna ve ölçeğe bağlı olduğunu ancak bunun yine de kritik ve temel bir karar olduğunu açıklıyor.
“Bulutu kullandığınızda elbette daha fazla esnekliğe ve kapsama alanına sahip olursunuz. Ölçek büyütmeniz gerektiğinde bunu yapabilirsiniz” diyor. “Şirket içi çalışmaya başladığınızda, kendiniz için bilişime ne kadar yatırım yapmanız gerektiğine karar vermeden önce bunu planlamanız ve nasıl ölçeklendireceğinizi tahmin etmeniz gerekir. Bu büyük bir başlangıç maliyeti gerektirecek.”
Ancak üretken yapay zeka, özellikle ChatGPT gibi halka açık bir API’ye veri beslerken ve kontrol sorunlarını da beraberinde getirirken tamamen yeni bir düzeyde veri gizliliği hususları getiriyor; iş yükünü uçtan uca kontrol etmek mi istiyorsunuz, yoksa yalnızca API’den yeterince yararlanmak mı istiyorsunuz? Ve tabii ki, üretken yapay zeka yolculuğunuzda nerede olduğunuza bağlı olarak bir maliyet de var; bazı küçük deneylerle yeni başlıyorsunuz veya ölçeklendirmeye başlamaya isteklisiniz.
“Baktığınız projenin büyüklüğüne karar vermelisiniz. Sadece GPU bulutunu kullanmak mantıklı mı?” diyor. “Maliyet düşerken, hesaplama yeteneğinin arttığını tahmin ediyoruz. Altyapının mevcut fiyatına bakıldığında yalnızca GPU bulut örneklerini kullanmak mantıklı mı? Kendi yapay zeka altyapınıza çok fazla sermaye harcamak yerine, bunu GPU bulutunu kullanarak test etmek isteyebilirsiniz.”
Açık kaynak ve tescilli modeller
Laricani, şu anda kuruluş içindeki kullanım durumlarına yönelik dağıtımlar için daha küçük ölçekli, daha özelleştirilmiş, özel model türlerine doğru bir eğilim olduğunu söylüyor. Artırılmış üretimin alınması gibi teknikler sayesinde, özel verileri kullanabilen LLM’lerden yararlanmanın etkili yolları ortaya çıkıyor ve bu, altyapı seçimini doğrudan etkiliyor. Bu özel modeller daha az eğitim gereksinimi içerir.
“Bu modelin yalnızca kullanım durumunuza uygun olan bir kısmını yeniden eğitebilmek, eğitim süresini ve maliyetini azaltır” diye açıklıyor. “Müşterilerin maliyet açısından engelleyici olan kaynak türlerini gerçekten bu tür performansı gerektiren iş yükleri için ayırmalarına ve bu tür iş yüklerini çalıştırmak için maliyeti daha optimize edilmiş çözümlerden yararlanmalarına olanak tanıyor.”
İster açık kaynak ister tescilli olun, modeli ihtiyaçlarınıza göre nasıl boyutlandırırsınız?
Kondo, “Açık kaynaklı modeller kullanıyorsanız, temel modellerin daha özel bir duruma getirilmesi için ince ayar yapılması gerekiyor” diyor. “Bu, maliyetinizin optimizasyonunu ve GPU’ların altyapı kullanımınızın optimizasyonunu etkileyecek. Yatırım yaptığınız şeyi boşa harcamak istemezsiniz.”
Yazılım yığınınızla donanımı en üst düzeye çıkarma
Seçtiğiniz donanımdan en iyi şekilde yararlanmak aynı zamanda karmaşık bir sistem yazılımı yığını anlamına da gelir.
Kondo, “Bu yalnızca tek bir düzey değil; raf ölçeği ve ardından küme düzeyinde uygulama var” diyor. “Büyük ölçekli altyapı söz konusu olduğunda, açıkçası bu, açık kaynaklı bir modeli tek bir sistemle çalıştırmaktan çok daha karmaşık. Çoğu zaman gördüğümüz şey, NVIDIA konu uzmanlarını ilk aşamalardan itibaren dahil ettiğimiz, hatta rafları tasarladığımız, kümeyi NVIDIA’nın bir araya getirdiği yazılım kitaplıkları ve mimarisine dayalı olarak tasarladığımızdır. Müşteriler için doğru çözümü oluşturmak amacıyla NVIDIA ile yakın işbirliği içinde çalışarak rafları onların gereksinimlerine göre tasarlıyoruz.”
Laricani, eksiksiz bir yapay zeka yazılım yığını oluşturmanın karmaşık ve kaynak yoğun bir girişim olduğunu, bu nedenle NVIDIA’nın altyapıdan üzerinde çalışan yazılıma kadar tam kapsamlı bir bilgi işlem şirketi olmaya yatırım yaptığını ekliyor. Örneğin, NVIDIA AI kurumsal platformunun bir parçası olan Nemo çerçevesi, müşterilerin bir dizi üretken AI modeli ve uygulamasını oluşturmasına, özelleştirmesine ve dağıtmasına yardımcı olmak için uçtan uca bir çözüm sunuyor. Model eğitim sürecini optimize etmeye ve GPU kaynaklarını on binlerce düğüme verimli bir şekilde tahsis etmeye yardımcı olabilir. Modeller eğitildikten sonra, onları özelleştirerek belirli alanlardaki çeşitli görevlere uyum sağlayabilir.
“Bir kuruluş bunu geniş ölçekte uygulamaya hazır olduğunda Nemo çerçevesi, Triton çıkarım sunucumuz gibi birçok müşterimizin kullandığı ve aşina olduğu tanıdık araçlarla bütünleşir” diye ekliyor. “Müşterilerimizin yüksek verim ve düşük gecikmeyle verimli bir şekilde dağıtım yapmasına yardımcı olacak optimize edilmiş derleyici, bunların hepsi aynı tanıdık platform üzerinden yapılıyor ve hepsi NVIDIA sertifikalı Supermicro sistemlerinde mükemmel çalışacak şekilde optimize ediliyor.”
Yüksek Lisans’ların artan karmaşıklığına karşı geleceğe yönelik hazırlıklar
Kondo, LLM’lerin her geçen gün büyüdüğünü ve bu büyümenin yavaşlayacak gibi görünmediğini söylüyor. En büyük sorun sürdürülebilirliktir ve bu sunucuların güç gereksinimleri endişe vericidir.
“HGXH100’e bakarsanız GPU başına 700 watt olduğuna inanıyorum. Bunun sonunda GPU başına 1000 watt’a ulaşmasını bekliyoruz” diyor. “Bunu 10 yıl öncesiyle karşılaştırdığınızda, bu çok çılgınca. Bunu nasıl ele alacağız? Tamamen sıvı soğutmalı entegre çözümümüz üzerinde çalışmamızın nedenlerinden biri de budur. Güç kullanımı açısından, sıvı soğutma altyapısı tek başına size yüzde 40’ın üzerinde güç tasarrufu sağlayacaktır. Yeşil bilişim bizim girişimlerimizden biri ve bunun inovasyonumuzu kolaylaştıracağına gerçekten inanıyoruz.”
Paralel tarafta, ister model eğitimi ister müşterilere çıkarım hizmeti olsun, dağıtımları optimize etmeye yönelik yazılımın geliştirilmesi açısından devam eden verimlilikler de mevcut. Laricani, kuruluşların bu yeteneklerden uygun maliyetli ve sürdürülebilir bir şekilde yararlanmasına yardımcı olmak için yeni tekniklerin ortaya çıktığını söylüyor.
“Elbette, bu tür modelleri eğitmek için daha optimize edilmiş, yüksek kapasiteli sistemlere yönelik artan bir ihtiyaç olduğunu görüyoruz, ancak bunlara erişme ve bunları uygulama konusunda yeni yöntemlerin ortaya çıktığını da görüyoruz” diyor. “Her hafta olduğu gibi sık sık yapay zeka için yeni bir kullanım örneği görüyoruz. Uzayda kesinlikle çok ilginç şeyler oluyor. Yazılım açısından da ileriye dönük olarak bunları optimize etmek ve daha verimli hale getirmek için çalışacağız.”
Supermicro ve Nvidia AI Yapay Zeka çözümleri ile alakalı danışmanlığa ihtiyaç duyarsanız GTM Teknoloji ile irtibat kurabilirsiniz.