Bir GPU sunucusu sıraya almak kolaydır; GPU'yu 8 farklı iş yükü arasında adil ve verimli paylaştırmak uzmanlık ister. Bu rehber; NVIDIA GPU Operator kurulumundan MIG bölümlendirmeye, time slicing ile maliyet optimizasyonundan model eğitim kuyruklarına kadar OpenShift üzerindeki GPU iş yükü yönetimini teknik doğrulukla ele alır.
GPU'lar pahalı kaynaklardır. Bir model eğitim işi GPU'yu yalnızca gece birkaç saat kullanıyorsa, gün içindeki boşta kalan kapasiteyi diğer iş yüklerine açmak hem maliyeti hem de kaynak verimliliğini doğrudan etkiler. NVIDIA OpenShift üzerinde iki farklı paylaşım mekanizması sunar ve bunların farkını anlamak doğru stratejiyi belirlemenin temelidir.
| Özellik | Time Slicing | MIG (Multi-Instance GPU) |
|---|---|---|
| Donanım yalıtımı | ✗ Yok | ✔ Bellek ve hata yalıtımı |
| Bellek paylaşımı | Tüm bellek görünür, korumasız | Her örneğe sabit bellek |
| Desteklenen GPU | Tüm NVIDIA GPU'lar | Yalnızca A30, A100, H100 |
| Bölüm sayısı | Yapılandırılabilir (ör. 8) | GPU modeline göre sabit profiller |
| Kurulum karmaşıklığı | Basit (ConfigMap) | Orta (profil seçimi gerekir) |
| İdeal kullanım | Geliştirme, küçük inferans | Üretim, çok kiracılı ortam |
NFD, cluster node'larının donanım özelliklerini (CPU, PCI cihazları, GPU varlığı) keşfederek node etiketleri oluşturur. GPU Operator bu etiketlere dayanır. NFD kurulmadan GPU Operator GPU node'larını bulamaz.
ClusterPolicy, GPU Operator'ün tüm bileşenlerini (driver, device plugin, DCGM exporter) yapılandıran ana kaynaktır.
nvidia.com/gpu kaynağının görünmesi gerekir.Time slicing, CUDA zaman dilimlendirmesi aracılığıyla tek bir GPU'yu birden fazla pod'a eş zamanlı olarak sunar. Her GPU modeli için ayrı bir yapılandırma tanımlanabilir; farklı GPU türleri aynı cluster'da farklı replica sayısıyla çalışabilir.
MIG, A100 ve H100 GPU'larında donanım düzeyinde yalıtım sağlar. Her MIG örneği (instance), kendi bellek dilimi ve hesaplama birimlerine sahiptir; bir pod'un çökmesi diğerini etkilemez. Üretim ortamları için zorunlu kabul edilmesi gereken bir güvenlik katmanıdır.
| Profil | GPU Dilimleri | Bellek | Maks. Örnek |
|---|---|---|---|
| mig-1g.10gb | 1/7 | 10 GB | 7 |
| mig-2g.20gb | 2/7 | 20 GB | 3 |
| mig-3g.40gb | 3/7 | 40 GB | 2 |
| mig-7g.80gb | 7/7 | 80 GB | 1 (tam GPU) |
GPU Operator iki MIG stratejisi destekler: single (tüm GPU'lar aynı profil) veya mixed (her node farklı profil). Çok kiracılı ortamlar için mixed daha esnektir.
GPU kaynakları kısıtlı olduğunda iş yüklerinin doğru sıralanması kritiktir. OpenShift'in yerleşik zamanlayıcısına ek olarak, GPU iş yükleri için özel önceliklendirme ve kuyruklama yapılandırmaları uygulanabilir.
Red Hat OpenShift AI (RHOAI), GPU iş yüklerini JupyterHub notebook'larından model servis platformlarına kadar yönetir. GPU Operator, RHOAI'ın GPU kaynaklarına erişiminin ön koşuludur.
| Belirti | Olası Neden | Çözüm |
|---|---|---|
| Pod Pending, 0/N GPU | GPU Operator pod'ları hazır değil veya NFD etiketleri eksik | GPU Operator pod durumunu ve node etiketlerini kontrol edin |
| nvidia-smi: command not found | Driver pod çalışmıyor | nvidia-gpu-operator namespace'indeki driver pod loglarını inceleyin |
| Time slicing replica görünmüyor | ConfigMap ClusterPolicy'ye bağlanmamış | ClusterPolicy patch'ini doğrulayın, device-plugin pod'unu yeniden başlatın |
| MIG profil node'da yok | Node etiketi yanlış veya GPU modeli MIG desteklemiyor | nvidia.com/mig.config etiketini doğrulayın, GPU modelini kontrol edin |
Siaflex Compute Cloud, OpenShift AI iş yükleri için GPU node'larını yönetilen altyapıda sunar. GPU Operator önceden yapılandırılmış, MIG profilleri hazır, model eğitim altyapısını dakikalar içinde kullanıma alabilirsiniz.
ESH Bilişim, Red Hat CCSP yetkinliğiyle OpenShift kurulumu, GPU Operator yapılandırması ve RHOAI MLOps pipeline tasarımı konularında saha desteği sağlar.