DIABOLIKSS
Rehberler|Red Hat OpenShift AI: MLOps Pipeline'ı Sıfırdan Kurmak
How-To Guide · Red Hat OpenShift AI

Red Hat OpenShift AI:MLOps Pipeline'ı Sifirdan Kurmak

OpenShift 4.14+ · RHOAI 2.xSiaflex Compute CloudHaziran 2025

Türkiye'de AI altyapisi talebi patlarken global hyperscaler'lara bagimli olmak zorunda değilsiniz. Siaflex Compute Cloud üzerinde Red Hat OpenShift AI ile veri egemenliginizi koruyarak MLOps pipeline, GPU egitim ortami ve model serving altyapisini nasil kurarsınız, adim adim anlatiyor.

01

OpenShift AI Bilesenlerini Anlamak

Red Hat OpenShift AI (RHOAI), MLOps yasam dongusu için gerekli tum bilesenlerı Kubernetes uzerine entegre eden bir platformdur. Model gelistirme, egitim, sürüm yonetimi ve production serving tek bir ortamda yonetilir.

📓
JupyterHub
Notebook ortami, veri bilimci arayuzu
GPU destekli notebook sunuculari
🔄
Kubeflow Pipelines
ML pipeline tanımlamasi ve zamanlamasi
Tekrarlanabilir egitim akislari
📦
Model Registry
Model versiyonlama ve metadata
Hangi model nerede, kim egitti
🚀
Model Serving
KServe ile production inference
REST/gRPC endpoint otomatik
ℹ️
RHOAI vs ODH: Open Data Hub (ODH) upstream komunite projesidir; RHOAI onun Red Hat tarafindan desteklenen, lisanslanmis enterprise versiyonudur. CCSP olan ortamlar için RHOAI tercih edilmeli.
02

On Kosullar ve Altyapi

  • OpenShift Container Platform (OCP) 4.14 veya uzeri
  • En az 3 control plane node (8 vCPU / 32 GB RAM)
  • GPU worker node (NVIDIA A100 veya H100 tercih edilir)
  • NVIDIA GPU Operator için CUDA uyumlu surucu
  • Persistent storage: ODF (OpenShift Data Foundation) veya NFS
  • Red Hat RHOAI lisansi (CCSP Service Provider lisansi veya subscription)
  • Dahili veya harici container registry (Quay önerilen)
KullanimCPURAMStorageGPU
Kucuk ekip (<10 kullanıcı)32 vCPU128 GB2 TB NVMe1x A100
Orta olcek (10-50)64 vCPU256 GB10 TB4x A100
Kurumsal (50+)128+ vCPU512+ GB50+ TB8+ H100
03

OpenShift Kurulumu (Siaflex Compute Cloud)

1
Siaflex üzerinde altyapiyi talep edin

Siaflex Compute Cloud konsolundan veya destek hatti üzerinden OCP node'larini talep edin. Siaflex, RHEL CoreOS imajlari üzerinde bare-metal veya sanal compute sunabilir.

2
OCP installer ile kurulum
# openshift-install ile install-config.yaml hazirla ./openshift-install create install-config --dir=ocp-cluster # install-config.yaml içinde platform: none veya baremetal # Siaflex ag ve DNS bilgilerini girin # Kurulumu baslat ./openshift-install create cluster --dir=ocp-cluster --log-level=info
3
Cluster sagligi dogrulayin
oc get nodes oc get clusteroperators # Tum operatorlar Available=True olmali
04

RHOAI Operatoru Kurulumu

1
OperatorHub'dan RHOAI operatoru yukleyin
cat << EOF | oc apply -f - apiVersion: operators.coreos.com/v1alpha1 kind: Subscription metadata: name: rhods-operator namespace: redhat-ods-operator spec: channel: stable name: rhods-operator source: redhat-operators sourceNamespace: openshift-marketplace EOF
2
DataScienceCluster oluşturun
cat << EOF | oc apply -f - apiVersion: datasciencecluster.opendatahub.io/v1 kind: DataScienceCluster metadata: name: default-dsc spec: components: dashboard: {managementState: Managed} workbenches: {managementState: Managed} datasciencepipelines: {managementState: Managed} kserve: {managementState: Managed} modelmeshserving: {managementState: Managed} EOF
3
Dashboard erisimini dogrulayin
oc get route rhods-dashboard -n redhat-ods-applications # https://rhods-dashboard-redhat-ods-applications.apps.cluster.example.com
05

GPU Node Yapılandırmasi

1
Node Feature Discovery (NFD) yukleyin
# NFD olmadan GPU node'lari otomatik isaretlenmez oc apply -f https://raw.githubusercontent.com/kubernetes-sigs/node-feature-discovery/master/nfd-master.yaml
2
NVIDIA GPU Operator yukleyin
cat << EOF | oc apply -f - apiVersion: operators.coreos.com/v1alpha1 kind: Subscription metadata: name: gpu-operator-certified namespace: nvidia-gpu-operator spec: channel: stable name: gpu-operator-certified source: certified-operators sourceNamespace: openshift-marketplace EOF # GPU node'u dogrula oc describe node gpu-worker-01 | grep -i nvidia
3
GPU tolerasyon ile notebook testi
# RHOAI Dashboard üzerinden yeni Workbench → GPU sayi 1 sec # Notebook içinde test: import torch print(f"CUDA available: {torch.cuda.is_available()}") print(f"GPU count: {torch.cuda.device_count()}") print(f"GPU name: {torch.cuda.get_device_name(0)}")
06

Data Science Project Oluşturma

RHOAI'da her takimin kendi izole namespace'i vardir. Proje oluşturuldugunda JupyterHub, pipeline server ve model registry otomatik provizyon edilir.

1
Dashboard üzerinden proje oluşturun

RHOAI Dashboard → Data Science Projects → Create Project. Proje adi, kaynak kotasi ve takım uyeleri bu adimda tanımlanir.

2
Data Connection ekleyin

Egitim verisi için S3-uyumlu nesne deposu tanımlayin. Siaflex Ceph veya harici MinIO endpoint buraya girilir.

3
Workbench baslatin

PyTorch, TensorFlow veya kustom container imaji secin. GPU sayi, CPU ve RAM kotasini belirleyin. Notebook sunucusu dakikalar içinde hazir.

07

MLOps Pipeline Kurulumu (Kubeflow)

from kfp import dsl, compiler from kfp.dsl import component, pipeline @component(base_image="python:3.11", packages_to_install=["scikit-learn","pandas"]) def train_model(data_path: str, model_output: str, accuracy: dsl.Output[float]): import pickle, pandas as pd from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split df = pd.read_csv(data_path) X_train, X_test, y_train, y_test = train_test_split( df.drop("label",axis=1), df["label"], test_size=0.2) model = RandomForestClassifier(n_estimators=100) model.fit(X_train, y_train) accuracy.value = model.score(X_test, y_test) with open(model_output, "wb") as f: pickle.dump(model, f) @pipeline(name="train-pipeline") def training_pipeline(data_path: str = "s3://datasets/train.csv"): task = train_model(data_path=data_path, model_output="/models/rf_model.pkl") compiler.Compiler().compile(training_pipeline, "pipeline.yaml")
💡
Pipeline YAML'ini RHOAI Pipelines sekmesinden yukleyin. Calismayi zamanlayin, parametre gecin ve her run'in loglarini merkezi olarak takip edin.
08

Model Serving ve Inference

1
Model Registry'ye modeli yukleyin

RHOAI Dashboard → Model Registry → Register Model. Model versiyon, metadata ve artifact lokasyonu girilir.

2
Serving runtime secin

KServe ile OpenVINO, Triton Inference Server veya MLServer arasinda secim yapin. Model formatina gore dogru runtime secilmelidir (ONNX, PyTorch, TensorFlow vb.).

3
InferenceService oluşturun
apiVersion: serving.kserve.io/v1beta1 kind: InferenceService metadata: name: rf-classifier namespace: ml-project spec: predictor: model: modelFormat: {name: sklearn} storageUri: s3://models/rf_model.pkl resources: requests: {cpu: "1", memory: 2Gi} limits: {cpu: "2", memory: 4Gi}
4
Inference endpoint'i test edin
curl -X POST https://rf-classifier.apps.cluster.example.com/v1/models/rf-classifier:predict \ -H "Content-Type: application/json" \ -d '{"instances": [[5.1, 3.5, 1.4, 0.2]]}'
09

RBAC ve Kurumsal Erisim Yönetimi

RolYetkilerTipik Kullanici
Cluster AdminTum proje yonetimi, operator kurulumuPlatform ekibi
Data Science Project AdminProje icerisinde tam yetkiTakım lideri
Data ScientistNotebook, pipeline, model kayıtVeri bilimci
Model DeployerYalnızca serving operasyonlariMLOps muhendisi
View-onlyMonitoring ve loglarYonetici / denetci
# Kullaniciya Data Scientist rolu ver oc adm policy add-role-to-user edit kullanıcı-adi -n ml-project # RHOAI Dashboard üzerinden proje Settings → Permissions ile de yapilabilir
10

İzleme ve Troubleshooting

SorunSebepÇözüm
Notebook baslatatmiyorGPU resource limit asimioc describe pod ile resource request loguna bak
Pipeline pod beklemedePVC baglanamadioc get pvc -n ml-project, storage class kontrol et
Model serving timeoutModel boyutu çok büyük, pull süresi uzunPre-pull image, storage lokasyonunu yakinlastir
CUDA out of memoryBatch size çok büyükBatch size kucult, gradient accumulation kullan
Siaflex Compute

OpenShift AI ve GPU Altyapisi

Siaflex Compute Cloud, OpenShift AI is yuklerine optimize GPU node'lari, yuksek bant genislikli storage ve veri egemenligini koruyan yerel Turkiye altyapisi sunar. RHOAI lisansi, kurulumu ve MLOps mimari tasarimi için iletisime gecin.

ESH Bilişim

Red Hat CCSP ve OpenShift Danismanligi

ESH Bilişim, Red Hat CCSP Service Provider lisanslama, Satellite, OpenShift kurulum ve RHOAI entegrasyonu konularinda danismanlik verir.

OpenShift AIMLOpsGPUKServeSiaflexRed Hat
↑ Başa Dön