Rehberler›Red Hat OpenShift AI: MLOps Pipeline'ı Sıfırdan Kurmak

How-To Guide · Red Hat OpenShift AI

Red Hat OpenShift AI:MLOps Pipeline'ı Sifirdan Kurmak

OpenShift 4.14+ · RHOAI 2.xSiaflex Compute CloudHaziran 2025

Türkiye'de AI altyapisi talebi patlarken global hyperscaler'lara bagimli olmak zorunda değilsiniz. Siaflex Compute Cloud üzerinde Red Hat OpenShift AI ile veri egemenliginizi koruyarak MLOps pipeline, GPU egitim ortami ve model serving altyapisini nasil kurarsınız, adim adim anlatiyor.

// İçindekiler

01 OpenShift AI Bileşenleri
02 On Kosullar ve Altyapi
03 OpenShift Kurulumu
04 RHOAI Operatoru Kurulumu
05 GPU Node Yapılandırmasi
06 Data Science Project Oluşturma
07 MLOps Pipeline Kurulumu
08 Model Serving ve Inference
09 RBAC ve Kurumsal Erisim
10 İzleme ve Troubleshooting

OpenShift AI Bilesenlerini Anlamak

Red Hat OpenShift AI (RHOAI), MLOps yasam dongusu için gerekli tum bilesenlerı Kubernetes uzerine entegre eden bir platformdur. Model gelistirme, egitim, sürüm yonetimi ve production serving tek bir ortamda yonetilir.

📓

JupyterHub

Notebook ortami, veri bilimci arayuzu

GPU destekli notebook sunuculari

🔄

Kubeflow Pipelines

ML pipeline tanımlamasi ve zamanlamasi

Tekrarlanabilir egitim akislari

📦

Model Registry

Model versiyonlama ve metadata

Hangi model nerede, kim egitti

🚀

Model Serving

KServe ile production inference

REST/gRPC endpoint otomatik

ℹ️

RHOAI vs ODH: Open Data Hub (ODH) upstream komunite projesidir; RHOAI onun Red Hat tarafindan desteklenen, lisanslanmis enterprise versiyonudur. CCSP olan ortamlar için RHOAI tercih edilmeli.

On Kosullar ve Altyapi

✓ OpenShift Container Platform (OCP) 4.14 veya uzeri
✓ En az 3 control plane node (8 vCPU / 32 GB RAM)
✓ GPU worker node (NVIDIA A100 veya H100 tercih edilir)
✓ NVIDIA GPU Operator için CUDA uyumlu surucu
✓ Persistent storage: ODF (OpenShift Data Foundation) veya NFS
✓ Red Hat RHOAI lisansi (CCSP Service Provider lisansi veya subscription)
✓ Dahili veya harici container registry (Quay önerilen)

Kullanim	CPU	RAM	Storage	GPU
Kucuk ekip (<10 kullanıcı)	32 vCPU	128 GB	2 TB NVMe	1x A100
Orta olcek (10-50)	64 vCPU	256 GB	10 TB	4x A100
Kurumsal (50+)	128+ vCPU	512+ GB	50+ TB	8+ H100

OpenShift Kurulumu (Siaflex Compute Cloud)

Siaflex üzerinde altyapiyi talep edin

Siaflex Compute Cloud konsolundan veya destek hatti üzerinden OCP node'larini talep edin. Siaflex, RHEL CoreOS imajlari üzerinde bare-metal veya sanal compute sunabilir.

OCP installer ile kurulum

# openshift-install ile install-config.yaml hazirla
./openshift-install create install-config --dir=ocp-cluster

# install-config.yaml içinde platform: none veya baremetal
# Siaflex ag ve DNS bilgilerini girin

# Kurulumu baslat
./openshift-install create cluster --dir=ocp-cluster --log-level=info

Cluster sagligi dogrulayin

oc get nodes
oc get clusteroperators
# Tum operatorlar Available=True olmali

RHOAI Operatoru Kurulumu

OperatorHub'dan RHOAI operatoru yukleyin

cat << EOF | oc apply -f -
apiVersion: operators.coreos.com/v1alpha1
kind: Subscription
metadata:
  name: rhods-operator
  namespace: redhat-ods-operator
spec:
  channel: stable
  name: rhods-operator
  source: redhat-operators
  sourceNamespace: openshift-marketplace
EOF

DataScienceCluster oluşturun

cat << EOF | oc apply -f -
apiVersion: datasciencecluster.opendatahub.io/v1
kind: DataScienceCluster
metadata:
  name: default-dsc
spec:
  components:
    dashboard: {managementState: Managed}
    workbenches: {managementState: Managed}
    datasciencepipelines: {managementState: Managed}
    kserve: {managementState: Managed}
    modelmeshserving: {managementState: Managed}
EOF

Dashboard erisimini dogrulayin

oc get route rhods-dashboard -n redhat-ods-applications
# https://rhods-dashboard-redhat-ods-applications.apps.cluster.example.com

GPU Node Yapılandırmasi

Node Feature Discovery (NFD) yukleyin

# NFD olmadan GPU node'lari otomatik isaretlenmez
oc apply -f https://raw.githubusercontent.com/kubernetes-sigs/node-feature-discovery/master/nfd-master.yaml

NVIDIA GPU Operator yukleyin

cat << EOF | oc apply -f -
apiVersion: operators.coreos.com/v1alpha1
kind: Subscription
metadata:
  name: gpu-operator-certified
  namespace: nvidia-gpu-operator
spec:
  channel: stable
  name: gpu-operator-certified
  source: certified-operators
  sourceNamespace: openshift-marketplace
EOF

# GPU node'u dogrula
oc describe node gpu-worker-01 | grep -i nvidia

GPU tolerasyon ile notebook testi

# RHOAI Dashboard üzerinden yeni Workbench → GPU sayi 1 sec
# Notebook içinde test:
import torch
print(f"CUDA available: {torch.cuda.is_available()}")
print(f"GPU count: {torch.cuda.device_count()}")
print(f"GPU name: {torch.cuda.get_device_name(0)}")

Data Science Project Oluşturma

RHOAI'da her takimin kendi izole namespace'i vardir. Proje oluşturuldugunda JupyterHub, pipeline server ve model registry otomatik provizyon edilir.

Dashboard üzerinden proje oluşturun

RHOAI Dashboard → Data Science Projects → Create Project. Proje adi, kaynak kotasi ve takım uyeleri bu adimda tanımlanir.

Data Connection ekleyin

Egitim verisi için S3-uyumlu nesne deposu tanımlayin. Siaflex Ceph veya harici MinIO endpoint buraya girilir.

Workbench baslatin

PyTorch, TensorFlow veya kustom container imaji secin. GPU sayi, CPU ve RAM kotasini belirleyin. Notebook sunucusu dakikalar içinde hazir.

MLOps Pipeline Kurulumu (Kubeflow)

from kfp import dsl, compiler
from kfp.dsl import component, pipeline

@component(base_image="python:3.11", packages_to_install=["scikit-learn","pandas"])
def train_model(data_path: str, model_output: str, accuracy: dsl.Output[float]):
    import pickle, pandas as pd
    from sklearn.ensemble import RandomForestClassifier
    from sklearn.model_selection import train_test_split

    df = pd.read_csv(data_path)
    X_train, X_test, y_train, y_test = train_test_split(
        df.drop("label",axis=1), df["label"], test_size=0.2)
    model = RandomForestClassifier(n_estimators=100)
    model.fit(X_train, y_train)
    accuracy.value = model.score(X_test, y_test)
    with open(model_output, "wb") as f:
        pickle.dump(model, f)

@pipeline(name="train-pipeline")
def training_pipeline(data_path: str = "s3://datasets/train.csv"):
    task = train_model(data_path=data_path, model_output="/models/rf_model.pkl")

compiler.Compiler().compile(training_pipeline, "pipeline.yaml")

💡

Pipeline YAML'ini RHOAI Pipelines sekmesinden yukleyin. Calismayi zamanlayin, parametre gecin ve her run'in loglarini merkezi olarak takip edin.

Model Serving ve Inference

Model Registry'ye modeli yukleyin

RHOAI Dashboard → Model Registry → Register Model. Model versiyon, metadata ve artifact lokasyonu girilir.

Serving runtime secin

KServe ile OpenVINO, Triton Inference Server veya MLServer arasinda secim yapin. Model formatina gore dogru runtime secilmelidir (ONNX, PyTorch, TensorFlow vb.).

InferenceService oluşturun

apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  name: rf-classifier
  namespace: ml-project
spec:
  predictor:
    model:
      modelFormat: {name: sklearn}
      storageUri: s3://models/rf_model.pkl
      resources:
        requests: {cpu: "1", memory: 2Gi}
        limits:   {cpu: "2", memory: 4Gi}

Inference endpoint'i test edin

curl -X POST https://rf-classifier.apps.cluster.example.com/v1/models/rf-classifier:predict \
  -H "Content-Type: application/json" \
  -d '{"instances": [[5.1, 3.5, 1.4, 0.2]]}'

RBAC ve Kurumsal Erisim Yönetimi

Rol	Yetkiler	Tipik Kullanici
Cluster Admin	Tum proje yonetimi, operator kurulumu	Platform ekibi
Data Science Project Admin	Proje icerisinde tam yetki	Takım lideri
Data Scientist	Notebook, pipeline, model kayıt	Veri bilimci
Model Deployer	Yalnızca serving operasyonlari	MLOps muhendisi
View-only	Monitoring ve loglar	Yonetici / denetci

# Kullaniciya Data Scientist rolu ver
oc adm policy add-role-to-user edit kullanıcı-adi -n ml-project
# RHOAI Dashboard üzerinden proje Settings → Permissions ile de yapilabilir

İzleme ve Troubleshooting

Sorun	Sebep	Çözüm
Notebook baslatatmiyor	GPU resource limit asimi	oc describe pod ile resource request loguna bak
Pipeline pod beklemede	PVC baglanamadi	oc get pvc -n ml-project, storage class kontrol et
Model serving timeout	Model boyutu çok büyük, pull süresi uzun	Pre-pull image, storage lokasyonunu yakinlastir
CUDA out of memory	Batch size çok büyük	Batch size kucult, gradient accumulation kullan

Siaflex Compute

OpenShift AI ve GPU Altyapisi

Siaflex Compute Cloud, OpenShift AI is yuklerine optimize GPU node'lari, yuksek bant genislikli storage ve veri egemenligini koruyan yerel Turkiye altyapisi sunar. RHOAI lisansi, kurulumu ve MLOps mimari tasarimi için iletisime gecin.

🌐 siaflex.com ✉ mehmet.aydin@siaflex.com

ESH Bilişim

Red Hat CCSP ve OpenShift Danismanligi

ESH Bilişim, Red Hat CCSP Service Provider lisanslama, Satellite, OpenShift kurulum ve RHOAI entegrasyonu konularinda danismanlik verir.

🌐 eshbilisim.com ✉ mehmet.aydin@eshbilisim.com

OpenShift AIMLOpsGPUKServeSiaflexRed Hat

↑ Başa Dön

Adım Takibi

0/10

Paylas

Bu Rehberle İlgili AI Araçlar

Architecture Decision Recorder→