KServe: Serverless ML Inferencing

Warum ein InferenceService mehr ist als ein Kubernetes Deployment.

Serverless Skalierung

Skaliert auf null Pods bei Inaktivität und spart wertvolle GPU-Ressourcen.

Standardisiertes Protokoll

Nutzt das V2 Inference Protocol für eine einfache und konsistente Integration.

Canary Deployments

Ermöglicht sicheres A/B-Testing durch intelligentes Traffic Splitting.

Abstraktion

Fokus auf das Was (Modell, Runtime), nicht das Wie (Container-Details).

Beispiel: InferenceService

apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  name: deepseek-tuned
spec:
  predictor:
    model:
      modelFormat:
        name: vllm
      storageUri: pvc://path/to/model
      resources:
        limits:
          nvidia.com/gpu: '1'
  # Konfiguration für serverloses Verhalten
  minReplicas: 0   # Auf 0 skalieren
  maxReplicas: 3   # Hochskalieren bei Last