Serverless Skalierung
Skaliert auf null Pods bei Inaktivität und spart wertvolle GPU-Ressourcen.
Standardisiertes Protokoll
Nutzt das V2 Inference Protocol für eine einfache und konsistente Integration.
Canary Deployments
Ermöglicht sicheres A/B-Testing durch intelligentes Traffic Splitting.
Abstraktion
Fokus auf das Was (Modell, Runtime), nicht das Wie (Container-Details).
Beispiel: InferenceService
apiVersion: serving.kserve.io/v1beta1 kind: InferenceService metadata: name: deepseek-tuned spec: predictor: model: modelFormat: name: vllm storageUri: pvc://path/to/model resources: limits: nvidia.com/gpu: '1' # Konfiguration für serverloses Verhalten minReplicas: 0 # Auf 0 skalieren maxReplicas: 3 # Hochskalieren bei Last