أساسيات Kubernetes لتعلم الآلة

Kubernetes للذكاء الاصطناعي: مشهد 2026

4 دقيقة للقراءة

أصبح Kubernetes طبقة التشغيل الفعلية للخدمات المدفوعة بالذكاء الاصطناعي. مع اعتماد 54% لأعباء عمل AI/ML وأكثر من 70% من المؤسسات التي تشغل أنظمة AI كبيرة على Kubernetes، فهم هذه المنصة ضروري لأي مهندس ML.

واقع السوق

نمو سوق Kubernetes

المقياس 2025 2030 معدل النمو
حجم السوق $2.57B $7.07B 22.4%
حصة تنسيق الحاويات 92% +95% -
النشر الإنتاجي +80% +90% -

اتجاهات أعباء عمل AI/ML:

  • 54% من المنظمات تشغل AI/ML على Kubernetes (Spectro Cloud 2025)
  • +90% من الفرق تتوقع نمو أعباء ML في الـ 12 شهراً القادمة
  • 45% يدمجون موازنة الأعباء المدفوعة بالذكاء الاصطناعي
  • حجم البحث عن "Kubernetes AI" زاد 300% في 2025

لماذا يهيمن Kubernetes على ML

┌────────────────────────────────────────────────────────────────┐
│                    متطلبات منصة ML                              │
├────────────────────────────────────────────────────────────────┤
│  القابلية للتوسع │  مهام التدريب: 1 → 1000 GPU                 │
│  إدارة الموارد   │  GPUs، TPUs، عقد ذاكرة عالية               │
│  إعادة الإنتاج   │  بيئات محتواة                               │
│  تعدد المستأجرين │  الفرق تتشارك موارد المجموعة               │
│  قابلية النقل   │  محلي ↔ سحابة ↔ حافة                        │
│  النظام البيئي  │  Kubeflow، KServe، MLflow، Airflow          │
└────────────────────────────────────────────────────────────────┘
                    Kubernetes يوفر الكل

تطور Kubernetes لـ AI/ML

المعالم الرئيسية (2024-2026)

الإصدار تاريخ الإصدار ميزات AI/ML
1.32 ديسمبر 2024 Memory Manager GA
1.33 أبريل 2025 DRA Beta، In-Place Pod Resize Beta
1.34 أغسطس 2025 DRA GA، OCI Images as Volumes
1.35 ديسمبر 2025 KYAML Beta، DRA محسّن

Kubernetes 1.34: معلم AI/ML

Dynamic Resource Allocation (DRA) GA:

# ResourceClaim لتخصيص GPU
apiVersion: resource.k8s.io/v1
kind: ResourceClaim
metadata:
  name: gpu-claim
spec:
  devices:
    requests:
    - name: gpu
      deviceClassName: nvidia-gpu
      count: 2
---
# Pod يستخدم ResourceClaim
apiVersion: v1
kind: Pod
metadata:
  name: training-job
spec:
  resourceClaims:
  - name: gpu
    resourceClaimName: gpu-claim
  containers:
  - name: trainer
    image: my-training-image:latest
    resources:
      claims:
      - name: gpu

فوائد DRA الرئيسية:

  • اختيار وتخصيص GPU/TPU في الوقت المناسب
  • مشاركة الأجهزة بين عدة Pods
  • تتبع سعة الجهاز القابلة للاستهلاك
  • تقليل تكاليف الأجهزة لأعباء AI/ML

OCI Images as Volumes:

# تحميل أوزان نموذج ML بدون صور أساسية مخصصة
apiVersion: v1
kind: Pod
metadata:
  name: inference-server
spec:
  containers:
  - name: model-server
    image: kserve/serving:latest
    volumeMounts:
    - name: model-weights
      mountPath: /models
  volumes:
  - name: model-weights
    image:
      reference: myregistry/llama-7b-weights:v1
      pullPolicy: IfNotPresent

فئات أعباء عمل ML

التدريب مقابل الاستدلال

الجانب التدريب الاستدلال
المدة ساعات إلى أيام ميلي ثانية
الموارد GPU عالية، متقطعة ثابتة، أقل
التوسع قائم على المهام توسع تلقائي
النمط دفعات طلب-استجابة
مورد K8s Job/CronJob Deployment/Service

موارد Kubernetes لـ ML

خط أنابيب التدريب:
┌─────────────┐    ┌─────────────┐    ┌─────────────┐
│    Job      │ → │ PersistentVC │ → │   Secret    │
│ (التدريب)   │    │ (البيانات)  │    │ (السجل)    │
└─────────────┘    └─────────────┘    └─────────────┘

مكدس الاستدلال:
┌─────────────┐    ┌─────────────┐    ┌─────────────┐
│ Deployment  │ → │   Service   │ → │   Ingress   │
│ (النموذج)   │    │ (داخلي)    │    │ (خارجي)    │
└─────────────┘    └─────────────┘    └─────────────┘

بنية منصة ML على Kubernetes

البنية المرجعية

┌─────────────────────────────────────────────────────────────────┐
│                    منصة ML على Kubernetes                        │
├─────────────────────────────────────────────────────────────────┤
│  طبقة المستخدم    │  Notebooks │ Pipelines │ Model Registry    │
├─────────────────────────────────────────────────────────────────┤
│  طبقة ML          │  Kubeflow  │  MLflow   │  KServe │ Feast   │
├─────────────────────────────────────────────────────────────────┤
│  طبقة المنصة      │  Istio     │  ArgoCD   │  Prometheus       │
├─────────────────────────────────────────────────────────────────┤
│  طبقة Kubernetes  │  Scheduler │  DRA      │  CNI    │ CSI     │
├─────────────────────────────────────────────────────────────────┤
│  البنية التحتية  │  عقد GPU   │  التخزين  │  الشبكة          │
└─────────────────────────────────────────────────────────────────┘

خدمات Kubernetes ML لمزودي السحابة

الميزة EKS GKE AKS
عقد GPU P4d، P5، G5 A100، H100، TPU سلسلة NC، ND
إضافة ML SageMaker Operators Vertex AI Azure ML Extension
Autopilot Karpenter GKE Autopilot KEDA
توافق AI معتمد معتمد معتمد

التالي، سنستكشف بنية Kubernetes والمفاهيم الأساسية الضرورية لأعباء عمل ML. :::