Kubernetes للذكاء الاصطناعي: مشهد 2026

أصبح Kubernetes طبقة التشغيل الفعلية للخدمات المدفوعة بالذكاء الاصطناعي. مع اعتماد 54% لأعباء عمل AI/ML وأكثر من 70% من المؤسسات التي تشغل أنظمة AI كبيرة على Kubernetes، فهم هذه المنصة ضروري لأي مهندس ML.

واقع السوق

نمو سوق Kubernetes

المقياس	2025	2030	معدل النمو
حجم السوق	$2.57B	$7.07B	22.4%
حصة تنسيق الحاويات	92%	+95%	-
النشر الإنتاجي	+80%	+90%	-

اتجاهات أعباء عمل AI/ML:

54% من المنظمات تشغل AI/ML على Kubernetes (Spectro Cloud 2025)
+90% من الفرق تتوقع نمو أعباء ML في الـ 12 شهراً القادمة
45% يدمجون موازنة الأعباء المدفوعة بالذكاء الاصطناعي
حجم البحث عن "Kubernetes AI" زاد 300% في 2025

لماذا يهيمن Kubernetes على ML

┌────────────────────────────────────────────────────────────────┐
│                    متطلبات منصة ML                              │
├────────────────────────────────────────────────────────────────┤
│  القابلية للتوسع │  مهام التدريب: 1 → 1000 GPU                 │
│  إدارة الموارد   │  GPUs، TPUs، عقد ذاكرة عالية               │
│  إعادة الإنتاج   │  بيئات محتواة                               │
│  تعدد المستأجرين │  الفرق تتشارك موارد المجموعة               │
│  قابلية النقل   │  محلي ↔ سحابة ↔ حافة                        │
│  النظام البيئي  │  Kubeflow، KServe، MLflow، Airflow          │
└────────────────────────────────────────────────────────────────┘
                              ↓
                    Kubernetes يوفر الكل

تطور Kubernetes لـ AI/ML

المعالم الرئيسية (2024-2026)

الإصدار	تاريخ الإصدار	ميزات AI/ML
1.32	ديسمبر 2024	Memory Manager GA
1.33	أبريل 2025	DRA Beta، In-Place Pod Resize Beta
1.34	أغسطس 2025	DRA GA، OCI Images as Volumes
1.35	ديسمبر 2025	KYAML Beta، DRA محسّن

Kubernetes 1.34: معلم AI/ML

Dynamic Resource Allocation (DRA) GA:

# ResourceClaim لتخصيص GPU
apiVersion: resource.k8s.io/v1
kind: ResourceClaim
metadata:
  name: gpu-claim
spec:
  devices:
    requests:
    - name: gpu
      deviceClassName: nvidia-gpu
      count: 2
---
# Pod يستخدم ResourceClaim
apiVersion: v1
kind: Pod
metadata:
  name: training-job
spec:
  resourceClaims:
  - name: gpu
    resourceClaimName: gpu-claim
  containers:
  - name: trainer
    image: my-training-image:latest
    resources:
      claims:
      - name: gpu

فوائد DRA الرئيسية:

اختيار وتخصيص GPU/TPU في الوقت المناسب
مشاركة الأجهزة بين عدة Pods
تتبع سعة الجهاز القابلة للاستهلاك
تقليل تكاليف الأجهزة لأعباء AI/ML

OCI Images as Volumes:

# تحميل أوزان نموذج ML بدون صور أساسية مخصصة
apiVersion: v1
kind: Pod
metadata:
  name: inference-server
spec:
  containers:
  - name: model-server
    image: kserve/serving:latest
    volumeMounts:
    - name: model-weights
      mountPath: /models
  volumes:
  - name: model-weights
    image:
      reference: myregistry/llama-7b-weights:v1
      pullPolicy: IfNotPresent

فئات أعباء عمل ML

التدريب مقابل الاستدلال

الجانب	التدريب	الاستدلال
المدة	ساعات إلى أيام	ميلي ثانية
الموارد	GPU عالية، متقطعة	ثابتة، أقل
التوسع	قائم على المهام	توسع تلقائي
النمط	دفعات	طلب-استجابة
مورد K8s	Job/CronJob	Deployment/Service

موارد Kubernetes لـ ML

خط أنابيب التدريب:
┌─────────────┐    ┌─────────────┐    ┌─────────────┐
│    Job      │ → │ PersistentVC │ → │   Secret    │
│ (التدريب)   │    │ (البيانات)  │    │ (السجل)    │
└─────────────┘    └─────────────┘    └─────────────┘

مكدس الاستدلال:
┌─────────────┐    ┌─────────────┐    ┌─────────────┐
│ Deployment  │ → │   Service   │ → │   Ingress   │
│ (النموذج)   │    │ (داخلي)    │    │ (خارجي)    │
└─────────────┘    └─────────────┘    └─────────────┘

بنية منصة ML على Kubernetes

البنية المرجعية

┌─────────────────────────────────────────────────────────────────┐
│                    منصة ML على Kubernetes                        │
├─────────────────────────────────────────────────────────────────┤
│  طبقة المستخدم    │  Notebooks │ Pipelines │ Model Registry    │
├─────────────────────────────────────────────────────────────────┤
│  طبقة ML          │  Kubeflow  │  MLflow   │  KServe │ Feast   │
├─────────────────────────────────────────────────────────────────┤
│  طبقة المنصة      │  Istio     │  ArgoCD   │  Prometheus       │
├─────────────────────────────────────────────────────────────────┤
│  طبقة Kubernetes  │  Scheduler │  DRA      │  CNI    │ CSI     │
├─────────────────────────────────────────────────────────────────┤
│  البنية التحتية  │  عقد GPU   │  التخزين  │  الشبكة          │
└─────────────────────────────────────────────────────────────────┘

خدمات Kubernetes ML لمزودي السحابة

الميزة	EKS	GKE	AKS
عقد GPU	P4d، P5، G5	A100، H100، TPU	سلسلة NC، ND
إضافة ML	SageMaker Operators	Vertex AI	Azure ML Extension
Autopilot	Karpenter	GKE Autopilot	KEDA
توافق AI	معتمد	معتمد	معتمد

التالي، سنستكشف بنية Kubernetes والمفاهيم الأساسية الضرورية لأعباء عمل ML. :::