أساسيات Kubernetes لتعلم الآلة
Kubernetes للذكاء الاصطناعي: مشهد 2026
4 دقيقة للقراءة
أصبح Kubernetes طبقة التشغيل الفعلية للخدمات المدفوعة بالذكاء الاصطناعي. مع اعتماد 54% لأعباء عمل AI/ML وأكثر من 70% من المؤسسات التي تشغل أنظمة AI كبيرة على Kubernetes، فهم هذه المنصة ضروري لأي مهندس ML.
واقع السوق
نمو سوق Kubernetes
| المقياس | 2025 | 2030 | معدل النمو |
|---|---|---|---|
| حجم السوق | $2.57B | $7.07B | 22.4% |
| حصة تنسيق الحاويات | 92% | +95% | - |
| النشر الإنتاجي | +80% | +90% | - |
اتجاهات أعباء عمل AI/ML:
- 54% من المنظمات تشغل AI/ML على Kubernetes (Spectro Cloud 2025)
- +90% من الفرق تتوقع نمو أعباء ML في الـ 12 شهراً القادمة
- 45% يدمجون موازنة الأعباء المدفوعة بالذكاء الاصطناعي
- حجم البحث عن "Kubernetes AI" زاد 300% في 2025
لماذا يهيمن Kubernetes على ML
┌────────────────────────────────────────────────────────────────┐
│ متطلبات منصة ML │
├────────────────────────────────────────────────────────────────┤
│ القابلية للتوسع │ مهام التدريب: 1 → 1000 GPU │
│ إدارة الموارد │ GPUs، TPUs، عقد ذاكرة عالية │
│ إعادة الإنتاج │ بيئات محتواة │
│ تعدد المستأجرين │ الفرق تتشارك موارد المجموعة │
│ قابلية النقل │ محلي ↔ سحابة ↔ حافة │
│ النظام البيئي │ Kubeflow، KServe، MLflow، Airflow │
└────────────────────────────────────────────────────────────────┘
↓
Kubernetes يوفر الكل
تطور Kubernetes لـ AI/ML
المعالم الرئيسية (2024-2026)
| الإصدار | تاريخ الإصدار | ميزات AI/ML |
|---|---|---|
| 1.32 | ديسمبر 2024 | Memory Manager GA |
| 1.33 | أبريل 2025 | DRA Beta، In-Place Pod Resize Beta |
| 1.34 | أغسطس 2025 | DRA GA، OCI Images as Volumes |
| 1.35 | ديسمبر 2025 | KYAML Beta، DRA محسّن |
Kubernetes 1.34: معلم AI/ML
Dynamic Resource Allocation (DRA) GA:
# ResourceClaim لتخصيص GPU
apiVersion: resource.k8s.io/v1
kind: ResourceClaim
metadata:
name: gpu-claim
spec:
devices:
requests:
- name: gpu
deviceClassName: nvidia-gpu
count: 2
---
# Pod يستخدم ResourceClaim
apiVersion: v1
kind: Pod
metadata:
name: training-job
spec:
resourceClaims:
- name: gpu
resourceClaimName: gpu-claim
containers:
- name: trainer
image: my-training-image:latest
resources:
claims:
- name: gpu
فوائد DRA الرئيسية:
- اختيار وتخصيص GPU/TPU في الوقت المناسب
- مشاركة الأجهزة بين عدة Pods
- تتبع سعة الجهاز القابلة للاستهلاك
- تقليل تكاليف الأجهزة لأعباء AI/ML
OCI Images as Volumes:
# تحميل أوزان نموذج ML بدون صور أساسية مخصصة
apiVersion: v1
kind: Pod
metadata:
name: inference-server
spec:
containers:
- name: model-server
image: kserve/serving:latest
volumeMounts:
- name: model-weights
mountPath: /models
volumes:
- name: model-weights
image:
reference: myregistry/llama-7b-weights:v1
pullPolicy: IfNotPresent
فئات أعباء عمل ML
التدريب مقابل الاستدلال
| الجانب | التدريب | الاستدلال |
|---|---|---|
| المدة | ساعات إلى أيام | ميلي ثانية |
| الموارد | GPU عالية، متقطعة | ثابتة، أقل |
| التوسع | قائم على المهام | توسع تلقائي |
| النمط | دفعات | طلب-استجابة |
| مورد K8s | Job/CronJob | Deployment/Service |
موارد Kubernetes لـ ML
خط أنابيب التدريب:
┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ Job │ → │ PersistentVC │ → │ Secret │
│ (التدريب) │ │ (البيانات) │ │ (السجل) │
└─────────────┘ └─────────────┘ └─────────────┘
مكدس الاستدلال:
┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ Deployment │ → │ Service │ → │ Ingress │
│ (النموذج) │ │ (داخلي) │ │ (خارجي) │
└─────────────┘ └─────────────┘ └─────────────┘
بنية منصة ML على Kubernetes
البنية المرجعية
┌─────────────────────────────────────────────────────────────────┐
│ منصة ML على Kubernetes │
├─────────────────────────────────────────────────────────────────┤
│ طبقة المستخدم │ Notebooks │ Pipelines │ Model Registry │
├─────────────────────────────────────────────────────────────────┤
│ طبقة ML │ Kubeflow │ MLflow │ KServe │ Feast │
├─────────────────────────────────────────────────────────────────┤
│ طبقة المنصة │ Istio │ ArgoCD │ Prometheus │
├─────────────────────────────────────────────────────────────────┤
│ طبقة Kubernetes │ Scheduler │ DRA │ CNI │ CSI │
├─────────────────────────────────────────────────────────────────┤
│ البنية التحتية │ عقد GPU │ التخزين │ الشبكة │
└─────────────────────────────────────────────────────────────────┘
خدمات Kubernetes ML لمزودي السحابة
| الميزة | EKS | GKE | AKS |
|---|---|---|---|
| عقد GPU | P4d، P5، G5 | A100، H100، TPU | سلسلة NC، ND |
| إضافة ML | SageMaker Operators | Vertex AI | Azure ML Extension |
| Autopilot | Karpenter | GKE Autopilot | KEDA |
| توافق AI | معتمد | معتمد | معتمد |
التالي، سنستكشف بنية Kubernetes والمفاهيم الأساسية الضرورية لأعباء عمل ML. :::