دليل مشروع Data Science: من الصفر حتى الـ Deployment

١٥ أبريل ٢٠٢٦

#data science #project management #machine learning workflow #data analysis #model deployment #data science checklist #agile data science

Data Science Project Guide: From Zero to Deployment

ملخص

اتبع إطار عمل مثبتًا مكونًا من 7 مراحل: تعريف المشروع ← تحضير البيانات ← EDA ← تطوير النموذج ← النشر ← المراقبة ← التسليم بنهج Agile
قم بتنفيذ كود Python عملي في كل مرحلة باستخدام pandas و scikit-learn و FastAPI و Docker
انشر نموذجًا مدربًا كـ REST API، وقم بوضعه في حاوية (containerize) باستخدام Docker، واطلقه عبر Kubernetes
اكتشف زحف البيانات (data drift) باستخدام اختبار KS وقم بإعداد مراقبة تلقائية لـ AUC-ROC مع محفزات لإعادة التدريب
ادمج ممارسات Agile/Scrum وخطوط أنابيب CI/CD لعلوم بيانات قابلة للتكرار على مستوى الفريق

ما ستتعلمه

كيفية تحديد أهداف واضحة للمشروع ومقاييس نجاح تتماشى مع أهداف العمل
تقنيات الحصول على البيانات وتنظيفها والتعامل مع القيم المتطرفة باستخدام pandas
تحليل البيانات الاستكشافي وهندسة الميزات لمجموعات البيانات الواقعية
كيفية مقارنة وضبط وتقييم نماذج ML متعددة باستخدام scikit-learn
كيفية نشر نموذج مدرب كـ FastAPI REST API ووضعه في حاوية باستخدام Docker
كيفية اكتشاف زحف البيانات باستخدام اختبار Kolmogorov-Smirnov ومراقبة AUC-ROC في بيئة الإنتاج
كيفية تطبيق دورات Agile/Scrum (sprints) على مشاريع علوم البيانات
كيفية إعداد خط أنابيب CI/CD لتعلم الآلة باستخدام GitHub Actions
أمثلة عملية لكود Python لكل مرحلة من مراحل دورة الحياة
متى يجب إعادة تدريب النموذج وكيفية هيكلة استراتيجية إعادة التدريب

المتطلبات الأساسية

أساسيات برمجة Python (المتغيرات، الدوال، التحكم في التدفق)
فهم أساسي للإحصاء والاحتمالات
الإلمام بـ Jupyter Notebooks أو بيئة تطوير متكاملة (IDE) مماثلة
مكتبات Python: pandas، numpy، scikit-learn، matplotlib، seaborn
معرفة أساسية بمفاهيم تعلم الآلة

غالبًا ما تفشل مشاريع علوم البيانات ليس بسبب القيود التقنية، ولكن بسبب سوء إدارة المشروع والتخطيط. تجد الأبحاث الصناعية باستمرار أن الغالبية العظمى من مشاريع علوم البيانات لا تصل أبدًا إلى مرحلة الإنتاج — قدرت Gartner أن 85% من مشاريع البيانات الضخمة تفشل، بينما وضع تحليل VentureBeat لعام 2019 الرقم عند 87% من نماذج علوم البيانات التي لا يتم نشرها أبدًا — مع كون الأسباب الأكثر شيوعًا هي الأهداف غير المتوافقة، وتوسع نطاق المشروع غير المدروس، ونقص مشاركة أصحاب المصلحة¹. يوفر هذا الدليل إطارًا شاملاً للتنقل في دورة حياة مشروع علوم البيانات بالكامل، من المفهوم الأولي إلى النشر في الإنتاج والمراقبة.

على عكس تطوير البرمجيات التقليدي، تتضمن مشاريع علوم البيانات قدرًا كبيرًا من عدم اليقين والاستكشاف. يسد هذا الدليل الفجوة بين المعرفة النظرية والتطبيق العملي، ويوفر خطوات قابلة للتنفيذ، وأمثلة كود، وأفضل الممارسات التي يمكنك تطبيقها فورًا على مشاريعك.

المرحلة 1: تعريف المشروع والتخطيط

تبدأ مشاريع علوم البيانات الناجحة بأهداف واضحة ومعايير نجاح محددة جيدًا. تضع هذه المرحلة الأساس للمشروع بأكمله.

تحديد نطاق المشروع

ابدأ بالإجابة على هذه الأسئلة الرئيسية:

ما هي مشكلة العمل التي نحلها؟
ما هي النتيجة المتوقعة؟
كيف سيتم قياس النجاح؟
ما هي قيود المشروع (الوقت، الميزانية، الموارد)؟

قم بإنشاء وثيقة ميثاق المشروع التي تتضمن:

بيان المشكلة
أهداف المشروع (معايير SMART)
مقاييس النجاح (KPIs)
تحليل أصحاب المصلحة
الجدول الزمني والمعالم الرئيسية
متطلبات الموارد

# Example project charter template
project_charter = {
    "project_name": "Customer Churn Prediction",
    "problem_statement": "20% of customers churn annually, costing $2M in lost revenue",
    "objectives": ["Predict churn probability 30 days in advance with 85% accuracy"],
    "success_metrics": ["AUC-ROC > 0.85", "Precision > 0.8", "Recall > 0.75"],
    "stakeholders": ["Product Manager", "Marketing Team", "Customer Success"],
    "timeline": {
        "data_collection": "2 weeks",
        "model_development": "4 weeks",
        "deployment": "2 weeks"
    }
}

إدارة أصحاب المصلحة

حدد أصحاب المصلحة الرئيسيين واهتماماتهم:

أصحاب المصلحة في العمل: التركيز على العائد على الاستثمار (ROI) وتأثير العمل
أصحاب المصلحة التقنيون: مهتمون بالتنفيذ والصيانة
المستخدمون النهائيون: يهتمون بقابلية الاستخدام والموثوقية

قم بإنشاء مصفوفة RACI لتوضيح الأدوار والمسؤوليات:

المهمة	المسؤول (Responsible)	المساءل (Accountable)	المستشار (Consulted)	المطلع (Informed)
جمع البيانات	مهندس بيانات	عالم بيانات	محلل أعمال	مدير منتج
تطوير النموذج	عالم بيانات	كبير علماء البيانات	مهندس ML	مدير تقني (CTO)
النشر	مهندس ML	DevOps	عالم بيانات	مدير منتج

المرحلة 2: الحصول على البيانات وتحضيرها

البيانات الجيدة هي أكبر مؤشر منفرد لجودة النموذج. تغطي هذه المرحلة استيعاب البيانات من مصادر متعددة، وتنظيفها، والتعامل مع القيم المتطرفة قبل بدء أي تحليل.

جمع البيانات

ابدأ بتحديد مصادر البيانات ذات الصلة:

قواعد البيانات الداخلية (SQL، NoSQL)
واجهات برمجة التطبيقات (APIs) مثل (REST، GraphQL)
مجموعات بيانات الطرف الثالث
كشط الويب (عندما يكون ذلك مناسبًا وقانونيًا)

import pandas as pd
import requests
from sqlalchemy import create_engine

# Example: Loading data from multiple sources
def load_data():
    # From CSV
    df1 = pd.read_csv('customer_data.csv')
    
    # From SQL database
    engine = create_engine('postgresql://user:password@localhost:5432/dbname')
    df2 = pd.read_sql('SELECT * FROM transactions', engine)
    
    # From API
    response = requests.get('https://API.example.com/customers')
    df3 = pd.DataFrame(response.json())
    
    return df1, df2, df3

تنظيف البيانات باستخدام Pandas

التعامل مع مشكلات جودة البيانات الشائعة:

def clean_data(df):
    # Handle missing values
    df = df.dropna(subset=['critical_column'])
    df['numeric_column'] = df['numeric_column'].fillna(df['numeric_column'].median())
    df['categorical_column'] = df['categorical_column'].fillna('Unknown')
    
    # Remove duplicates
    df = df.drop_duplicates()
    
    # Handle outliers using IQR method
    Q1 = df['numeric_column'].quantile(0.25)
    Q3 = df['numeric_column'].quantile(0.75)
    IQR = Q3 - Q1
    df = df[~((df['numeric_column'] < (Q1 - 1.5 * IQR)) | 
              (df['numeric_column'] > (Q3 + 1.5 * IQR)))]
    
    return df

المرحلة 3: تحليل البيانات الاستكشافي وهندسة الميزات

يكشف EDA عن الأنماط، وعدم توازن الفئات، والميزات المتلازمة (collinear features) قبل كتابة سطر واحد من كود النموذج. تخطي هذه المرحلة هو أسرع طريق لنموذج يبدو جيدًا في التدريب ويفشل في الإنتاج.

تحليل البيانات الاستكشافي

تنشئ الدالة أدناه عرضين تحتاجهما قبل النمذجة: خريطة حرارية للارتباط لاكتشاف الميزات المتلازمة، ومخطط شريطي لتوزيع الفئات لتحديد عدم التوازن:

import matplotlib.pyplot as plt
import seaborn as sns

def perform_eda(df, target_col):
    print("=== Dataset Overview ===")
    print(f"Shape: {df.shape}")
    print(f"\nMissing values:\n{df.isnull().sum()[df.isnull().sum() > 0]}")
    print(f"\nTarget distribution:\n{df[target_col].value_counts(normalize=True).round(3)}")

    fig, axes = plt.subplots(1, 2, figsize=(14, 5))

    # Correlation heatmap
    numeric_df = df.select_dtypes(include='number')
    sns.heatmap(numeric_df.corr(), annot=True, fmt='.2f',
                cmap='coolwarm', ax=axes[0])
    axes[0].set_title('Feature Correlation Matrix')

    # Target class distribution
    df[target_col].value_counts().plot(
        kind='bar', ax=axes[1], color=['steelblue', 'salmon'])
    axes[1].set_title('Target Class Distribution')
    axes[1].set_xlabel('')

    plt.tight_layout()
    plt.savefig('eda_plots.png', dpi=150, bbox_inches='tight')
    return fig

هندسة الميزات

تحويل الحقول الخام إلى مدخلات جاهزة للنموذج:

from sklearn.preprocessing import LabelEncoder
import pandas as pd

def engineer_features(df):
    # Derive tenure in months from signup date
    df['account_age_months'] = (
        pd.Timestamp.now() - pd.to_datetime(df['signup_date'])
    ).dt.days // 30

    # Interaction feature: average monthly spend
    df['charges_per_month'] = df['total_charges'] / (df['tenure'] + 1)

    # Encode categorical columns
    le = LabelEncoder()
    cat_cols = df.select_dtypes(include='object').columns.tolist()
    for col in cat_cols:
        df[f'{col}_encoded'] = le.fit_transform(df[col].astype(str))

    # Drop original categoricals and date column
    df = df.drop(columns=cat_cols + ['signup_date'], errors='ignore')
    return df

المرحلة 4: تطوير النموذج

مع وجود ميزات نظيفة ومهندسة، تغطي هذه المرحلة اختيار الخوارزمية الصحيحة، وضبطها بشكل منهجي، وتقييمها بصدق على بيانات محجوزة قبل حفظها للنشر.

اختيار وتدريب النماذج

قارن بين خوارزميات متعددة باستخدام التحقق المتقاطع (cross-validation) قبل الاستقرار على نموذج نهائي:

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.metrics import classification_report, roc_auc_score
import pandas as pd
def train_and_select(X, y):
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=42, stratify=y
    )

    candidates = {
        'Logistic Regression': LogisticRegression(max_iter=1000, random_state=42),
        'Random Forest':       RandomForestClassifier(n_estimators=100, random_state=42),
        'Gradient Boosting':   GradientBoostingClassifier(n_estimators=100, random_state=42),
    }

    results = []
    for name, model in candidates.items():
        cv_auc = cross_val_score(model, X_train, y_train, cv=5, scoring='roc_auc')
        results.append({
            'model':        name,
            'cv_auc_mean':  cv_auc.mean(),
            'cv_auc_std':   cv_auc.std()
        })
        print(f"{name}: AUC = {cv_auc.mean():.3f} ± {cv_auc.std():.3f}")

    summary = pd.DataFrame(results).sort_values('cv_auc_mean', ascending=False)
    return summary, X_train, X_test, y_train, y_test

ضبط المعلمات الفائقة (Hyperparameter Tuning)

from sklearn.model_selection import GridSearchCV

def tune_random_forest(X_train, y_train):
    param_grid = {
        'n_estimators':      [100, 200],
        'max_depth':         [5, 10, None],
        'min_samples_split': [2, 5],
    }
    grid_search = GridSearchCV(
        RandomForestClassifier(random_state=42),
        param_grid,
        cv=5,
        scoring='roc_auc',
        n_jobs=-1,
        verbose=1
    )
    grid_search.fit(X_train, y_train)
    print(f"Best params : {grid_search.best_params_}")
    print(f"Best CV AUC : {grid_search.best_score_:.3f}")
    return grid_search.best_estimator_

تقييم وحفظ النموذج النهائي

import joblib
import matplotlib.pyplot as plt
from sklearn.metrics import classification_report, roc_auc_score, ConfusionMatrixDisplay

def evaluate_and_save(model, X_test, y_test, model_path='model.pkl'):
    y_pred  = model.predict(X_test)
    y_proba = model.predict_proba(X_test)[:, 1]

    print("=== Test Set Results ===")
    print(classification_report(y_test, y_pred))
    print(f"AUC-ROC: {roc_auc_score(y_test, y_proba):.4f}")

    fig, ax = plt.subplots(figsize=(6, 5))
    ConfusionMatrixDisplay.from_predictions(y_test, y_pred, ax=ax)
    plt.tight_layout()
    plt.savefig('confusion_matrix.png', dpi=150)

    joblib.dump(model, model_path)
    print(f"Model saved to {model_path}")
    return y_proba

المرحلة 5: نشر النموذج

قم بتغليف النموذج المدرب كـ REST API باستخدام FastAPI، ثم ضعه في حاوية باستخدام Docker.

بناء API للتنبؤ

# app.py
from fastapi import FastAPI
from pydantic import BaseModel
import joblib
import numpy as np

app = FastAPI(title="Churn Prediction API", version="1.0.0")
model = joblib.load("model.pkl")

class CustomerFeatures(BaseModel):
    tenure:          int
    monthly_charges: float
    total_charges:   float
    num_products:    int

class PredictionResponse(BaseModel):
    churn_probability: float
    prediction:        str
    confidence:        str

@app.post("/predict", response_model=PredictionResponse)
def predict_churn(customer: CustomerFeatures):
    features = np.array([[
        customer.tenure,
        customer.monthly_charges,
        customer.total_charges,
        customer.num_products,
    ]])
    probability = float(model.predict_proba(features)[0, 1])
    return PredictionResponse(
        churn_probability=round(probability, 4),
        prediction="churn" if probability > 0.5 else "retain",
        confidence="high" if abs(probability - 0.5) > 0.3 else "low"
    )

@app.get("/health")
def health():
    return {"status": "healthy"}

الوضع في حاوية باستخدام Docker

# Dockerfile
FROM python:3.12-slim
WORKDIR /app
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt
COPY model.pkl app.py ./
EXPOSE 8000
CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "8000"]

قم بالبناء، والدفع، والاطلاق إلى Kubernetes:

Docker build -t churn-model:v1 .
Docker push myregistry/churn-model:v1
kubectl apply -f deployment.yaml
kubectl set image deployment/churn-model churn-model=myregistry/churn-model:v1

المرحلة 6: المراقبة والصيانة

يتدهور النموذج المنشور عندما تنجرف البيانات الواقعية بعيدًا عن توزيعات التدريب. المراقبة ليست اختيارية — فهي ما يفصل نظام الإنتاج عن العرض التوضيحي.

اكتشاف زحف البيانات

اختبار Kolmogorov-Smirnov هو اختبار مستقل عن التوزيع ومناسب تمامًا لاكتشاف التغيرات في توزيعات الميزات المستمرة بين نافذة مرجعية (تدريب) والبيانات الحية²:

مراقبة أداء النموذج

from sklearn.metrics import roc_auc_score
import logging

logger = logging.getLogger(__name__)

def check_model_health(y_true, y_pred_proba,
                       auc_threshold: float = 0.80,
                       window_label:  str   = 'weekly') -> dict:
    current_auc = roc_auc_score(y_true, y_pred_proba)
    degraded    = current_auc < auc_threshold

    if degraded:
        logger.warning(
            f"[{window_label}] AUC {current_auc:.4f} below "
            f"threshold {auc_threshold}. Triggering retraining."
        )

    return {
        'window':    window_label,
        'auc':       round(current_auc, 4),
        'threshold': auc_threshold,
        'status':    'DEGRADED' if degraded else 'OK',
        'retrain':   degraded
    }

إستراتيجية إعادة التدريب

المحفز (Trigger)	الإجراء الموصى به
انخفاض AUC عن الحد المسموح به	إعادة التدريب على بيانات جديدة مصنفة
اكتشاف انحراف (KS drift) في ميزتين أو أكثر	مراجعة خط معالجة الميزات (feature pipeline)، ثم إعادة التدريب
مرور أكثر من 30 يومًا على آخر تدريب	تحديث مجدول بغض النظر عن المقاييس
ارتفاع مفاجئ في أخطاء التنبؤ	إعادة تدريب طارئة؛ والتراجع (rollback) إذا ساءت النتائج

المرحلة 7: منهجية Agile في علم البيانات

يساعد دمج ممارسات Agile في إدارة عدم اليقين المتأصل في مشاريع علم البيانات. قم بهيكلة عملك في دورات قصيرة ومركزة (sprints):

تخطيط السبرنت (Sprint Planning) (مراسم في بداية كل سبرنت مدته أسبوعين)
- تحديد هدف السبرنت
- تقسيم قصص المستخدمين (user stories) إلى مهام
- تقدير الجهد (نقاط القصة - story points)
- تحديد التبعيات
الاجتماعات اليومية (Daily Standups) (15 دقيقة)
- ماذا أنجزت بالأمس؟
- ماذا ستفعل اليوم؟
- هل هناك أي معوقات؟
مراجعة السبرنت (Sprint Review)
- عرض النموذج/التحليل الذي تم العمل عليه
- جمع الملاحظات
- تحديث قائمة مهام المنتج (product backlog)
بأثر رجعي للسبرنت (Sprint Retrospective)
- ما الذي سار بشكل جيد؟
- ما الذي يمكن تحسينه؟
- خطوات العمل للسبرنت القادم

نموذج خطة سبرنت

هدف السبرنت: تطوير وتقييم نموذج أولي للتنبؤ بمعدل ترك العملاء (churn)

قصة المستخدم	المهام	النقاط	المسؤول
بصفتي مدير منتج، أريد فهم المحركات الرئيسية لترك العملاء	إجراء EDA على بيانات العملاء	5	عالم بيانات
بصفتي عالم بيانات، أحتاج إلى نموذج أساسي للتنبؤ بترك العملاء	تنفيذ انحدار لوجستي (logistic regression) بميزات أساسية	3	عالم بيانات
بصفتي مهندس بيانات، أحتاج إلى إعداد خط معالجة البيانات	إنشاء سكربت ETL لبيانات العملاء	8	مهندس بيانات
بصفتي صاحب مصلحة، أريد رؤية مقاييس أداء النموذج	إنشاء لوحة بيانات (dashboard) بالمقاييس الرئيسية	5	عالم بيانات

أدوات Agile لعلم البيانات

إدارة المشاريع: Jira، Trello، Asana
التحكم في الإصدارات: Git، DVC (Data Version Control)
التعاون: Confluence، Notion
تتبع التجارب: MLflow، Weights & Biases
التوثيق: Sphinx، MkDocs

تنفيذ CI/CD لتعلم الآلة

# .GitHub/workflows/ml-pipeline.yml
name: ML Pipeline

on:
  push:
    branches: [ main ]
  pull_request:
    branches: [ main ]

jobs:
  test:
    runs-on: ubuntu-latest
    steps:
    - uses: actions/checkout@v4
    - name: Set up Python
      uses: actions/setup-python@v5
      with:
        python-version: '3.12'
    - name: Install dependencies
      run: |
        python -m pip install --upgrade pip
        pip install -r requirements.txt
    - name: Run tests
      run: |
        pytest tests/
  
  train:
    needs: test
    runs-on: ubuntu-latest
    steps:
    - uses: actions/checkout@v4
    - name: Train model
      run: python train.py
    - name: Save model
      uses: actions/upload-artifact@v4
      with:
        name: model
        path: model.pkl
  
  deploy:
    needs: train
    runs-on: ubuntu-latest
    if: GitHub.ref == 'refs/heads/main'
    steps:
    - uses: actions/checkout@v4
    - name: Deploy to production
      run: |
        Docker build -t churn-model .
        Docker push myregistry/churn-model:latest
        kubectl set image deployment/churn-model churn-model=myregistry/churn-model:latest

الخلاصة

المراحل السبع في هذا الدليل ليست شلالًا (waterfall) — فهي تتداخل وتتكرر. ستعود إلى المرحلة 2 بعد أن تكشف المرحلة 3 عن بيانات غير نظيفة فاتتك. ستعود إلى المرحلة 4 بعد أن تظهر المرحلة 6 تدهور النموذج. هذا أمر طبيعي. قيمة الإطار ليست في فرض تسلسل صارم؛ بل في ضمان عدم تخطي أي مرحلة تمامًا.

إليك بعض المبادئ للمضي قدمًا:

ابدأ بالتوافق مع أهداف العمل. النموذج المثالي تقنيًا الذي يجيب على السؤال الخاطئ لا قيمة له. المرحلة 1 والمرحلة 7 (Agile) موجودتان خصيصًا لإبقاء العمل التقني مرتبطًا بنتائج الأعمال طوال المشروع.

جودة البيانات تتراكم. الوقت المستثمر في المرحلة 2 والمرحلة 3 يؤتي ثماره أضعافًا مضاعفة في المرحلة 4. النماذج المدربة على ميزات نظيفة ومصممة جيدًا تتفوق على النماذج المدربة على بيانات خام بغض النظر عن اختيار الخوارزمية.

الإنتاج هو خط النهاية، وليس النشر. شحن نموذج إلى نقطة نهاية (المرحلة 5) ليس النهاية — بل هو الوقت الذي يبدأ فيه عمل المراقبة الحقيقي. النموذج بدون المرحلة 6 هو عبء وليس أصلًا.

استخدم المثال المستمر كقالب. يستخدم كل مثال برمج في هذا الدليل نفس سيناريو التنبؤ بترك العملاء. عندما تبدأ مشروعك الخاص، استبدل مجالك ومخطط بياناتك ومتغيرك المستهدف بنفس الهيكل. الأنماط تنتقل مباشرة.

Gartner analyst Nick Heudecker, 2017 (via TechRepublic): "85% of big data projects fail." https://www.techrepublic.com/article/85-of-big-data-projects-fail-but-your-developers-can-help-yours-succeed/ — VentureBeat (2019) separately reported that 87% of data science projects never make it into production, citing a panel with IBM and Gap executives at VentureBeat Transform 2019. https://venturebeat.com/technology/why-do-87-of-data-science-projects-never-make-it-into-production ↩
SciPy documentation — scipy.stats.ks_2samp: two-sample Kolmogorov-Smirnov test for goodness of fit. https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ks_2samp.html — The KS test is non-parametric, requires no distribution assumptions, and is widely used for feature drift detection in ML monitoring systems. ↩