تعلم الآلة باستخدام Python: دليل كامل

٢٨ مارس ٢٠٢٦

#machine learning python #python machine learning #machine learning tutorial #machine learning for beginners #data science python #machine learning algorithms #model evaluation metrics #data preprocessing python

Python Machine Learning: A Complete Guide

ملخص

يوفر هذا الدليل مقدمة عملية وشاملة لتعلم الآلة باستخدام Python، حيث يغطي المعالجة المسبقة للبيانات، والخوارزميات الأساسية، وتقييم النماذج، والتطبيقات الواقعية، ولمحة عن MLOps. نحن نتجاوز الأساسيات، ونزودك بالمهارات اللازمة لبناء ونشر نماذج تعلم آلة حقيقية.

يُحدث تعلم الآلة (ML) تحولاً سريعاً في الصناعات، مما يمكن الأنظمة من التعلم من البيانات دون برمجة صريحة. في جوهره، يتضمن تعلم الآلة بناء خوارزميات يمكنها تحديد الأنماط، وإجراء التنبؤات، وتحسين أدائها بمرور الوقت. أصبحت Python هي اللغة الواقعية لتعلم الآلة بسبب نظامها البيئي الغني بالمكتبات، وسهولة قراءتها، ودعم المجتمع الكبير لها.

هناك ثلاثة أنواع رئيسية لتعلم الآلة:

التعلم الخاضع للإشراف (Supervised Learning): تدريب نموذج على بيانات مصنفة للتنبؤ بالنتائج (على سبيل المثال، التنبؤ بأسعار المنازل بناءً على ميزات مثل الحجم والموقع).
التعلم غير الخاضع للإشراف (Unsupervised Learning): اكتشاف الأنماط في البيانات غير المصنفة (على سبيل المثال، تجميع العملاء بناءً على سلوكهم الشرائي).
التعلم التعزيزي (Reinforcement Learning): تدريب وكيل لاتخاذ قرارات في بيئة ما لتعظيم المكافأة (على سبيل المثال، تدريب روبوت على التنقل في متاهة).

تشمل مكتبات Python الرئيسية لتعلم الآلة ما يلي:

Scikit-learn: مكتبة متعددة الاستخدامات توفر مجموعة واسعة من الخوارزميات للتصنيف، والانحدار، والتجميع، وتقليل الأبعاد.
TensorFlow: إطار عمل قوي للتعلم العميق، مناسب بشكل خاص للمهام المعقدة مثل التعرف على الصور ومعالجة اللغات الطبيعية.
PyTorch: إطار عمل شائع آخر للتعلم العميق، معروف بمرونته ورسمه البياني الحسابي الديناميكي.
Pandas: لمعالجة البيانات وتحليلها.
NumPy: للحوسبة العددية.
Matplotlib & Seaborn: لتصور البيانات.

إعداد بيئتك

قبل الغوص في الكود، ستحتاج إلى إعداد بيئة التطوير الخاصة بك.

تثبيت Python: قم بتنزيل أحدث إصدار من Python من python.org. نوصي باستخدام Python 3.10 أو إصدار أحدث (الإصدارات من 3.7 إلى 3.9 وصلت إلى نهاية عمرها الافتراضي ولم تعد تتلقى تحديثات أمنية).
تثبيت pip: Pip هو مثبت الحزم لـ Python. عادة ما يأتي مدمجاً مع تثبيتات Python. تأكد من تثبيته عن طريق تشغيل pip --version في جهازك (terminal).
إنشاء بيئة افتراضية: تقوم البيئات الافتراضية بعزل تبعيات المشروع، مما يمنع التعارضات.
```
python -m venv myenv
source myenv/bin/activate  # On Linux/macOS
myenv\Scripts\activate  # On Windows
```

تثبيت المكتبات الأساسية:

pip install scikit-learn pandas numpy matplotlib seaborn

المعالجة المسبقة للبيانات: أساس تعلم الآلة

نادراً ما تكون البيانات الخام جاهزة لخوارزميات تعلم الآلة. تعد المعالجة المسبقة للبيانات أمراً بالغ الأهمية لتنظيف بياناتك وتحويلها وإعدادها لتحقيق الأداء الأمثل للنموذج.

التعامل مع القيم المفقودة

تعد البيانات المفقودة مشكلة شائعة. تشمل الاستراتيجيات ما يلي:

الحذف: إزالة الصفوف أو الأعمدة التي تحتوي على قيم مفقودة (استخدمه بحذر، لأنه قد يؤدي إلى فقدان البيانات).
الإسناد (Imputation): استبدال القيم المفقودة بقيم تقديرية. التقنيات الشائعة:
- إسناد المتوسط/الوسيط: استبدال القيم المفقودة بمتوسط أو وسيط الميزة.
- إسناد المنوال: استبدال القيم المفقودة بالقيمة الأكثر تكراراً (للميزات الفئوية).
- إسناد الجيران الأقرب (KNN Imputation): استخدام خوارزمية KNN للتنبؤ بالقيم المفقودة بناءً على نقاط بيانات مماثلة.

import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer

# Sample DataFrame with missing values
data = {'Age': [25, 30, np.nan, 35, 40],
        'Income': [50000, np.nan, 75000, 80000, 90000]}
df = pd.DataFrame(data)

# Mean Imputation
imputer_mean = SimpleImputer(strategy='mean')
df['Age'] = imputer_mean.fit_transform(df[['Age']])

# Median Imputation
df['Income'] = SimpleImputer(strategy='median').fit_transform(df[['Income']])

print(df)

اكتشاف وإزالة القيم المتطرفة

يمكن أن تؤثر القيم المتطرفة بشكل كبير على أداء النموذج. تشمل التقنيات ما يلي:

Z-score: تحديد نقاط البيانات التي تقع خارج عدد معين من الانحرافات المعيارية عن المتوسط.
المدى الربيعي (IQR): تحديد نقاط البيانات التي تقع تحت Q1 - 1.5 * IQR أو فوق Q3 + 1.5 * IQR.

تحجيم الميزات (Feature Scaling)

يضمن تحجيم الميزات أن تساهم جميع الميزات بالتساوي في النموذج.

StandardScaler: يقوم بتقييس الميزات عن طريق إزالة المتوسط والتحجيم إلى تباين الوحدة.
MinMaxScaler: يقوم بتحجيم الميزات إلى نطاق بين 0 و 1.

from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Sample data
data = {'Feature1': [10, 20, 30, 40, 50],
        'Feature2': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data)

# StandardScaler
scaler_standard = StandardScaler()
df[['Feature1_scaled', 'Feature2_scaled']] = scaler_standard.fit_transform(df[['Feature1', 'Feature2']])

# MinMaxScaler
scaler_minmax = MinMaxScaler()
df[['Feature1_minmax', 'Feature2_minmax']] = scaler_minmax.fit_transform(df[['Feature1', 'Feature2']])

print(df)

ترميز المتغيرات الفئوية

تتطلب خوارزميات تعلم الآلة مدخلات عددية. لذا يجب ترميز المتغيرات الفئوية.

OneHotEncoding: ينشئ عموداً ثنائياً لكل فئة.
ترميز التسمية (Label Encoding): يعين عدداً صحيحاً فريداً لكل فئة.

from sklearn.preprocessing import OneHotEncoder, LabelEncoder

# Sample data
data = {'Color': ['Red', 'Green', 'Blue', 'Red', 'Green']}
df = pd.DataFrame(data)

# OneHotEncoding
encoder_onehot = OneHotEncoder(handle_unknown='ignore')
encoder_onehot.fit(df[['Color']])
df_onehot = pd.DataFrame(encoder_onehot.transform(df[['Color']]).toarray(), columns=encoder_onehot.get_feature_names_out(['Color']))
df = pd.concat([df, df_onehot], axis=1)
df = df.drop('Color', axis=1)

# Label Encoding
encoder_label = LabelEncoder()
df['Color_encoded'] = encoder_label.fit_transform(data['Color'])

print(df)

خوارزميات تعلم الآلة الأساسية

الانحدار الخطي (Linear Regression)

يستخدم للتنبؤ بمتغير مستهدف مستمر بناءً على متغير تنبؤ واحد أو أكثر.

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

# Sample data
X = np.array([[1], [2], [3], [4], [5]])  # Predictor variable
y = np.array([2, 4, 5, 4, 5])  # Target variable

# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Create and train the model
model = LinearRegression()
model.fit(X_train, y_train)

# Make predictions
y_pred = model.predict(X_test)

print(f"Predictions: {y_pred}")

الانحدار اللوجستي (Logistic Regression)

يستخدم لمشاكل التصنيف الثنائي.

أشجار القرار (Decision Trees)

نموذج يشبه الشجرة يتخذ القرارات بناءً على قيم الميزات.

الغابات العشوائية (Random Forests)

طريقة تجميعية تجمع بين أشجار قرار متعددة لتحسين الدقة وتقليل فرط التخصيص (overfitting).

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
import numpy as np

# Sample data
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])  # Predictor variables
y = np.array([0, 1, 0, 1, 0])  # Target variable

# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Create and train the model
model = RandomForestClassifier(n_estimators=100, random_state=42) # 100 trees
model.fit(X_train, y_train)

# Make predictions
y_pred = model.predict(X_test)

print(f"Predictions: {y_pred}")

آلات المتجهات الداعمة (SVMs)

فعالة لكل من مهام التصنيف والانحدار.

تعزيز التدرج (Gradient Boosting)

طريقة تجميعية تبني الأشجار بالتتابع، وتصحح الأخطاء من الأشجار السابقة.

تقييم النموذج: ما وراء الدقة

الدقة مقياس مفيد، لكنها لا تحكي القصة كاملة.

الدقة (Precision): نسبة التنبؤات الإيجابية التي كانت صحيحة بالفعل.
الاستدعاء (Recall): نسبة الحالات الإيجابية الفعلية التي تم تحديدها بشكل صحيح.
درجة F1 (F1-score): المتوسط التوافقي للدقة والاستدعاء.
ROC AUC: المساحة تحت منحنى خصائص تشغيل المستقبِل، وتقيس قدرة النموذج على التمييز بين الفئات.
التحقق المتقاطع (Cross-Validation): تقنية لتقييم أداء النموذج على مجموعات فرعية متعددة من البيانات.

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
from sklearn.model_selection import cross_val_score

# Sample predictions and actual values
y_true = np.array([0, 1, 0, 1, 0])
y_pred = np.array([0, 1, 1, 0, 0])

# Calculate metrics
accuracy = accuracy_score(y_true, y_pred)
precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
f1 = f1_score(y_true, y_pred)
roc_auc = roc_auc_score(y_true, y_pred)

print(f"Accuracy: {accuracy}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1-score: {f1}")
print(f"ROC AUC: {roc_auc}")

# Cross-validation example
from sklearn.linear_model import LogisticRegression
X_cv = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10], [2, 3], [4, 5], [6, 7], [8, 9], [10, 11]])
y_cv = np.array([0, 1, 0, 1, 0, 1, 0, 1, 0, 1])
model_cv = LogisticRegression()
scores = cross_val_score(model_cv, X_cv, y_cv, cv=5)
print(f"Cross-validation scores: {scores}")

تطبيقات تعلم الآلة في العالم الحقيقي

التمويل (اكتشاف الاحتيال): استخدام تعلم الآلة لتحديد المعاملات الاحتيالية.
الرعاية الصحية (التنبؤ بالأمراض): التنبؤ باحتمالية إصابة المريض بمرض ما بناءً على تاريخه الطبي.
التسويق (تجزئة العملاء): تجميع العملاء بناءً على سلوكهم لتخصيص الحملات التسويقية.
التجارة الإلكترونية (أنظمة التوصية): التوصية بالمنتجات للعملاء بناءً على مشترياتهم السابقة وتاريخ التصفح.

مقدمة في MLOps

MLOps (عمليات تعلم الآلة) هي ممارسة أتمتة وتبسيط دورة حياة تعلم الآلة. تشمل الجوانب الرئيسية ما يلي:

نشر النموذج: إتاحة نموذجك للاستخدام في بيئة الإنتاج.
مراقبة النموذج: تتبع أداء النموذج وتحديد المشكلات.
الإصدار (Versioning): إدارة إصدارات مختلفة من نموذجك.
الأتمتة: أتمتة خط أنابيب تعلم الآلة بالكامل.

تعد أدوات مثل Docker والمنصات السحابية (AWS، Azure، GCP) ضرورية لعمليات MLOps.

المصادر ومزيد من التعلم

توثيق Scikit-learn: https://scikit-learn.org/stable/
توثيق TensorFlow: https://www.tensorflow.org/
توثيق PyTorch: https://pytorch.org/
مجموعات بيانات Kaggle: https://www.kaggle.com/datasets
مستودع UCI لتعلم الآلة: https://archive.ics.uci.edu