الدرس 1 من 6

المفردات الأساسية لعلم البيانات والتحليلات

المفردات الأساسية لعلم البيانات والتحليلات

8 دقيقة للقراءة

كعالم بيانات يعمل في فرق ناطقة بالإنجليزية، تستخدم مفردات متخصصة جداً كل يوم — من مناقشة الاختبارات الإحصائية إلى شرح نتائج النماذج. يغطي هذا الدرس المصطلحات الأساسية التي تحتاجها للتواصل بفعالية وقراءة التوثيق والمشاركة في النقاشات التقنية.

مفردات الإحصاء والاحتمالات

المصطلح المعنى مثال على الاستخدام
Mean (المتوسط) القيمة المتوسطة لمجموعة بيانات "The mean response time is 2.3 seconds."
Median (الوسيط) القيمة الوسطى عند ترتيب البيانات "Use median instead of mean — the data is heavily skewed."
Standard deviation (الانحراف المعياري) مقياس لمدى انتشار القيم حول المتوسط "The standard deviation is too high."
Correlation (الارتباط) علاقة إحصائية بين متغيرين (من -1 إلى +1) "There's a strong positive correlation between ad spend and conversions."
Regression (الانحدار) طريقة لنمذجة العلاقة بين المتغيرات "We ran a linear regression to predict housing prices."
P-value (القيمة الاحتمالية) احتمال ملاحظة نتائج بهذا التطرف إذا كانت الفرضية الصفرية صحيحة "The p-value is 0.03, so the result is statistically significant."
Confidence interval (فاصل الثقة) نطاق قيم يُرجح أن يحتوي المعامل الحقيقي "The 95% confidence interval is between 4.2 and 5.8."
Hypothesis testing (اختبار الفرضيات) إجراء رسمي لاختبار ادعاءات حول مجتمع "We used hypothesis testing to compare the two groups."
Null hypothesis (الفرضية الصفرية) الافتراض الافتراضي بعدم وجود تأثير أو فرق "We failed to reject the null hypothesis."
Statistical significance (الدلالة الإحصائية) نتيجة من غير المرجح حدوثها بالصدفة وحدها "The difference is statistically significant at the 0.05 level."
Outlier (قيمة شاذة) نقطة بيانات بعيدة جداً عن القيم الأخرى "Remove the outlier before calculating the mean."

مفردات أنواع البيانات

المصطلح المعنى مثال
Categorical (تصنيفي) بيانات تقع في مجموعات منفصلة بدون ترتيب الجنس، البلد، فئة المنتج
Numerical (رقمي) بيانات تُمثل بأرقام قابلة للقياس الحرارة، الراتب، العمر
Ordinal (ترتيبي) بيانات تصنيفية ذات ترتيب ذي معنى مستوى التعليم، رضا العملاء (1-5)
Continuous (مستمر) بيانات رقمية يمكن أن تأخذ أي قيمة الطول (172.3 سم)
Discrete (منفصل) بيانات رقمية تأخذ أعداداً صحيحة فقط عدد الأطفال، عدد الطلبات
Time series (سلسلة زمنية) نقاط بيانات مجمعة عبر فترات زمنية أسعار الأسهم اليومية

مفردات معالجة البيانات

المصطلح المعنى مثال على الاستخدام
Data cleaning (تنظيف البيانات) إصلاح الأخطاء وإزالة المكررات ومعالجة التناقضات "We spent two days on data cleaning."
Imputation (الإسناد) ملء القيم المفقودة بقيم مُقدّرة "We used median imputation for the missing income data."
Normalization (التطبيع) تغيير مقياس البيانات لنطاق ثابت (0-1 عادةً) "Normalize the features before feeding them to the neural network."
Feature engineering (هندسة الميزات) إنشاء متغيرات إدخال جديدة من البيانات الموجودة "Feature engineering improved our model accuracy by 8%."
One-hot encoding (الترميز الأحادي) تحويل المتغيرات التصنيفية إلى أعمدة ثنائية "Apply one-hot encoding to the 'country' column."
ETL (استخراج، تحويل، تحميل) عملية نقل البيانات من المصادر إلى الوجهة "The ETL job failed — check the source database connection."
Data lake (بحيرة البيانات) نظام تخزين كبير للبيانات الخام بأي تنسيق "Store the raw logs in the data lake."
Data warehouse (مستودع البيانات) تخزين مُنظم مُحسّن للتحليلات والتقارير "Query the data warehouse for last quarter's sales figures."

مفردات تقييم النماذج

المصطلح المعنى مثال على الاستخدام
Accuracy (الدقة) نسبة التنبؤات الصحيحة من الإجمالي "The model has 94% accuracy on the test set."
Precision (الضبط) من كل التنبؤات الإيجابية، كم كانت صحيحة فعلاً "Precision is 0.91 — few false positives."
Recall (الاستدعاء) من كل الحالات الإيجابية الفعلية، كم تم تحديدها بشكل صحيح "Recall is critical here — we can't miss fraudulent transactions."
F1 score (درجة F1) المتوسط التوافقي للضبط والاستدعاء "The F1 score balances precision and recall at 0.87."
AUC-ROC المساحة تحت منحنى خاصية التشغيل للمُستقبِل "An AUC of 0.95 means the model discriminates well."
Confusion matrix (مصفوفة الالتباس) جدول يُظهر الإيجابيات/السلبيات الحقيقية والخاطئة "The confusion matrix reveals most errors are false negatives."
Overfitting (الإفراط في التخصيص) النموذج يعمل جيداً على بيانات التدريب لكن بشكل سيء على بيانات جديدة "The model is overfitting — try regularization."
Underfitting (نقص التخصيص) النموذج بسيط جداً لالتقاط الأنماط "The linear model is underfitting — try a more complex architecture."
Cross-validation (التحقق المتقاطع) اختبار النموذج على مجموعات فرعية متعددة "We used 5-fold cross-validation."

مفردات تصور البيانات

المصطلح المعنى متى تستخدمه
Histogram (مدرج تكراري) مخطط أعمدة يُظهر توزيع متغير رقمي واحد لعرض كيف تتوزع البيانات
Scatter plot (مخطط انتشاري) مخطط يرسم متغيرين رقميين كنقاط لاكتشاف العلاقات بين المتغيرات
Box plot (مخطط الصندوق) يُظهر الوسيط والربعيات والقيم الشاذة لمقارنة التوزيعات وكشف القيم الشاذة
Heatmap (خريطة حرارية) مصفوفة مرمزة بالألوان تُظهر العلاقات أو الكثافة لعرض مصفوفة الارتباط
Dashboard (لوحة المعلومات) مجموعة من التصورات تعرض المقاييس الرئيسية لمراقبة الأداء بشكل مستمر

دليل النطق

المصطلح النطق الصحيح الخطأ الشائع
Bayesian /ˈbeɪziən/ (بيز-يَن) "بيشَن"
Gaussian /ˈɡaʊsiən/ (غاو-سي-ن) "غاو-سي-ان"
Scikit-learn /saɪkɪt lɜːrn/ (ساي-كِت لِرن) "سكي-كِت لِرن"
NumPy /nʌmpaɪ/ (نَم-باي) "نَم-بي"
Jupyter /ˈdʒuːpɪtər/ (جو-بِتر) "جَب-يتر"
Epoch /ˈɛpɒk/ (إب-ك) "إي-بوتش"

ربط كل شيء معاً

إليك مثالاً على كيفية ظهور هذه المصطلحات في محادثة فريق حقيقية:

"أنهيت تنظيف البيانات (data cleaning) وهندسة الميزات (feature engineering) لنموذج التنبؤ بالتسرب. خريطة الارتباط الحرارية (correlation heatmap) تُظهر أن 'الأيام منذ آخر تسجيل دخول' و'تذاكر الدعم' أقوى المتنبئات. استخدمت الترميز الأحادي (one-hot encoding) للميزات التصنيفية والتوحيد القياسي (standardization) للميزات الرقمية. بعد التحقق المتقاطع بخمس طيات (5-fold cross-validation)، درجة F1 هي 0.86 وAUC-ROC هو 0.92."

فهم هذه المفردات هو الأساس لكل ما سيأتي في هذه الدورة.

التالي: قراءة الأوراق البحثية والتوثيق التقني

:::

اختبار

اختبار المفردات الأساسية لعلم البيانات والتحليلات

خذ الاختبار