الدرس 1 من 6

المفردات الأساسية لعلم البيانات والتحليلات

المفردات الأساسية لعلم البيانات والتحليلات

8 دقيقة للقراءة

كعالم بيانات يعمل في فرق ناطقة بالإنجليزية، تستخدم مفردات متخصصة جداً كل يوم — من مناقشة الاختبارات الإحصائية إلى شرح نتائج النماذج. يغطي هذا الدرس المصطلحات الأساسية التي تحتاجها للتواصل بفعالية وقراءة التوثيق والمشاركة في النقاشات التقنية.

مفردات الإحصاء والاحتمالات

المصطلحالمعنىمثال على الاستخدام
Mean (المتوسط)القيمة المتوسطة لمجموعة بيانات"The mean response time is 2.3 seconds."
Median (الوسيط)القيمة الوسطى عند ترتيب البيانات"Use median instead of mean — the data is heavily skewed."
Standard deviation (الانحراف المعياري)مقياس لمدى انتشار القيم حول المتوسط"The standard deviation is too high."
Correlation (الارتباط)علاقة إحصائية بين متغيرين (من -1 إلى +1)"There's a strong positive correlation between ad spend and conversions."
Regression (الانحدار)طريقة لنمذجة العلاقة بين المتغيرات"We ran a linear regression to predict housing prices."
P-value (القيمة الاحتمالية)احتمال ملاحظة نتائج بهذا التطرف إذا كانت الفرضية الصفرية صحيحة"The p-value is 0.03, so the result is statistically significant."
Confidence interval (فاصل الثقة)نطاق قيم يُرجح أن يحتوي المعامل الحقيقي"The 95% confidence interval is between 4.2 and 5.8."
Hypothesis testing (اختبار الفرضيات)إجراء رسمي لاختبار ادعاءات حول مجتمع"We used hypothesis testing to compare the two groups."
Null hypothesis (الفرضية الصفرية)الافتراض الافتراضي بعدم وجود تأثير أو فرق"We failed to reject the null hypothesis."
Statistical significance (الدلالة الإحصائية)نتيجة من غير المرجح حدوثها بالصدفة وحدها"The difference is statistically significant at the 0.05 level."
Outlier (قيمة شاذة)نقطة بيانات بعيدة جداً عن القيم الأخرى"Remove the outlier before calculating the mean."

مفردات أنواع البيانات

المصطلحالمعنىمثال
Categorical (تصنيفي)بيانات تقع في مجموعات منفصلة بدون ترتيبالجنس، البلد، فئة المنتج
Numerical (رقمي)بيانات تُمثل بأرقام قابلة للقياسالحرارة، الراتب، العمر
Ordinal (ترتيبي)بيانات تصنيفية ذات ترتيب ذي معنىمستوى التعليم، رضا العملاء (1-5)
Continuous (مستمر)بيانات رقمية يمكن أن تأخذ أي قيمةالطول (172.3 سم)
Discrete (منفصل)بيانات رقمية تأخذ أعداداً صحيحة فقطعدد الأطفال، عدد الطلبات
Time series (سلسلة زمنية)نقاط بيانات مجمعة عبر فترات زمنيةأسعار الأسهم اليومية

مفردات معالجة البيانات

المصطلحالمعنىمثال على الاستخدام
Data cleaning (تنظيف البيانات)إصلاح الأخطاء وإزالة المكررات ومعالجة التناقضات"We spent two days on data cleaning."
Imputation (الإسناد)ملء القيم المفقودة بقيم مُقدّرة"We used median imputation for the missing income data."
Normalization (التطبيع)تغيير مقياس البيانات لنطاق ثابت (0-1 عادةً)"Normalize the features before feeding them to the neural network."
Feature engineering (هندسة الميزات)إنشاء متغيرات إدخال جديدة من البيانات الموجودة"Feature engineering improved our model accuracy by 8%."
One-hot encoding (الترميز الأحادي)تحويل المتغيرات التصنيفية إلى أعمدة ثنائية"Apply one-hot encoding to the 'country' column."
ETL (استخراج، تحويل، تحميل)عملية نقل البيانات من المصادر إلى الوجهة"The ETL job failed — check the source database connection."
Data lake (بحيرة البيانات)نظام تخزين كبير للبيانات الخام بأي تنسيق"Store the raw logs in the data lake."
Data warehouse (مستودع البيانات)تخزين مُنظم مُحسّن للتحليلات والتقارير"Query the data warehouse for last quarter's sales figures."

مفردات تقييم النماذج

المصطلحالمعنىمثال على الاستخدام
Accuracy (الدقة)نسبة التنبؤات الصحيحة من الإجمالي"The model has 94% accuracy on the test set."
Precision (الضبط)من كل التنبؤات الإيجابية، كم كانت صحيحة فعلاً"Precision is 0.91 — few false positives."
Recall (الاستدعاء)من كل الحالات الإيجابية الفعلية، كم تم تحديدها بشكل صحيح"Recall is critical here — we can't miss fraudulent transactions."
F1 score (درجة F1)المتوسط التوافقي للضبط والاستدعاء"The F1 score balances precision and recall at 0.87."
AUC-ROCالمساحة تحت منحنى خاصية التشغيل للمُستقبِل"An AUC of 0.95 means the model discriminates well."
Confusion matrix (مصفوفة الالتباس)جدول يُظهر الإيجابيات/السلبيات الحقيقية والخاطئة"The confusion matrix reveals most errors are false negatives."
Overfitting (الإفراط في التخصيص)النموذج يعمل جيداً على بيانات التدريب لكن بشكل سيء على بيانات جديدة"The model is overfitting — try regularization."
Underfitting (نقص التخصيص)النموذج بسيط جداً لالتقاط الأنماط"The linear model is underfitting — try a more complex architecture."
Cross-validation (التحقق المتقاطع)اختبار النموذج على مجموعات فرعية متعددة"We used 5-fold cross-validation."

مفردات تصور البيانات

المصطلحالمعنىمتى تستخدمه
Histogram (مدرج تكراري)مخطط أعمدة يُظهر توزيع متغير رقمي واحدلعرض كيف تتوزع البيانات
Scatter plot (مخطط انتشاري)مخطط يرسم متغيرين رقميين كنقاطلاكتشاف العلاقات بين المتغيرات
Box plot (مخطط الصندوق)يُظهر الوسيط والربعيات والقيم الشاذةلمقارنة التوزيعات وكشف القيم الشاذة
Heatmap (خريطة حرارية)مصفوفة مرمزة بالألوان تُظهر العلاقات أو الكثافةلعرض مصفوفة الارتباط
Dashboard (لوحة المعلومات)مجموعة من التصورات تعرض المقاييس الرئيسيةلمراقبة الأداء بشكل مستمر

دليل النطق

المصطلحالنطق الصحيحالخطأ الشائع
Bayesian/ˈbeɪziən/ (بيز-يَن)"بيشَن"
Gaussian/ˈɡaʊsiən/ (غاو-سي-ن)"غاو-سي-ان"
Scikit-learn/saɪkɪt lɜːrn/ (ساي-كِت لِرن)"سكي-كِت لِرن"
NumPy/nʌmpaɪ/ (نَم-باي)"نَم-بي"
Jupyter/ˈdʒuːpɪtər/ (جو-بِتر)"جَب-يتر"
Epoch/ˈɛpɒk/ (إب-ك)"إي-بوتش"

ربط كل شيء معاً

إليك مثالاً على كيفية ظهور هذه المصطلحات في محادثة فريق حقيقية:

"أنهيت تنظيف البيانات (data cleaning) وهندسة الميزات (feature engineering) لنموذج التنبؤ بالتسرب. خريطة الارتباط الحرارية (correlation heatmap) تُظهر أن 'الأيام منذ آخر تسجيل دخول' و'تذاكر الدعم' أقوى المتنبئات. استخدمت الترميز الأحادي (one-hot encoding) للميزات التصنيفية والتوحيد القياسي (standardization) للميزات الرقمية. بعد التحقق المتقاطع بخمس طيات (5-fold cross-validation)، درجة F1 هي 0.86 وAUC-ROC هو 0.92."

فهم هذه المفردات هو الأساس لكل ما سيأتي في هذه الدورة.

التالي: قراءة الأوراق البحثية والتوثيق التقني

:::

اختبار

اختبار المفردات الأساسية لعلم البيانات والتحليلات

خذ الاختبار
نشرة أسبوعية مجانية

ابقَ على مسار النيرد

بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.

بدون إزعاج. إلغاء الاشتراك في أي وقت.