الإحصاء والاحتمالات

الانحدار والنمذجة الإحصائية

3 دقيقة للقراءة

الانحدار هو حصان عمل علوم البيانات. المُحاورون يختبرون كلاً من الآليات وفهمك لمتى تكون النتائج موثوقة.

أساسيات الانحدار الخطي

النموذج:

y = β₀ + β₁x₁ + β₂x₂ + ... + ε

حيث:
- β₀ = المقطع
- βᵢ = المعامل للميزة i
- ε = حد الخطأ (البواقي)

التفسير: "زيادة وحدة واحدة في x₁ مرتبطة بتغير β₁ في y، مع تثبيت المتغيرات الأخرى."

افتراضات الانحدار الخطي

اعرفها عن ظهر قلب - المُحاورون يحبون السؤال عنها:

الافتراض الانتهاك النتيجة
الخطية علاقة منحنية تنبؤات متحيزة
الاستقلالية أخطاء مترابطة ذاتياً أخطاء معيارية مقللة
تجانس التباين التباين يتغير مع X p-values غير صالحة
الطبيعية بواقي غير طبيعية فترات ثقة غير موثوقة
لا تعدد خطي متنبئات مترابطة معاملات غير مستقرة

كيفية التحقق:

  • الخطية: رسم البواقي مقابل الملائم (يجب أن يكون تشتت عشوائي)
  • الاستقلالية: اختبار Durbin-Watson (DW ≈ 2 جيد)
  • تجانس التباين: رسم البواقي مقابل الملائم (انتشار ثابت)
  • الطبيعية: رسم Q-Q، اختبار Shapiro-Wilk
  • تعدد الخطية: VIF > 10 يشير لمشكلة

تفسير R²

R² = نسبة التباين في y المفسّر بالنموذج

قيمة R² التفسير
0.0 - 0.3 قوة تفسيرية ضعيفة
0.3 - 0.6 متوسطة
0.6 - 0.9 قوية
> 0.9 قوية جداً (أو إفراط في الملاءمة)

فخ المقابلة: "R² عالي يعني نموذج جيد"

الواقع:

  • R² يزداد دائماً مع متنبئات أكثر (استخدم R² المعدّل بدلاً)
  • R² عالي لا يعني تنبؤات دقيقة
  • R² عالي لا يثبت السببية
  • لبعض المجالات (العلوم الاجتماعية)، R² = 0.3 ممتاز

تعدد الخطية

عندما تكون المتنبئات مترابطة بشدة:

  • المعاملات الفردية تصبح غير موثوقة
  • الأخطاء المعيارية تتضخم
  • الإشارات قد تنقلب بشكل غير متوقع

الاكتشاف: عامل تضخم التباين (VIF)

VIF = 1 / (1 - R²ⱼ)

VIF > 5: قلق متوسط
VIF > 10: مشكلة خطيرة

الحلول:

  1. إزالة أحد المتغيرات المترابطة
  2. الدمج في متغير واحد (PCA)
  3. استخدام التنظيم (Ridge، Lasso)

الانحدار اللوجستي

للنتائج الثنائية (نعم/لا، نقر/لا نقر):

log(p / (1-p)) = β₀ + β₁x₁ + ...

حيث p = احتمال النتيجة الإيجابية

تفسير المعامل: "زيادة وحدة واحدة في x₁ مرتبطة بزيادة β₁ في log-odds للنتيجة."

أكثر بديهية: استخدم نسب الأرجحية = exp(β₁)

  • OR = 1.5: أرجحية أعلى 50% لكل زيادة وحدة
  • OR = 0.8: أرجحية أقل 20% لكل زيادة وحدة

نمط سؤال المقابلة

"شغّلت انحداراً ووجدت أن مبيعات الآيسكريم تتنبأ بمعدلات الجريمة (β = 0.7، p < 0.01). ماذا تستنتج؟"

إجابة جيدة: "هذا مثال كلاسيكي على التشويش. كل من مبيعات الآيسكريم ومعدلات الجريمة على الأرجح سببها متغير ثالث - درجة الحرارة. الطقس الحار يزيد كليهما. سأفعل:

  1. التحكم في درجة الحرارة في النموذج
  2. ملاحظة أن الترابط لا يعني السببية
  3. النظر في العلاقة المتبقية بعد التحكم في المشوشات"

الانحدار يخبرك عن الترابطات، ليس الأسباب. كن دائماً مستعداً لشرح لماذا قد تكون العلاقة زائفة. :::

اختبار

الوحدة 3: الإحصاء والاحتمالات

خذ الاختبار