الإحصاء والاحتمالات
الانحدار والنمذجة الإحصائية
الانحدار هو حصان عمل علوم البيانات. المُحاورون يختبرون كلاً من الآليات وفهمك لمتى تكون النتائج موثوقة.
أساسيات الانحدار الخطي
النموذج:
y = β₀ + β₁x₁ + β₂x₂ + ... + ε
حيث:
- β₀ = المقطع
- βᵢ = المعامل للميزة i
- ε = حد الخطأ (البواقي)
التفسير: "زيادة وحدة واحدة في x₁ مرتبطة بتغير β₁ في y، مع تثبيت المتغيرات الأخرى."
افتراضات الانحدار الخطي
اعرفها عن ظهر قلب - المُحاورون يحبون السؤال عنها:
| الافتراض | الانتهاك | النتيجة |
|---|---|---|
| الخطية | علاقة منحنية | تنبؤات متحيزة |
| الاستقلالية | أخطاء مترابطة ذاتياً | أخطاء معيارية مقللة |
| تجانس التباين | التباين يتغير مع X | p-values غير صالحة |
| الطبيعية | بواقي غير طبيعية | فترات ثقة غير موثوقة |
| لا تعدد خطي | متنبئات مترابطة | معاملات غير مستقرة |
كيفية التحقق:
- الخطية: رسم البواقي مقابل الملائم (يجب أن يكون تشتت عشوائي)
- الاستقلالية: اختبار Durbin-Watson (DW ≈ 2 جيد)
- تجانس التباين: رسم البواقي مقابل الملائم (انتشار ثابت)
- الطبيعية: رسم Q-Q، اختبار Shapiro-Wilk
- تعدد الخطية: VIF > 10 يشير لمشكلة
تفسير R²
R² = نسبة التباين في y المفسّر بالنموذج
| قيمة R² | التفسير |
|---|---|
| 0.0 - 0.3 | قوة تفسيرية ضعيفة |
| 0.3 - 0.6 | متوسطة |
| 0.6 - 0.9 | قوية |
| > 0.9 | قوية جداً (أو إفراط في الملاءمة) |
فخ المقابلة: "R² عالي يعني نموذج جيد"
الواقع:
- R² يزداد دائماً مع متنبئات أكثر (استخدم R² المعدّل بدلاً)
- R² عالي لا يعني تنبؤات دقيقة
- R² عالي لا يثبت السببية
- لبعض المجالات (العلوم الاجتماعية)، R² = 0.3 ممتاز
تعدد الخطية
عندما تكون المتنبئات مترابطة بشدة:
- المعاملات الفردية تصبح غير موثوقة
- الأخطاء المعيارية تتضخم
- الإشارات قد تنقلب بشكل غير متوقع
الاكتشاف: عامل تضخم التباين (VIF)
VIF = 1 / (1 - R²ⱼ)
VIF > 5: قلق متوسط
VIF > 10: مشكلة خطيرة
الحلول:
- إزالة أحد المتغيرات المترابطة
- الدمج في متغير واحد (PCA)
- استخدام التنظيم (Ridge، Lasso)
الانحدار اللوجستي
للنتائج الثنائية (نعم/لا، نقر/لا نقر):
log(p / (1-p)) = β₀ + β₁x₁ + ...
حيث p = احتمال النتيجة الإيجابية
تفسير المعامل: "زيادة وحدة واحدة في x₁ مرتبطة بزيادة β₁ في log-odds للنتيجة."
أكثر بديهية: استخدم نسب الأرجحية = exp(β₁)
- OR = 1.5: أرجحية أعلى 50% لكل زيادة وحدة
- OR = 0.8: أرجحية أقل 20% لكل زيادة وحدة
نمط سؤال المقابلة
"شغّلت انحداراً ووجدت أن مبيعات الآيسكريم تتنبأ بمعدلات الجريمة (β = 0.7، p < 0.01). ماذا تستنتج؟"
إجابة جيدة: "هذا مثال كلاسيكي على التشويش. كل من مبيعات الآيسكريم ومعدلات الجريمة على الأرجح سببها متغير ثالث - درجة الحرارة. الطقس الحار يزيد كليهما. سأفعل:
- التحكم في درجة الحرارة في النموذج
- ملاحظة أن الترابط لا يعني السببية
- النظر في العلاقة المتبقية بعد التحكم في المشوشات"
الانحدار يخبرك عن الترابطات، ليس الأسباب. كن دائماً مستعداً لشرح لماذا قد تكون العلاقة زائفة. :::