الإحصاء والاحتمالات
مسائل مقابلات الإحصاء
تدرب على هذه المسائل الإحصائية الكلاسيكية التي تظهر بشكل متكرر في مقابلات علوم البيانات. ركز على التفكير الواضح وذكر الافتراضات.
المسألة 1: اختبار t لعينتين
السيناريو: تختبر تدفق دفع جديد. مجموعة التحكم (n=500) لها متوسط تحويل 4.2% (انحراف=1.8%). مجموعة المعالجة (n=500) لها متوسط تحويل 4.8% (انحراف=2.0%). هل الفرق معنوي؟
الحل:
الخطوة 1: صياغة الفرضيات
H₀: μ_treatment = μ_control
H₁: μ_treatment ≠ μ_control
الخطوة 2: حساب الخطأ المعياري المجمع
SE = √[(s₁²/n₁) + (s₂²/n₂)]
= √[(0.018²/500) + (0.020²/500)]
= √[(0.000324/500) + (0.0004/500)]
= √[0.000001448]
= 0.00120
الخطوة 3: حساب إحصائية t
t = (x̄₁ - x̄₂) / SE
= (0.048 - 0.042) / 0.00120
= 0.006 / 0.00120
= 5.0
الخطوة 4: المقارنة مع القيمة الحرجة
df ≈ 998، t الحرجة عند α=0.05 ≈ 1.96
t لدينا = 5.0 > 1.96
الخلاصة: معنوي عند α=0.05. تدفق الدفع الجديد له معدل تحويل أعلى بشكل معنوي إحصائياً.
المسألة 2: اختبار Chi-Square للاستقلالية
السيناريو: هل يؤثر نوع جهاز المستخدم على معدلات الاشتراك المميز؟
| الجهاز | مشترك | غير مشترك | الإجمالي |
|---|---|---|---|
| موبايل | 120 | 880 | 1000 |
| سطح المكتب | 200 | 800 | 1000 |
الحل:
الخطوة 1: حساب القيم المتوقعة
E(موبايل، مشترك) = (1000 × 320) / 2000 = 160
E(موبايل، غير) = (1000 × 1680) / 2000 = 840
E(سطح، مشترك) = 160
E(سطح، غير) = 840
الخطوة 2: حساب إحصائية chi-square
χ² = Σ (O - E)² / E
= (120-160)²/160 + (880-840)²/840 + (200-160)²/160 + (800-840)²/840
= 10 + 1.9 + 10 + 1.9
= 23.8
الخطوة 3: المقارنة مع القيمة الحرجة
df = (صفوف-1) × (أعمدة-1) = 1
χ² الحرجة عند α=0.05 = 3.84
χ² = 23.8 > 3.84
الخلاصة: نوع الجهاز مرتبط بشكل معنوي بمعدل الاشتراك.
المسألة 3: الترابط مقابل السببية
سؤال المقابلة: "وجدنا أن المستخدمين الذين يستخدمون تطبيقنا المحمول لديهم احتفاظ أعلى 3 أضعاف من مستخدمي الويب فقط. هل يجب أن نستثمر أكثر في الموبايل؟"
إجابة قوية:
"قبل التوصية بزيادة استثمار الموبايل، سأحقق في عدة بدائل:
-
انحياز الاختيار: هل مستخدمو الموبايل مختلفون جوهرياً؟ قد يكونون أكثر تفاعلاً عموماً، يستخدمون كلا المنصتين.
-
السببية العكسية: هل الموبايل يسبب الاحتفاظ، أم المستخدمون المُحتفَظ بهم يحملون التطبيق في النهاية؟
-
المشوشات:
- الوصول للإشعارات (مستخدمو الموبايل يتلقون إشعارات دفع)
- الاختلافات الديموغرافية (العمر، الذكاء التقني)
- اختلافات حالة الاستخدام
ما سأفعله:
- مقارنة الاحتفاظ للمستخدمين الذين بدأوا على الموبايل مقابل الويب (تحليل الأفواج)
- التحكم في خصائص المستخدم في الانحدار
- النظر في تغير الاحتفاظ عندما يتبنى المستخدمون الموبايل بعد استخدام الويب
- إذا أمكن، إجراء تجربة تشجع مستخدمي الويب على تجربة الموبايل"
المسألة 4: مفارقة سيمبسون
السيناريو: تجربة دواء تظهر:
| المجموعة | نجاح الدواء | نجاح التحكم |
|---|---|---|
| حالات خفيفة | 80% (80/100) | 90% (180/200) |
| حالات شديدة | 30% (60/200) | 20% (20/100) |
| الإجمالي | 47% (140/300) | 67% (200/300) |
الدواء يبدو أسوأ إجمالياً لكن أفضل للحالات الشديدة!
التفسير:
"هذه مفارقة سيمبسون. الدواء يبدو أسوأ إجمالياً (47% مقابل 67%)، لكن عند التقسيم حسب الشدة:
- حالات شديدة: دواء 30% مقابل تحكم 20% (الدواء أفضل)
- حالات خفيفة: دواء 80% مقابل تحكم 90% (الدواء أسوأ)
المفارقة تحدث لأن:
- الدواء أُعطي أكثر للحالات الشديدة (200 شديدة مقابل 100 خفيفة)
- التحكم أُعطي أكثر للحالات الخفيفة (200 خفيفة مقابل 100 شديدة)
- الحالات الشديدة لها معدلات نجاح أقل عموماً
التفسير الصحيح: الدواء أكثر فعالية للحالات الشديدة (المشكلة الأصعب). المتوسط الإجمالي مضلل بسبب التخصيص غير المتساوي."
المسألة 5: تحليل القوة
السؤال: "كم مستخدم نحتاج لكل مجموعة لاكتشاف تحسن نسبي 5% في معدل التحويل (من 10% إلى 10.5%) مع قوة 80% عند α=0.05؟"
الحل:
باستخدام الصيغة القياسية لاختبار النسبتين:
n = 2 × [(Zα/2 + Zβ)² × p̄(1-p̄)] / (p₁ - p₂)²
حيث:
- Zα/2 = 1.96 (لـ α=0.05، ذو طرفين)
- Zβ = 0.84 (لقوة 80%)
- p₁ = 0.10، p₂ = 0.105
- p̄ = (0.10 + 0.105) / 2 = 0.1025
n = 2 × [(1.96 + 0.84)² × 0.1025 × 0.8975] / (0.005)²
= 2 × [7.84 × 0.092] / 0.000025
= 2 × 0.721 / 0.000025
= 57,680 لكل مجموعة
نحتاج ~58,000 مستخدم لكل مجموعة (116,000 إجمالي) لاكتشاف هذا التأثير الصغير.
رؤية المقابلة: "هذا يبرز لماذا اكتشاف التأثيرات الصغيرة يتطلب عينات كبيرة. سأسأل ما إذا كان التحسن النسبي 5% يستحق تكلفة هذه التجربة، أو إذا كان يجب التركيز على تحسينات محتملة أكبر أولاً."
أظهر عملك خطوة بخطوة. المُحاورون يهتمون بعمليتك أكثر من حفظ الصيغ. :::