الإحصاء والاحتمالات

اختبار الفرضيات

4 دقيقة للقراءة

اختبار الفرضيات هو أساس اتخاذ القرارات المبنية على البيانات. المُحاورون يتوقعون منك فهم ليس فقط الآليات، بل التفسير والقيود.

إطار عمل اختبار الفرضيات

كل اختبار فرضيات يتبع هذا الهيكل:

  1. صياغة الفرضيات:

    • H₀ (الصفرية): الافتراض الافتراضي (لا تأثير، لا فرق)
    • H₁ (البديلة): ما نختبره
  2. اختيار مستوى المعنوية (α): عادةً 0.05 أو 0.01

  3. حساب إحصائية الاختبار: بناءً على بيانات العينة

  4. اتخاذ القرار: ارفض H₀ إذا p-value < α

أخطاء النوع الأول والثاني

القرار H₀ صحيحة H₀ خاطئة
رفض H₀ خطأ النوع الأول (α) صحيح
عدم رفض H₀ صحيح خطأ النوع الثاني (β)

خطأ النوع الأول (إيجابي كاذب):

  • رفض H₀ عندما تكون صحيحة
  • الاحتمال = α (مستوى المعنوية)
  • "الصراخ ذئب" - القول بوجود تأثير عندما لا يوجد

خطأ النوع الثاني (سلبي كاذب):

  • عدم رفض H₀ عندما تكون خاطئة
  • الاحتمال = β
  • تفويت تأثير حقيقي

القوة = 1 - β: احتمال اكتشاف التأثير بشكل صحيح عندما يوجد.

سؤال مقابلة: "اختبار A/B أظهر p=0.03. هل الميزة الجديدة أفضل؟"

إجابة جيدة: "عند α=0.05، سنرفض الفرضية الصفرية بعدم وجود فرق. لكن، المعنوية الإحصائية لا تعني المعنوية العملية. سأنظر أيضاً في حجم التأثير وفترات الثقة قبل التوصية بالإطلاق."

p-Values: ما تعنيه فعلاً

p-value = احتمال ملاحظة بيانات بهذا التطرف (أو أكثر) إذا كانت الفرضية الصفرية صحيحة

تفسيرات خاطئة شائعة يجب تجنبها:

خطأ صحيح
p=0.03 تعني 3% احتمال أن H₀ صحيحة p=0.03 تعني 3% احتمال هذه البيانات إذا H₀ صحيحة
p=0.03 تعني 97% احتمال أن التأثير حقيقي حجم التأثير سؤال منفصل
p=0.06 تعني "تقريباً معنوي" إما معنوي أو لا - لا "تقريباً"

فخ المقابلة: "حصلنا على p=0.06. هل يجب جمع مزيد من البيانات؟"

الجواب: هذا p-hacking. يجب تحديد حجم العينة مسبقاً بناءً على تحليل القوة. جمع المزيد من البيانات لأن p قريب من المعنوي يرفع معدل الإيجابي الكاذب.

فترات الثقة

فترة ثقة 95% تعني: إذا كررنا هذه التجربة مرات عديدة، 95% من الفترات ستحتوي على المعامل الحقيقي.

لا تعني: هناك 95% احتمال أن القيمة الحقيقية في هذه الفترة.

البناء للمتوسط (عينة كبيرة):

CI = x̄ ± z × (s / √n)

لـ 95% CI: z = 1.96
لـ 99% CI: z = 2.58

رؤية المقابلة: فترات الثقة أكثر إفادة من p-values لأنها تظهر حجم التأثير وعدم اليقين.

السيناريو أ: p=0.04، 95% CI = [0.1%، 2.0%]
السيناريو ب: p=0.04، 95% CI = [5.0%، 25.0%]

كلاهما "معنوي"، لكن السيناريو ب يظهر تأثيراً عملياً ذا معنى.

مرجع سريع للاختبارات الشائعة

الاختبار حالة الاستخدام الافتراضات
اختبار t (عينة واحدة) المتوسط مقابل قيمة معروفة توزيع طبيعي أو n > 30
اختبار t (عينتان) مقارنة متوسطي مجموعتين الاستقلالية، الطبيعية
اختبار t المزدوج قبل/بعد لنفس الأفراد ملاحظات مزدوجة
Chi-square استقلالية فئوية العدد المتوقع ≥ 5 لكل خلية
ANOVA مقارنة 3+ متوسطات مجموعات الطبيعية، تباين متساوٍ

مسألة مقابلة: تحليل اختبار A/B

السيناريو: التحكم له 5% معدل تحويل. المعالجة لها 5.5% معدل تحويل. كل مجموعة 10,000 مستخدم. هل هذا معنوي؟

الحل:

H₀: p_treatment = p_control
H₁: p_treatment ≠ p_control

النسبة المجمعة: p = (500 + 550) / 20000 = 0.0525

الخطأ المعياري: SE = √[p(1-p)(1/n₁ + 1/n₂)]
                    = √[0.0525 × 0.9475 × (1/10000 + 1/10000)]
                    = √[0.0498 × 0.0002]
                    = 0.00316

z = (0.055 - 0.05) / 0.00316 = 1.58

p-value ≈ 0.114 (ذو طرفين)

الخلاصة: غير معنوي عند α=0.05. التحسن النسبي 10% (0.5% مطلق) قد يكون بسبب الصدفة.

دائماً اربط النتائج الإحصائية بالآثار التجارية. "غير معنوي" لا تعني "لا تأثير" - تعني أننا لا نستطيع التمييز عن الضوضاء. :::

اختبار

الوحدة 3: الإحصاء والاحتمالات

خذ الاختبار