اختبارات A/B والتجريب
تحليل نتائج التجربة
عندما تنتهي التجربة، يبدأ التحليل. مهمتك استخراج الحقيقة من البيانات مع تجنب أخطاء التفسير الشائعة.
إطار عمل التحليل
اتبع هذا النهج المنظم:
1. فحوصات الصلاحية → هل التجربة موثوقة؟
2. المقياس الأساسي → ماذا يظهر؟
3. المعنوية الإحصائية → هل هو حقيقي؟
4. المعنوية العملية → هل يهم؟
5. تحليل الشرائح → من يستفيد؟
6. مقاييس الحماية → أي علامات حمراء؟
7. القرار → إطلاق، تكرار، أو إلغاء؟
فحوصات الصلاحية أولاً
قبل النظر في النتائج، تحقق من أن التجربة سارت بشكل صحيح:
| الفحص | ما تبحث عنه | علامة حمراء |
|---|---|---|
| نسبة العينة | تقسيم 50/50 تحقق؟ | انحراف >1% |
| مقاييس ما قبل التجربة | المجموعات متوازنة؟ | خطوط أساس مختلفة |
| التنفيذ | الميزة نُشرت بشكل صحيح؟ | أخطاء هندسية |
| المدة | أسابيع كاملة مكتملة؟ | أسابيع جزئية |
رؤية المقابلة: "دائماً أفحص عدم تطابق نسبة العينة (SRM) أولاً. إذا انتهى تقسيمي 50/50 بـ 52/48، شيء خاطئ في العشوائية والنتائج غير موثوقة."
المعنوية الإحصائية مقابل العملية
سؤالان منفصلان:
المعنوية الإحصائية: هل التأثير حقيقي (ليس ضوضاء عشوائية)؟
- الجواب: p < 0.05 (عادةً)
المعنوية العملية: هل التأثير كبير بما يكفي ليهم؟
- الجواب: يعتمد على السياق التجاري
مثال:
- p = 0.01 (معنوي جداً)
- التأثير: +0.01% تحويل (5.00% → 5.01%)
- 95% CI: [0.005%، 0.015%]
معنوي إحصائياً، لكن هل +0.01% يستحق تكلفة الصيانة الهندسية؟
سؤال مقابلة: "وجدنا نتيجة معنوية مع p=0.02، لكن الرفع فقط 0.5%. هل يجب أن نطلق؟"
إجابة جيدة: "سأحسب التأثير التجاري. إذا رفع 0.5% يعني $1M إيرادات سنوية، على الأرجح نعم. إذا يعني $10K لكن يتطلب صيانة مستمرة، ربما لا. سأتحقق أيضاً إذا كانت فترة الثقة تتضمن تأثيرات كبيرة بما يكفي لتكون واضحة الجدوى."
فترات الثقة على p-Values
فترات الثقة توفر معلومات أكثر:
| السيناريو | p-value | 95% CI | التفسير |
|---|---|---|---|
| أ | 0.02 | [0.5%، 3.0%] | معنوي، التأثير على الأرجح 0.5-3% |
| ب | 0.02 | [0.01%، 0.1%] | معنوي، لكن تأثير ضئيل |
| ج | 0.15 | [-0.5%، 2.5%] | غير معنوي، لكن قد يكون ذا معنى |
نصيحة احترافية: إذا CI تتضمن الصفر، النتيجة غير معنوية. عرض CI يظهر دقتك.
تحليل الشرائح
انظر أبعد من الإجمالي:
الشرائح الرئيسية للفحص دائماً:
- الجهاز (موبايل مقابل سطح المكتب)
- مستخدمين جدد مقابل عائدين
- الجغرافيا (إذا كانت ذات صلة)
- مدة/نضج المستخدم
مثال اكتشاف:
الإجمالي: +2% تحويل (معنوي)
حسب الجهاز:
- الموبايل: +5% تحويل (معنوي)
- سطح المكتب: -1% تحويل (غير معنوي)
الرؤية: الميزة تعمل جيداً على الموبايل لكن قد تضر سطح المكتب.
فكر في إطلاق للموبايل فقط.
تفسير النتائج الصفرية
"غير معنوي" لا تعني "لا تأثير":
التفسيرات الممكنة:
- لا يوجد تأثير حقيقي
- التأثير موجود لكن صغير جداً للكشف
- التأثير موجود لكن نقصت القوة
- التأثير موجود في شرائح لم نحللها
كيفية الإبلاغ:
جيد: "لاحظنا رفع +0.8%، لكن هذا لم يكن معنوياً إحصائياً
(p=0.23، 95% CI: [-0.5%، 2.1%]). بحجم عينتنا،
كنا نستطيع فقط كشف تأثيرات ≥2% بموثوقية. لا نستطيع الاستنتاج
إذا كان للميزة تأثير إيجابي صغير أو لا تأثير."
سيء: "الميزة لا تعمل."
اتخاذ القرار
اجمع كل الأدلة:
| الإشارة | إطلاق | عدم إطلاق |
|---|---|---|
| المقياس الأساسي | رفع معنوي | غير معنوي أو سلبي |
| الحجم العملي | ذو معنى تجاري | صغير جداً ليهم |
| مقاييس الحماية | كلها صحية | أي علامات حمراء |
| الشرائح | متسقة أو إيجابية | تضر شرائح رئيسية |
| الثقة | CI ضيقة، نتيجة واضحة | CI واسعة، غير مؤكد |
عندما يكون غامضاً:
- شغّل أطول إذا كانت بيانات أكثر ستساعد
- فكر في إطلاق محدود (شريحة واحدة)
- كرر على الميزة وأعد الاختبار
إطار عمل المقابلة: "لهذا القرار، سألخص: المعالجة أظهرت [X%] رفع في [المقياس الأساسي] (p=[قيمة]، 95% CI: [نطاق]). مقاييس الحماية [تأثرت/لم تتأثر]. تحليل الشرائح كشف [النتائج]. توصيتي هي [إطلاق/عدم إطلاق/تكرار] لأن [التفكير]."
دائماً اربط النتائج الإحصائية بالتأثير التجاري. الأرقام وحدها لا تتخذ قرارات - السياق يفعل. :::