اختبارات A/B والتجريب

تحليل نتائج التجربة

4 دقيقة للقراءة

عندما تنتهي التجربة، يبدأ التحليل. مهمتك استخراج الحقيقة من البيانات مع تجنب أخطاء التفسير الشائعة.

إطار عمل التحليل

اتبع هذا النهج المنظم:

1. فحوصات الصلاحية → هل التجربة موثوقة؟
2. المقياس الأساسي → ماذا يظهر؟
3. المعنوية الإحصائية → هل هو حقيقي؟
4. المعنوية العملية → هل يهم؟
5. تحليل الشرائح → من يستفيد؟
6. مقاييس الحماية → أي علامات حمراء؟
7. القرار → إطلاق، تكرار، أو إلغاء؟

فحوصات الصلاحية أولاً

قبل النظر في النتائج، تحقق من أن التجربة سارت بشكل صحيح:

الفحص ما تبحث عنه علامة حمراء
نسبة العينة تقسيم 50/50 تحقق؟ انحراف >1%
مقاييس ما قبل التجربة المجموعات متوازنة؟ خطوط أساس مختلفة
التنفيذ الميزة نُشرت بشكل صحيح؟ أخطاء هندسية
المدة أسابيع كاملة مكتملة؟ أسابيع جزئية

رؤية المقابلة: "دائماً أفحص عدم تطابق نسبة العينة (SRM) أولاً. إذا انتهى تقسيمي 50/50 بـ 52/48، شيء خاطئ في العشوائية والنتائج غير موثوقة."

المعنوية الإحصائية مقابل العملية

سؤالان منفصلان:

المعنوية الإحصائية: هل التأثير حقيقي (ليس ضوضاء عشوائية)؟

  • الجواب: p < 0.05 (عادةً)

المعنوية العملية: هل التأثير كبير بما يكفي ليهم؟

  • الجواب: يعتمد على السياق التجاري
مثال:
- p = 0.01 (معنوي جداً)
- التأثير: +0.01% تحويل (5.00% → 5.01%)
- 95% CI: [0.005%، 0.015%]

معنوي إحصائياً، لكن هل +0.01% يستحق تكلفة الصيانة الهندسية؟

سؤال مقابلة: "وجدنا نتيجة معنوية مع p=0.02، لكن الرفع فقط 0.5%. هل يجب أن نطلق؟"

إجابة جيدة: "سأحسب التأثير التجاري. إذا رفع 0.5% يعني $1M إيرادات سنوية، على الأرجح نعم. إذا يعني $10K لكن يتطلب صيانة مستمرة، ربما لا. سأتحقق أيضاً إذا كانت فترة الثقة تتضمن تأثيرات كبيرة بما يكفي لتكون واضحة الجدوى."

فترات الثقة على p-Values

فترات الثقة توفر معلومات أكثر:

السيناريو p-value 95% CI التفسير
أ 0.02 [0.5%، 3.0%] معنوي، التأثير على الأرجح 0.5-3%
ب 0.02 [0.01%، 0.1%] معنوي، لكن تأثير ضئيل
ج 0.15 [-0.5%، 2.5%] غير معنوي، لكن قد يكون ذا معنى

نصيحة احترافية: إذا CI تتضمن الصفر، النتيجة غير معنوية. عرض CI يظهر دقتك.

تحليل الشرائح

انظر أبعد من الإجمالي:

الشرائح الرئيسية للفحص دائماً:

  • الجهاز (موبايل مقابل سطح المكتب)
  • مستخدمين جدد مقابل عائدين
  • الجغرافيا (إذا كانت ذات صلة)
  • مدة/نضج المستخدم

مثال اكتشاف:

الإجمالي: +2% تحويل (معنوي)

حسب الجهاز:
- الموبايل: +5% تحويل (معنوي)
- سطح المكتب: -1% تحويل (غير معنوي)

الرؤية: الميزة تعمل جيداً على الموبايل لكن قد تضر سطح المكتب.
فكر في إطلاق للموبايل فقط.

تفسير النتائج الصفرية

"غير معنوي" لا تعني "لا تأثير":

التفسيرات الممكنة:

  1. لا يوجد تأثير حقيقي
  2. التأثير موجود لكن صغير جداً للكشف
  3. التأثير موجود لكن نقصت القوة
  4. التأثير موجود في شرائح لم نحللها

كيفية الإبلاغ:

جيد: "لاحظنا رفع +0.8%، لكن هذا لم يكن معنوياً إحصائياً
(p=0.23، 95% CI: [-0.5%، 2.1%]). بحجم عينتنا،
كنا نستطيع فقط كشف تأثيرات ≥2% بموثوقية. لا نستطيع الاستنتاج
إذا كان للميزة تأثير إيجابي صغير أو لا تأثير."

سيء: "الميزة لا تعمل."

اتخاذ القرار

اجمع كل الأدلة:

الإشارة إطلاق عدم إطلاق
المقياس الأساسي رفع معنوي غير معنوي أو سلبي
الحجم العملي ذو معنى تجاري صغير جداً ليهم
مقاييس الحماية كلها صحية أي علامات حمراء
الشرائح متسقة أو إيجابية تضر شرائح رئيسية
الثقة CI ضيقة، نتيجة واضحة CI واسعة، غير مؤكد

عندما يكون غامضاً:

  • شغّل أطول إذا كانت بيانات أكثر ستساعد
  • فكر في إطلاق محدود (شريحة واحدة)
  • كرر على الميزة وأعد الاختبار

إطار عمل المقابلة: "لهذا القرار، سألخص: المعالجة أظهرت [X%] رفع في [المقياس الأساسي] (p=[قيمة]، 95% CI: [نطاق]). مقاييس الحماية [تأثرت/لم تتأثر]. تحليل الشرائح كشف [النتائج]. توصيتي هي [إطلاق/عدم إطلاق/تكرار] لأن [التفكير]."

دائماً اربط النتائج الإحصائية بالتأثير التجاري. الأرقام وحدها لا تتخذ قرارات - السياق يفعل. :::

اختبار

الوحدة 4: اختبارات A/B والتجريب

خذ الاختبار