المزالق الشائعة في اختبارات A/B

معرفة ما يمكن أن يخطئ بنفس أهمية معرفة كيفية تشغيل التجارب. هذه المزالق تظهر بشكل متكرر في المقابلات والاختبارات الحقيقية.

مشكلة النظر المبكر

ما هي: التحقق من النتائج بشكل متكرر والتوقف عند رؤية المعنوية.

لماذا هي سيئة: كل نظرة تضخم معدل الإيجابي الكاذب. مع فحوصات يومية على تجربة لأسبوعين، α الحقيقي قد يكون 20-30%، ليس 5%.

مثال:
- اليوم 3: p = 0.08 → استمر
- اليوم 5: p = 0.12 → استمر
- اليوم 7: p = 0.04 → "معنوي! أطلقه!"

الواقع: كنت محظوظاً في اليوم 7. التأثير الحقيقي قد يكون صفراً.

الحلول:

التزم بالمدة مسبقاً: لا تنظر للنتائج حتى تنتهي التجربة
الاختبار المتتابع: استخدم طرق تحسب للنظرات المتعددة (مثل تصميمات المجموعة المتتابعة)
اضبط α: استخدم حدود Pocock أو O'Brien-Fleming

إجابة المقابلة: "لا أوقف تجربة أبداً مبكراً لمجرد أن p < 0.05. إما أستخدم الاختبار المتتابع مع دوال إنفاق alpha المناسبة، أو ألتزم بمدة ثابتة مسبقاً."

تأثيرات الحداثة والأولوية

تأثير الحداثة: المستخدمون يتفاعلون أكثر مع الميزات الجديدة ببساطة لأنها جديدة. التأثير يتلاشى مع الوقت.

تأثير الأولوية: المستخدمون يقاومون التغيير ويتفاعلون أقل في البداية. التأثير يتلاشى مع التكيف.

التأثير	الاستجابة الأولية	طويل المدى	مثال
الحداثة	المقياس يرتفع	يعود للخط الأساسي	لون زر جديد يحصل على نقرات أكثر
الأولوية	المقياس ينخفض	يعود للخط الأساسي	التنقل المعاد تصميمه يربك المستخدمين

استراتيجيات الكشف:

شغّل التجارب لأكثر من أسبوعين كحد أدنى
ارسم المقاييس عبر الوقت داخل التجربة
قارن الأسبوع 1 مقابل الأسبوع 2 داخل مجموعة المعالجة

سيناريو مقابلة: "أطلقنا ميزة جديدة ورأينا رفع 15% في الأسبوع 1، لكن فقط رفع 3% في الأسبوع 2. ماذا حدث؟"

الجواب: "هذا يبدو تأثير حداثة. المستخدمون كانوا متحمسين في البداية للميزة الجديدة، لكن التفاعل تطبّع. التأثير الحقيقي طويل المدى على الأرجح أقرب لـ 3%. أوصي بالتشغيل لـ 1-2 أسبوع إضافي لتأكيد تأثير الحالة المستقرة."

مفارقة سيمبسون في التجارب

عندما النتائج الإجمالية تناقض النتائج المجزأة:

الإجمالي:
- المعالجة: 10.5% تحويل
- التحكم: 10.0% تحويل
- الخلاصة: المعالجة تفوز!

حسب الشريحة:
الموبايل:    المعالجة 8.0% < التحكم 8.5%
سطح المكتب: المعالجة 11.0% < التحكم 12.0%
- الخلاصة: التحكم يفوز في كلتا الشريحتين!

كيف يحدث هذا: مجموعة المعالجة كان لديها مستخدمو سطح مكتب أكثر (الذين يحولون أعلى)، مما خلق إجمالي مضلل.

الوقاية:

تحقق من التوازن عبر الشرائح الرئيسية
العشوائية الطبقية (إجبار توزيع متساوٍ)
دائماً جزّئ التحليل حسب الجهاز، جديد/عائد، إلخ

تأثيرات الشبكة والتداخل

عندما المعالجة تؤثر على التحكم عبر تفاعلات المستخدم:

مثال - اختبار ميزة مراسلة:

مستخدمو المعالجة يمكنهم مشاركة المحتوى بتنسيق جديد
يشاركون مع مستخدمي التحكم
مستخدمو التحكم يرون التنسيق الجديد على أي حال
التجربة ملوثة

الحلول:

عشوائية العنقود: عشوئ بالجغرافيا أو الفريق أو العنقود الاجتماعي
تجارب مستوى السوق: مدن مختلفة تحصل على معالجات مختلفة
احتجازات زمنية: نسبة معينة لا تحصل على الميزة أبداً

سؤال مقابلة: "كيف ستختبر ميزة إحالة فيروسية؟"

الجواب: "سأستخدم عشوائية العنقود. عشوائية المستخدم الفردي لا تعمل لأن المستخدمين المعالَجين يحيلون مستخدمي التحكم. قد أعشوئ بالمدينة أو بعناقيد المستخدمين المتصلين، قابلاً أنني سأحتاج وقتاً أكثر (وحدات مستقلة أقل = قوة أقل)."

مشكلة المقارنات المتعددة

اختبار مقاييس كثيرة يزيد الإيجابيات الكاذبة:

إذا اختبرت 20 مقياس عند α = 0.05:
الإيجابيات الكاذبة المتوقعة = 20 × 0.05 = 1

في المتوسط، ستجد نتيجة "معنوية" واحدة بالصدفة وحدها.

التصحيحات:

Bonferroni: قسّم α على عدد الاختبارات (محافظ)
Benjamini-Hochberg: يتحكم في معدل الاكتشاف الكاذب (أقل محافظة)
حدد المقياس الأساسي مسبقاً: مقياس واحد فقط يحدد قرار الإطلاق

نصيحة المقابلة: "أميز بين المقاييس الأساسية (تتطلب تصحيح) والمقاييس الاستكشافية (تُفسر بحذر، بدون تصحيح)."

انحياز الاختيار

عندما المجموعات ليست قابلة للمقارنة فعلاً:

نوع الانحياز	مثال	المشكلة
انحياز الناجي	تحلل فقط المستخدمين الذين أكملوا الإعداد	تفوت المتسربين
الاختيار الذاتي	المستخدمون يختارون الانضمام للبيتا	مستخدمو البيتا مختلفون
انحياز التوقيت	المعالجة أُطلقت خلال عطلة	التأثيرات الموسمية تشوش

الوقاية: دائماً تحقق من أن مجموعتي المعالجة والتحكم متوازنتان على الخصائص ما قبل التجربة (الديموغرافيا، السلوك السابق).

أفضل المجربين يعانون من جنون الارتياب. دائماً اسأل "ما الذي يمكن أن يجعل هذه النتائج مضللة؟" :::