اختبارات A/B والتجريب

تصميم اختبار A/B

3 دقيقة للقراءة

تصميم تجربة متينة هو نصف المعركة. التصميم السيء يؤدي لنتائج غير حاسمة أو مضللة، مضيعاً الوقت والموارد.

اختيار المقاييس

اختر المقاييس بعناية - فهي تقود القرارات:

المقياس الأساسي: المقياس الواحد الذي يحدد النجاح/الفشل.

  • يجب أن يقيس مباشرة ما تهتم به
  • يجب أن يكون قابلاً للقياس ضمن إطار زمني التجربة
  • يجب أن يكون له إشارة كافية (ليس نادراً جداً)

المقاييس الثانوية: رؤى إضافية بدون تغيير القرار.

مقاييس الحماية: علامات حمراء توقف الإطلاق.

مثال - اختبار خوارزمية توصيات جديدة:

النوع المقياس لماذا
أساسي معدل النقر على التوصيات قياس مباشر للملاءمة
ثانوي الوقت المقضي على العناصر المنقورة جودة التوصيات
حماية وقت تحميل الصفحة الإجمالي الخوارزمية لا يجب أن تبطئ الأشياء
حماية الإيرادات لكل مستخدم لا يجب أن تضر بالتحقيق

الحد الأدنى للتأثير القابل للكشف (MDE)

MDE هو أصغر حجم تأثير يمكنك كشفه بموثوقية:

المقايضات:
- MDE أصغر → تحتاج مستخدمين أكثر → تجربة أطول
- MDE أكبر → تحتاج مستخدمين أقل → قد تفوت تأثيرات حقيقية

كيف تختار MDE:

  1. التأثير التجاري: أي تغيير يهم؟ رفع 0.1% في التحويل قد يستحق ملايين لمنصة كبيرة.

  2. الجدوى: بناءً على المعدل الأساسي وحركة المرور، ماذا يمكنك كشفه في إطار زمني معقول؟

  3. التأثير المتوقع: ماذا تنتج التغييرات المماثلة عادةً؟

سؤال مقابلة: "مدير المنتج يريد كشف رفع 1% في التحويل (من 5% إلى 5.05%). حاسبتك تقول تحتاج 3 ملايين مستخدم لكل مجموعة. ماذا تفعل؟"

إجابة جيدة: "سأرفض وأناقش:

  1. هل رفع 1% واقعي؟ أي دليل يقترح تأثيراً صغيراً بهذا الحجم؟
  2. هل يمكننا التشغيل لفترة أطول لتجميع المستخدمين؟
  3. هل هناك مقياس بديل بتباين أقل؟
  4. هل يجب التركيز على تغيير أكثر تأثيراً أولاً؟"

مدة الاختبار

كم يجب أن تستمر التجربة؟

عوامل للنظر:

العامل التأثير
احتياجات حجم العينة المحرك الأساسي للمدة
الأنماط الأسبوعية شغّل أسابيع كاملة (التقاط أيام العمل/نهاية الأسبوع)
تأثيرات الحداثة الميزات الجديدة قد ترتفع ثم تتطبع
الأحداث الخارجية تجنب العطلات، الإطلاقات، الانقطاعات
النضج بعض التأثيرات تحتاج وقتاً للتطور

التوصيات الدنيا:

  • أسبوع كامل على الأقل (مثالياً 2)
  • 1,000 تحويل على الأقل لكل متغير
  • طويلة بما يكفي لتتلاشى الحداثة (2+ أسبوع لتغييرات UI كبيرة)

تخصيص حركة المرور

كيف تقسم المستخدمين بين المتغيرات:

التقسيم حالة الاستخدام
50/50 قياسي - يزيد القوة الإحصائية للحد الأقصى
90/10 اختبار تغييرات خطرة، تريد تقليل التعرض
متعدد الأذرع اختبار متغيرات متعددة (A/B/C/D)

استراتيجية التصعيد:

  1. ابدأ بـ 1% حركة مرور (التقاط الأخطاء الكبيرة)
  2. زد إلى 10% (راقب المقاييس)
  3. كامل 50/50 (شغّل التجربة)

رؤية المقابلة: "أوصي دائماً بمرحلة تصعيد للميزات الجديدة. البدء بـ 1% يتيح لنا التقاط أخطاء التنفيذ قبل التأثير على كثير من المستخدمين."

التسجيل المسبق

وثّق تصميم تجربتك قبل التشغيل:

مستند التسجيل المسبق:
1. الفرضية: تنبؤ واضح
2. المقياس الأساسي: مقياس واحد، كيف يُقاس
3. حجم العينة: الحساب والافتراضات
4. المدة: تواريخ البدء/الانتهاء
5. خطة التحليل: الاختبارات الإحصائية للاستخدام
6. معايير القرار: ما يؤدي للإطلاق/عدم الإطلاق

لماذا يهم:

  • يمنع p-hacking (تغيير التحليل للحصول على معنوية)
  • يوثق الافتراضات لأصحاب المصلحة
  • يخلق المساءلة

التسجيل المسبق متوقع بشكل متزايد في الشركات الكبرى. اذكره بشكل استباقي لإظهار أنك تفهم التجريب الدقيق. :::

اختبار

الوحدة 4: اختبارات A/B والتجريب

خذ الاختبار