اختبارات A/B والتجريب

أساسيات التجريب

4 دقيقة للقراءة

اختبار A/B هو كيف تتخذ شركات التكنولوجيا الحديثة قرارات مبنية على البيانات. المُحاورون يتوقعون منك فهم ليس فقط الإحصاء، بل اعتبارات التصميم العملية.

ما يجعل التجربة جيدة

تجربة مصممة جيداً لها هذه المكونات:

المكون الوصف لماذا يهم
العشوائية المستخدمون يُعينون عشوائياً للمجموعات يزيل انحياز الاختيار
مجموعة التحكم التجربة الأساسية توفر نقطة مقارنة
مجموعة المعالجة التجربة الجديدة تختبر التغيير
فرضية واضحة تنبؤ محدد يركز التحليل
المقياس الأساسي نتيجة رئيسية واحدة يمنع انتقاء الكرز

العشوائية: الأساس

التعيين العشوائي يضمن أن المجموعات قابلة للمقارنة:

عشوائية جيدة:
- تجزئة معرف المستخدم (حتمية، قابلة للتكرار)
- كل مستخدم يرى دائماً نفس المتغير
- أحجام مجموعات متوازنة

عشوائية سيئة:
- مبنية على الوقت (مستخدمو الاثنين مختلفون عن الثلاثاء)
- جغرافية (المناطق لها سلوكيات مختلفة)
- اختيار ذاتي (المستخدمون يختارون تجربتهم)

سؤال مقابلة: "كيف ستعشوئ المستخدمين لتجربة تدفق الدفع؟"

إجابة جيدة: "سأستخدم تجزئة معرف المستخدم modulo 100. المستخدمون بتجزئة 0-49 يرون التحكم، 50-99 يرون المعالجة. هذا يضمن أن كل مستخدم يرى باستمرار نفس المتغير عبر الجلسات، والتقسيم متوازن."

وحدة التجربة

اختر ما تعشوئه بعناية:

الوحدة استخدم عندما الاعتبارات
المستخدم معظم التجارب الأكثر شيوعاً، مباشر
الجلسة اختبارات قصيرة المدى نفس المستخدم قد يرى متغيرات مختلفة
مشاهدة الصفحة دقيقة جداً ضوضاء عالية، صعبة التفسير
الجهاز مشاكل تتبع عبر الأجهزة المستخدم قد يملك أجهزة متعددة
العنقود (جغرافي، فريق) تأثيرات الشبكة متوقعة وحدات أقل، قوة أقل

مثال تأثيرات الشبكة: إذا كنت تختبر ميزة مراسلة، العشوائية بالمستخدم لا تعمل - المستخدمون المعالَجون يتفاعلون مع مستخدمي التحكم. عشوئ بالجغرافيا أو العنقود الاجتماعي بدلاً.

تأثيرات المعالجة

ما تحاول قياسه:

متوسط تأثير المعالجة (ATE):

ATE = E[Y(معالجة)] - E[Y(تحكم)]

متوسط الفرق في النتيجة بين مجموعتي المعالجة والتحكم.

مثال تفسير:

  • تحويل التحكم: 5.0%
  • تحويل المعالجة: 5.5%
  • ATE: +0.5 نقطة مئوية (رفع نسبي 10%)

حجم العينة والقوة

قبل تشغيل أي تجربة، احسب حجم العينة المطلوب:

المعاملات الرئيسية:

  • α (مستوى المعنوية): عادةً 0.05 (5% معدل إيجابي كاذب)
  • β (خطأ النوع الثاني): عادةً 0.20 (80% قوة)
  • الحد الأدنى للتأثير القابل للكشف (MDE): أصغر تأثير يستحق الكشف
  • المعدل الأساسي: قيمة المقياس الحالية
  • التباين: مقدار تنوع المقياس

قاعدة عامة: كشف تغير نسبي 1% يتطلب ~10 أضعاف العينة من كشف تغير 10%.

صيغة حجم العينة (مبسطة):
n ≈ 16 × σ² / δ²

حيث:
- σ² = تباين المقياس
- δ = الحد الأدنى للتأثير القابل للكشف

نصيحة مقابلة: دائماً اسأل عن حجم التأثير المتوقع. إذا توقع أصحاب المصلحة رفع 1% لكنك تستطيع فقط كشف 5%، التجربة لا تستطيع الإجابة على سؤالهم.

مقاييس الحماية

بجانب مقياسك الأساسي، راقب مقاييس الحماية:

النوع مثال الغرض
حماية الأعمال الإيرادات، تذاكر دعم العملاء ضمان عدم وجود ضرر كبير
حماية التفاعل طول الجلسة، الصفحات لكل زيارة التقاط التأثيرات غير المقصودة
حماية تقنية الكمون، معدلات الخطأ ضمان جودة التنفيذ

سيناريو مثال: تدفق دفع جديد يزيد التحويل 2% لكن يزيد تذاكر دعم العملاء 50%. مقياس الحماية (تذاكر الدعم) يقترح التحقيق قبل الإطلاق.

كل تجربة يجب أن يكون لها 2-3 مقاييس حماية على الأقل. تحمي ضد تحسين شيء واحد مع كسر آخر. :::

اختبار

الوحدة 4: اختبارات A/B والتجريب

خذ الاختبار