اختبارات A/B والتجريب
أساسيات التجريب
اختبار A/B هو كيف تتخذ شركات التكنولوجيا الحديثة قرارات مبنية على البيانات. المُحاورون يتوقعون منك فهم ليس فقط الإحصاء، بل اعتبارات التصميم العملية.
ما يجعل التجربة جيدة
تجربة مصممة جيداً لها هذه المكونات:
| المكون | الوصف | لماذا يهم |
|---|---|---|
| العشوائية | المستخدمون يُعينون عشوائياً للمجموعات | يزيل انحياز الاختيار |
| مجموعة التحكم | التجربة الأساسية | توفر نقطة مقارنة |
| مجموعة المعالجة | التجربة الجديدة | تختبر التغيير |
| فرضية واضحة | تنبؤ محدد | يركز التحليل |
| المقياس الأساسي | نتيجة رئيسية واحدة | يمنع انتقاء الكرز |
العشوائية: الأساس
التعيين العشوائي يضمن أن المجموعات قابلة للمقارنة:
عشوائية جيدة:
- تجزئة معرف المستخدم (حتمية، قابلة للتكرار)
- كل مستخدم يرى دائماً نفس المتغير
- أحجام مجموعات متوازنة
عشوائية سيئة:
- مبنية على الوقت (مستخدمو الاثنين مختلفون عن الثلاثاء)
- جغرافية (المناطق لها سلوكيات مختلفة)
- اختيار ذاتي (المستخدمون يختارون تجربتهم)
سؤال مقابلة: "كيف ستعشوئ المستخدمين لتجربة تدفق الدفع؟"
إجابة جيدة: "سأستخدم تجزئة معرف المستخدم modulo 100. المستخدمون بتجزئة 0-49 يرون التحكم، 50-99 يرون المعالجة. هذا يضمن أن كل مستخدم يرى باستمرار نفس المتغير عبر الجلسات، والتقسيم متوازن."
وحدة التجربة
اختر ما تعشوئه بعناية:
| الوحدة | استخدم عندما | الاعتبارات |
|---|---|---|
| المستخدم | معظم التجارب | الأكثر شيوعاً، مباشر |
| الجلسة | اختبارات قصيرة المدى | نفس المستخدم قد يرى متغيرات مختلفة |
| مشاهدة الصفحة | دقيقة جداً | ضوضاء عالية، صعبة التفسير |
| الجهاز | مشاكل تتبع عبر الأجهزة | المستخدم قد يملك أجهزة متعددة |
| العنقود (جغرافي، فريق) | تأثيرات الشبكة متوقعة | وحدات أقل، قوة أقل |
مثال تأثيرات الشبكة: إذا كنت تختبر ميزة مراسلة، العشوائية بالمستخدم لا تعمل - المستخدمون المعالَجون يتفاعلون مع مستخدمي التحكم. عشوئ بالجغرافيا أو العنقود الاجتماعي بدلاً.
تأثيرات المعالجة
ما تحاول قياسه:
متوسط تأثير المعالجة (ATE):
ATE = E[Y(معالجة)] - E[Y(تحكم)]
متوسط الفرق في النتيجة بين مجموعتي المعالجة والتحكم.
مثال تفسير:
- تحويل التحكم: 5.0%
- تحويل المعالجة: 5.5%
- ATE: +0.5 نقطة مئوية (رفع نسبي 10%)
حجم العينة والقوة
قبل تشغيل أي تجربة، احسب حجم العينة المطلوب:
المعاملات الرئيسية:
- α (مستوى المعنوية): عادةً 0.05 (5% معدل إيجابي كاذب)
- β (خطأ النوع الثاني): عادةً 0.20 (80% قوة)
- الحد الأدنى للتأثير القابل للكشف (MDE): أصغر تأثير يستحق الكشف
- المعدل الأساسي: قيمة المقياس الحالية
- التباين: مقدار تنوع المقياس
قاعدة عامة: كشف تغير نسبي 1% يتطلب ~10 أضعاف العينة من كشف تغير 10%.
صيغة حجم العينة (مبسطة):
n ≈ 16 × σ² / δ²
حيث:
- σ² = تباين المقياس
- δ = الحد الأدنى للتأثير القابل للكشف
نصيحة مقابلة: دائماً اسأل عن حجم التأثير المتوقع. إذا توقع أصحاب المصلحة رفع 1% لكنك تستطيع فقط كشف 5%، التجربة لا تستطيع الإجابة على سؤالهم.
مقاييس الحماية
بجانب مقياسك الأساسي، راقب مقاييس الحماية:
| النوع | مثال | الغرض |
|---|---|---|
| حماية الأعمال | الإيرادات، تذاكر دعم العملاء | ضمان عدم وجود ضرر كبير |
| حماية التفاعل | طول الجلسة، الصفحات لكل زيارة | التقاط التأثيرات غير المقصودة |
| حماية تقنية | الكمون، معدلات الخطأ | ضمان جودة التنفيذ |
سيناريو مثال: تدفق دفع جديد يزيد التحويل 2% لكن يزيد تذاكر دعم العملاء 50%. مقياس الحماية (تذاكر الدعم) يقترح التحقيق قبل الإطلاق.
كل تجربة يجب أن يكون لها 2-3 مقاييس حماية على الأقل. تحمي ضد تحسين شيء واحد مع كسر آخر. :::