المراقبة والملاحظة والاستجابة للحوادث

الاستجابة للحوادث وما بعد الحادث

4 دقيقة للقراءة

أسئلة الاستجابة للحوادث تكشف خبرتك في الإنتاج. دعنا نتقن العملية.

مستويات شدة الحوادث

الشدة التأثير الاستجابة مثال
SEV1/P1 انقطاع كامل الجميع، اتصالات التنفيذيين نظام الدفع معطل
SEV2/P2 تدهور كبير استجابة الفريق معدل أخطاء 50%
SEV3/P3 تأثير طفيف ساعات العمل بطيء لبعض المستخدمين
SEV4/P4 تأثير منخفض عند الإمكانية مشاكل تجميلية

عملية الاستجابة للحوادث

┌─────────────────────────────────────────────────────┐
│                دورة حياة الحادث                      │
├─────────────────────────────────────────────────────┤
│  اكتشف → صنّف → خفف → حل → ما بعد الحادث           │
│    │       │       │       │         │              │
│  التنبيه  الشدة   أوقف    أصلح     تعلم             │
│  ينطلق   تُعيّن  النزيف  السبب    وشارك            │
└─────────────────────────────────────────────────────┘

المرحلة 1: الاكتشاف

المصادر:
- تنبيهات المراقبة
- بلاغات العملاء
- فحوصات الصحة الآلية
- ملاحظات الفريق

الهدف: تقليل MTTD (متوسط وقت الاكتشاف)

المرحلة 2: التصنيف

قائمة فحص الـ 5 دقائق الأولى:
□ أقر بالتنبيه
□ قيّم الشدة والنطاق
□ حدد إذا كان جديداً أو مرتبطاً بحادث موجود
□ استدعِ أعضاء الفريق المناسبين
□ ابدأ قناة اتصال الحادث

المرحلة 3: التخفيف

ركز على إيقاف النزيف، ليس السبب الجذري:

التخفيف متى تستخدم
تراجع النشر يُشتبه بتغيير حديث
وسّع الموارد مشكلة سعة
انتقل للنسخة الاحتياطية النظام الأساسي يفشل
عطّل علم الميزة ميزة جديدة تسبب مشاكل
أعد توجيه الحركة مشكلة إقليمية
أعد تشغيل الخدمات إصلاح سريع للعمليات العالقة

المرحلة 4: الحل

1. تحقق أن التخفيف يعمل
2. تحقق من السبب الجذري (يمكن أن يكون غير متزامن)
3. نفّذ الإصلاح الصحيح
4. انشر الإصلاح مع مراقبة حذرة
5. أعلن حل الحادث

دور قائد الحادث

IC يُنسق الاستجابة:

مسؤوليات قائد الحادث:
- عيّن الأدوار (الاتصالات، القائد التقني، المدوّن)
- نسّق مسارات التحقيق
- اتخذ قرارات نهج التخفيف
- أبقِ المعنيين على اطلاع
- قرر متى تُصعّد
- أعلن حل الحادث

IC لا يفعل:
- تصحيح الكود (إلا إذا لم يكن هناك أحد آخر متاح)
- كتابة ما بعد الحادث أثناء الحادث
- اتخاذ قرارات بمعزل

أفضل ممارسات المناوبة

مناوبة صحية

الممارسة لماذا
دورة أساسي + ثانوي احتياطي للتغطية
نوبات أسبوع كحد أقصى منع الإرهاق
اتبع الشمس (إذا عالمي) الاستدعاءات الليلية نادرة
توثيق التسليم نقل السياق
حدود الاستدعاء (SLO للمناوبة) قلل إرهاق التنبيهات

استجابة التنبيه

# عند الاستدعاء:
1. أقر بالتنبيه (يوقف التصعيد)
2. تحقق من اللوحات للسياق
3. راجع النشر الأخير
4. ابدأ التحقيق أو صعّد
5. حدّث صفحة الحالة إذا تواجه العملاء

# لا تفعل:
- تجاهل وتأمل أن يُحل
- تصعّد بدون تحقيق
- أصلح بدون فهم

كتابة ما بعد الحادث

ثقافة بدون لوم

"كيف سمح نظامنا بحدوث هذا؟" وليس "من سبب هذا؟"

مبادئ ما بعد الحادث بدون لوم:
- ركز على الأنظمة، ليس الأفراد
- افترض أن الجميع تصرف بأفضل النوايا
- حدد تحسينات العملية
- شارك التعلم على نطاق واسع

قالب ما بعد الحادث

# الحادث: [العنوان] - [التاريخ]

## الملخص
وصف موجز لما حدث، التأثير، والمدة.

## التأثير
- المستخدمون المتأثرون: X%
- المدة: X ساعات
- التأثير على الإيرادات: $X (إن وجد)
- ميزانية الأخطاء المستهلكة: X%

## الجدول الزمني (جميع الأوقات UTC)
- 10:00 - التنبيه انطلق لمعدل أخطاء عالٍ
- 10:05 - مهندس المناوبة أقر
- 10:15 - السبب الجذري حُدد: هجرة قاعدة بيانات سيئة
- 10:30 - بدأ التراجع
- 10:45 - الخدمة تعافت
- 11:00 - الحادث أُعلن محلولاً

## السبب الجذري
هجرة قاعدة البيانات أقفلت جداول حرجة، مما تسبب في استنفاد تجمع الاتصالات.

## ما سار جيداً
- التنبيه انطلق خلال دقيقتين من المشكلة
- تحديد سريع للسبب الجذري
- تواصل فعال

## ما سار خطأ
- الهجرة لم تُختبر مع بيانات بحجم الإنتاج
- لا خطة تراجع موثقة
- تحديث صفحة الحالة تأخر

## عناصر العمل
| العمل | المالك | تاريخ الاستحقاق | الحالة |
|-------|--------|----------------|--------|
| أضف اختبار الهجرة مع بيانات الإنتاج | @alice | 2025-01-15 | مطلوب |
| أنشئ دليل التراجع | @bob | 2025-01-10 | مطلوب |
| أتمت تحديثات صفحة الحالة | @carol | 2025-01-20 | مطلوب |

## الدروس المستفادة
هجرات قاعدة البيانات يجب أن تُعامل كتغييرات عالية المخاطر مع خطط تراجع إلزامية واختبار بحجم الإنتاج.

أسئلة المقابلة

س: "أخبرني عن حادث تعاملت معه. ما الذي سار جيداً وما الذي ستفعله بشكل مختلف؟"

استخدم تنسيق STAR-L:

  • Situation: السياق والشدة
  • Task: دورك في الاستجابة
  • Action: الخطوات التي اتخذتها
  • Result: النتيجة والمقاييس
  • Learning: ما الذي تغير بسببه

س: "أنت في المناوبة وتُستدعى الساعة 3 صباحاً. أرشدني خلال عمليتك."

1. أقر (دقيقتان)
   - أوقف تصعيد التنبيه
   - تحقق: هل هذا حقيقي أم إيجابي خاطئ؟

2. قيّم (5 دقائق)
   - مراجعة اللوحة
   - تحديد الشدة
   - النطاق: من المتأثر؟

3. خفف (متغير)
   - هل يمكنني الإصلاح بسرعة؟
   - هل أحتاج للتصعيد؟
   - ما المسار الأكثر أماناً لاستعادة الخدمة؟

4. تواصل (طوال الوقت)
   - حدّث قناة الحادث
   - صفحة الحالة إذا تواجه العملاء
   - صعّد إذا عالق > 30 دقيقة

5. تابع (اليوم التالي)
   - تأكد من الحل الصحيح
   - أنشئ ما بعد الحادث إذا استدعى
   - سلّم لفريق النهار

لقد أكملت أساس مهارات SRE. الوحدة الأخيرة: المقابلات السلوكية والتفاوض على الراتب. :::

اختبار

الوحدة 5: المراقبة والملاحظة والاستجابة للحوادث

خذ الاختبار