المراقبة والملاحظة والاستجابة للحوادث

الاستجابة للحوادث وما بعد الحادث

4 دقيقة للقراءة

أسئلة الاستجابة للحوادث تكشف خبرتك في الإنتاج. دعنا نتقن العملية.

مستويات شدة الحوادث

الشدةالتأثيرالاستجابةمثال
SEV1/P1انقطاع كاملالجميع، اتصالات التنفيذييننظام الدفع معطل
SEV2/P2تدهور كبيراستجابة الفريقمعدل أخطاء 50%
SEV3/P3تأثير طفيفساعات العملبطيء لبعض المستخدمين
SEV4/P4تأثير منخفضعند الإمكانيةمشاكل تجميلية

عملية الاستجابة للحوادث

┌─────────────────────────────────────────────────────┐
│                دورة حياة الحادث                      │
├─────────────────────────────────────────────────────┤
│  اكتشف → صنّف → خفف → حل → ما بعد الحادث           │
│    │       │       │       │         │              │
│  التنبيه  الشدة   أوقف    أصلح     تعلم             │
│  ينطلق   تُعيّن  النزيف  السبب    وشارك            │
└─────────────────────────────────────────────────────┘

المرحلة 1: الاكتشاف

المصادر:
- تنبيهات المراقبة
- بلاغات العملاء
- فحوصات الصحة الآلية
- ملاحظات الفريق

الهدف: تقليل MTTD (متوسط وقت الاكتشاف)

المرحلة 2: التصنيف

قائمة فحص الـ 5 دقائق الأولى:
□ أقر بالتنبيه
□ قيّم الشدة والنطاق
□ حدد إذا كان جديداً أو مرتبطاً بحادث موجود
□ استدعِ أعضاء الفريق المناسبين
□ ابدأ قناة اتصال الحادث

المرحلة 3: التخفيف

ركز على إيقاف النزيف، ليس السبب الجذري:

التخفيفمتى تستخدم
تراجع النشريُشتبه بتغيير حديث
وسّع المواردمشكلة سعة
انتقل للنسخة الاحتياطيةالنظام الأساسي يفشل
عطّل علم الميزةميزة جديدة تسبب مشاكل
أعد توجيه الحركةمشكلة إقليمية
أعد تشغيل الخدماتإصلاح سريع للعمليات العالقة

المرحلة 4: الحل

1. تحقق أن التخفيف يعمل
2. تحقق من السبب الجذري (يمكن أن يكون غير متزامن)
3. نفّذ الإصلاح الصحيح
4. انشر الإصلاح مع مراقبة حذرة
5. أعلن حل الحادث

دور قائد الحادث

IC يُنسق الاستجابة:

مسؤوليات قائد الحادث:
- عيّن الأدوار (الاتصالات، القائد التقني، المدوّن)
- نسّق مسارات التحقيق
- اتخذ قرارات نهج التخفيف
- أبقِ المعنيين على اطلاع
- قرر متى تُصعّد
- أعلن حل الحادث

IC لا يفعل:
- تصحيح الكود (إلا إذا لم يكن هناك أحد آخر متاح)
- كتابة ما بعد الحادث أثناء الحادث
- اتخاذ قرارات بمعزل

أفضل ممارسات المناوبة

مناوبة صحية

الممارسةلماذا
دورة أساسي + ثانوياحتياطي للتغطية
نوبات أسبوع كحد أقصىمنع الإرهاق
اتبع الشمس (إذا عالمي)الاستدعاءات الليلية نادرة
توثيق التسليمنقل السياق
حدود الاستدعاء (SLO للمناوبة)قلل إرهاق التنبيهات

استجابة التنبيه

# عند الاستدعاء:
1. أقر بالتنبيه (يوقف التصعيد)
2. تحقق من اللوحات للسياق
3. راجع النشر الأخير
4. ابدأ التحقيق أو صعّد
5. حدّث صفحة الحالة إذا تواجه العملاء

# لا تفعل:
- تجاهل وتأمل أن يُحل
- تصعّد بدون تحقيق
- أصلح بدون فهم

كتابة ما بعد الحادث

ثقافة بدون لوم

"كيف سمح نظامنا بحدوث هذا؟" وليس "من سبب هذا؟"

مبادئ ما بعد الحادث بدون لوم:
- ركز على الأنظمة، ليس الأفراد
- افترض أن الجميع تصرف بأفضل النوايا
- حدد تحسينات العملية
- شارك التعلم على نطاق واسع

قالب ما بعد الحادث

# الحادث: [العنوان] - [التاريخ]

## الملخص
وصف موجز لما حدث، التأثير، والمدة.

## التأثير
- المستخدمون المتأثرون: X%
- المدة: X ساعات
- التأثير على الإيرادات: $X (إن وجد)
- ميزانية الأخطاء المستهلكة: X%

## الجدول الزمني (جميع الأوقات UTC)
- 10:00 - التنبيه انطلق لمعدل أخطاء عالٍ
- 10:05 - مهندس المناوبة أقر
- 10:15 - السبب الجذري حُدد: هجرة قاعدة بيانات سيئة
- 10:30 - بدأ التراجع
- 10:45 - الخدمة تعافت
- 11:00 - الحادث أُعلن محلولاً

## السبب الجذري
هجرة قاعدة البيانات أقفلت جداول حرجة، مما تسبب في استنفاد تجمع الاتصالات.

## ما سار جيداً
- التنبيه انطلق خلال دقيقتين من المشكلة
- تحديد سريع للسبب الجذري
- تواصل فعال

## ما سار خطأ
- الهجرة لم تُختبر مع بيانات بحجم الإنتاج
- لا خطة تراجع موثقة
- تحديث صفحة الحالة تأخر

## عناصر العمل
| العمل | المالك | تاريخ الاستحقاق | الحالة |
|-------|--------|----------------|--------|
| أضف اختبار الهجرة مع بيانات الإنتاج | @alice | 2025-01-15 | مطلوب |
| أنشئ دليل التراجع | @bob | 2025-01-10 | مطلوب |
| أتمت تحديثات صفحة الحالة | @carol | 2025-01-20 | مطلوب |

## الدروس المستفادة
هجرات قاعدة البيانات يجب أن تُعامل كتغييرات عالية المخاطر مع خطط تراجع إلزامية واختبار بحجم الإنتاج.

أسئلة المقابلة

س: "أخبرني عن حادث تعاملت معه. ما الذي سار جيداً وما الذي ستفعله بشكل مختلف؟"

استخدم تنسيق STAR-L:

  • Situation: السياق والشدة
  • Task: دورك في الاستجابة
  • Action: الخطوات التي اتخذتها
  • Result: النتيجة والمقاييس
  • Learning: ما الذي تغير بسببه

س: "أنت في المناوبة وتُستدعى الساعة 3 صباحاً. أرشدني خلال عمليتك."

1. أقر (دقيقتان)
   - أوقف تصعيد التنبيه
   - تحقق: هل هذا حقيقي أم إيجابي خاطئ؟

2. قيّم (5 دقائق)
   - مراجعة اللوحة
   - تحديد الشدة
   - النطاق: من المتأثر؟

3. خفف (متغير)
   - هل يمكنني الإصلاح بسرعة؟
   - هل أحتاج للتصعيد؟
   - ما المسار الأكثر أماناً لاستعادة الخدمة؟

4. تواصل (طوال الوقت)
   - حدّث قناة الحادث
   - صفحة الحالة إذا تواجه العملاء
   - صعّد إذا عالق > 30 دقيقة

5. تابع (اليوم التالي)
   - تأكد من الحل الصحيح
   - أنشئ ما بعد الحادث إذا استدعى
   - سلّم لفريق النهار

لقد أكملت أساس مهارات SRE. الوحدة الأخيرة: المقابلات السلوكية والتفاوض على الراتب. :::

مراجعة سريعة: كيف تجد هذا الدرس؟

اختبار

الوحدة 5: المراقبة والملاحظة والاستجابة للحوادث

خذ الاختبار
نشرة أسبوعية مجانية

ابقَ على مسار النيرد

بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.

بدون إزعاج. إلغاء الاشتراك في أي وقت.