الدرس 2 من 6

قراءة توثيق بنية البيانات والمسارات

قراءة توثيق بنية البيانات والمسارات

8 دقيقة للقراءة

يقضي مهندسو البيانات جزءاً كبيراً من وقتهم في قراءة التوثيق. هذا الدرس يعلمك كيفية فك رموز الإنجليزية المستخدمة في هذه الوثائق.

فهم مخططات بنية البيانات

الطبقة تُسمى أيضاً الغرض
Source Layer المنبع مصدر البيانات (قواعد بيانات، واجهات برمجة، ملفات)
Ingestion Layer طبقة الاستيعاب جلب البيانات إلى المنصة
Raw Zone المنطقة الخام، الطبقة البرونزية تخزين البيانات كما هي بدون تحويل
Transformation Layer طبقة المعالجة تنظيف وتحقق وإثراء وإعادة تشكيل البيانات
Curated Zone الطبقة الذهبية بيانات نظيفة جاهزة للأعمال
Serving Layer طبقة الاستهلاك حيث تصل أدوات التقارير والتطبيقات للبيانات

مصطلحات البنية المتدرجة (Medallion Architecture)

Bronze (برونزي) → بيانات خام كما وردت
Silver (فضي) → بيانات منظفة ومتحقق منها
Gold (ذهبي) → بيانات منمذجة جاهزة للأعمال

مصطلحات توثيق Spark

المصطلح المعنى
DataFrame مجموعة موزعة من الصفوف بأعمدة مسماة
Partition جزء من البيانات يعالجه نواة منفذ واحد
Shuffle إعادة توزيع البيانات عبر الأقسام (مكلف)
Broadcast إرسال مجموعة بيانات صغيرة لجميع المنفذين
Lazy evaluation التحويلات لا تُنفذ حتى يُستدعى إجراء
Spill تجاوز الذاكرة والكتابة على القرص

مصطلحات توثيق Kafka

المصطلح المعنى
Topic تدفق مسمى من السجلات (مثل قناة)
Partition تدفق فرعي مرتب داخل الموضوع للتوازي
Offset معرف تسلسلي لكل سجل داخل القسم
Consumer group مجموعة مستهلكين تتعاون لقراءة موضوع
Lag كم تأخر المستهلك عن آخر رسالة
Replication factor عدد نسخ كل قسم عبر الوسطاء

مصطلحات توثيق Airflow

المصطلح المعنى
DAG تعريف المسار بالمهام والتبعيات
Operator نوع العمل الذي تؤديه المهمة
Sensor مشغل خاص ينتظر شرط خارجي
Backfill تشغيل DAG لتواريخ تاريخية فائتة
XCom تمرير بيانات صغيرة بين المهام

مصطلحات خدمات البيانات السحابية

الخدمة المصطلح المعنى
BigQuery Slot وحدة سعة حوسبية لتشغيل الاستعلامات
Redshift Distribution key يحدد كيفية توزيع الصفوف عبر العقد
Snowflake Virtual warehouse مجموعة حوسبة لتشغيل الاستعلامات
Snowflake Time travel استعلام البيانات كما كانت في وقت سابق
Databricks Delta table تنسيق جدول يضيف معاملات ACID لملفات بحيرة البيانات

مصطلحات SLA/SLO لمسارات البيانات

المصطلح المعنى
SLA اتفاقية مستوى الخدمة — التزام رسمي
SLO هدف مستوى الخدمة — هدف داخلي
SLI مؤشر مستوى الخدمة — المقياس المستخدم
Freshness مدى حداثة البيانات
P99 latency 99% من التشغيلات تكتمل أسرع من هذا الوقت

التالي: شرح البنية التحتية للبيانات لأصحاب المصلحة غير التقنيين

:::

اختبار

اختبار قراءة توثيق بنية البيانات

خذ الاختبار