الدرس 2 من 6
قراءة توثيق بنية البيانات والمسارات

قراءة توثيق بنية البيانات والمسارات

8 دقيقة للقراءة

يقضي مهندسو البيانات جزءاً كبيراً من وقتهم في قراءة التوثيق. هذا الدرس يعلمك كيفية فك رموز الإنجليزية المستخدمة في هذه الوثائق.

فهم مخططات بنية البيانات

الطبقةتُسمى أيضاًالغرض
Source Layerالمنبعمصدر البيانات (قواعد بيانات، واجهات برمجة، ملفات)
Ingestion Layerطبقة الاستيعابجلب البيانات إلى المنصة
Raw Zoneالمنطقة الخام، الطبقة البرونزيةتخزين البيانات كما هي بدون تحويل
Transformation Layerطبقة المعالجةتنظيف وتحقق وإثراء وإعادة تشكيل البيانات
Curated Zoneالطبقة الذهبيةبيانات نظيفة جاهزة للأعمال
Serving Layerطبقة الاستهلاكحيث تصل أدوات التقارير والتطبيقات للبيانات

مصطلحات البنية المتدرجة (Medallion Architecture)

Bronze (برونزي) → بيانات خام كما وردت
Silver (فضي) → بيانات منظفة ومتحقق منها
Gold (ذهبي) → بيانات منمذجة جاهزة للأعمال

مصطلحات توثيق Spark

المصطلحالمعنى
DataFrameمجموعة موزعة من الصفوف بأعمدة مسماة
Partitionجزء من البيانات يعالجه نواة منفذ واحد
Shuffleإعادة توزيع البيانات عبر الأقسام (مكلف)
Broadcastإرسال مجموعة بيانات صغيرة لجميع المنفذين
Lazy evaluationالتحويلات لا تُنفذ حتى يُستدعى إجراء
Spillتجاوز الذاكرة والكتابة على القرص

مصطلحات توثيق Kafka

المصطلحالمعنى
Topicتدفق مسمى من السجلات (مثل قناة)
Partitionتدفق فرعي مرتب داخل الموضوع للتوازي
Offsetمعرف تسلسلي لكل سجل داخل القسم
Consumer groupمجموعة مستهلكين تتعاون لقراءة موضوع
Lagكم تأخر المستهلك عن آخر رسالة
Replication factorعدد نسخ كل قسم عبر الوسطاء

مصطلحات توثيق Airflow

المصطلحالمعنى
DAGتعريف المسار بالمهام والتبعيات
Operatorنوع العمل الذي تؤديه المهمة
Sensorمشغل خاص ينتظر شرط خارجي
Backfillتشغيل DAG لتواريخ تاريخية فائتة
XComتمرير بيانات صغيرة بين المهام

مصطلحات خدمات البيانات السحابية

الخدمةالمصطلحالمعنى
BigQuerySlotوحدة سعة حوسبية لتشغيل الاستعلامات
RedshiftDistribution keyيحدد كيفية توزيع الصفوف عبر العقد
SnowflakeVirtual warehouseمجموعة حوسبة لتشغيل الاستعلامات
SnowflakeTime travelاستعلام البيانات كما كانت في وقت سابق
DatabricksDelta tableتنسيق جدول يضيف معاملات ACID لملفات بحيرة البيانات

مصطلحات SLA/SLO لمسارات البيانات

المصطلحالمعنى
SLAاتفاقية مستوى الخدمة — التزام رسمي
SLOهدف مستوى الخدمة — هدف داخلي
SLIمؤشر مستوى الخدمة — المقياس المستخدم
Freshnessمدى حداثة البيانات
P99 latency99% من التشغيلات تكتمل أسرع من هذا الوقت

التالي: شرح البنية التحتية للبيانات لأصحاب المصلحة غير التقنيين

:::

مراجعة سريعة: كيف تجد هذا الدرس؟

اختبار

اختبار قراءة توثيق بنية البيانات

خذ الاختبار