قراءة توثيق بنية البيانات والمسارات
قراءة توثيق بنية البيانات والمسارات
8 دقيقة للقراءة
يقضي مهندسو البيانات جزءاً كبيراً من وقتهم في قراءة التوثيق. هذا الدرس يعلمك كيفية فك رموز الإنجليزية المستخدمة في هذه الوثائق.
فهم مخططات بنية البيانات
| الطبقة | تُسمى أيضاً | الغرض |
|---|---|---|
| Source Layer | المنبع | مصدر البيانات (قواعد بيانات، واجهات برمجة، ملفات) |
| Ingestion Layer | طبقة الاستيعاب | جلب البيانات إلى المنصة |
| Raw Zone | المنطقة الخام، الطبقة البرونزية | تخزين البيانات كما هي بدون تحويل |
| Transformation Layer | طبقة المعالجة | تنظيف وتحقق وإثراء وإعادة تشكيل البيانات |
| Curated Zone | الطبقة الذهبية | بيانات نظيفة جاهزة للأعمال |
| Serving Layer | طبقة الاستهلاك | حيث تصل أدوات التقارير والتطبيقات للبيانات |
مصطلحات البنية المتدرجة (Medallion Architecture)
Bronze (برونزي) → بيانات خام كما وردت
Silver (فضي) → بيانات منظفة ومتحقق منها
Gold (ذهبي) → بيانات منمذجة جاهزة للأعمال
مصطلحات توثيق Spark
| المصطلح | المعنى |
|---|---|
| DataFrame | مجموعة موزعة من الصفوف بأعمدة مسماة |
| Partition | جزء من البيانات يعالجه نواة منفذ واحد |
| Shuffle | إعادة توزيع البيانات عبر الأقسام (مكلف) |
| Broadcast | إرسال مجموعة بيانات صغيرة لجميع المنفذين |
| Lazy evaluation | التحويلات لا تُنفذ حتى يُستدعى إجراء |
| Spill | تجاوز الذاكرة والكتابة على القرص |
مصطلحات توثيق Kafka
| المصطلح | المعنى |
|---|---|
| Topic | تدفق مسمى من السجلات (مثل قناة) |
| Partition | تدفق فرعي مرتب داخل الموضوع للتوازي |
| Offset | معرف تسلسلي لكل سجل داخل القسم |
| Consumer group | مجموعة مستهلكين تتعاون لقراءة موضوع |
| Lag | كم تأخر المستهلك عن آخر رسالة |
| Replication factor | عدد نسخ كل قسم عبر الوسطاء |
مصطلحات توثيق Airflow
| المصطلح | المعنى |
|---|---|
| DAG | تعريف المسار بالمهام والتبعيات |
| Operator | نوع العمل الذي تؤديه المهمة |
| Sensor | مشغل خاص ينتظر شرط خارجي |
| Backfill | تشغيل DAG لتواريخ تاريخية فائتة |
| XCom | تمرير بيانات صغيرة بين المهام |
مصطلحات خدمات البيانات السحابية
| الخدمة | المصطلح | المعنى |
|---|---|---|
| BigQuery | Slot | وحدة سعة حوسبية لتشغيل الاستعلامات |
| Redshift | Distribution key | يحدد كيفية توزيع الصفوف عبر العقد |
| Snowflake | Virtual warehouse | مجموعة حوسبة لتشغيل الاستعلامات |
| Snowflake | Time travel | استعلام البيانات كما كانت في وقت سابق |
| Databricks | Delta table | تنسيق جدول يضيف معاملات ACID لملفات بحيرة البيانات |
مصطلحات SLA/SLO لمسارات البيانات
| المصطلح | المعنى |
|---|---|
| SLA | اتفاقية مستوى الخدمة — التزام رسمي |
| SLO | هدف مستوى الخدمة — هدف داخلي |
| SLI | مؤشر مستوى الخدمة — المقياس المستخدم |
| Freshness | مدى حداثة البيانات |
| P99 latency | 99% من التشغيلات تكتمل أسرع من هذا الوقت |
التالي: شرح البنية التحتية للبيانات لأصحاب المصلحة غير التقنيين
:::