الدرس 1 من 6

المفردات الأساسية لهندسة البيانات

مصطلحات هندسة البيانات الأساسية

8 دقيقة للقراءة

كمهندس بيانات يعمل في فرق ناطقة بالإنجليزية، تحتاج مفردات دقيقة لمناقشة مسارات البيانات وأنظمة التخزين وقواعد البيانات وتنسيقات البيانات وأطر المعالجة.

مصطلحات المسارات والمعالجة

المصطلح العربية المعنى
ETL استخراج، تحويل، تحميل البيانات تُحوَّل قبل تحميلها في النظام الهدف
ELT استخراج، تحميل، تحويل البيانات تُحمَّل خام ثم تُحوَّل في النظام الهدف
Batch processing المعالجة الدفعية معالجة البيانات في دفعات مجدولة (كل ساعة، يومياً)
Stream processing المعالجة التدفقية معالجة البيانات بشكل مستمر عند وصولها
DAG رسم بياني موجه غير دوري يحدد تبعيات المهام وترتيب التنفيذ
Orchestration التنسيق إدارة وجدولة تنفيذ مهام المسار
Pipeline مسار البيانات سلسلة من خطوات معالجة البيانات المتصلة

عبارات شائعة في المحادثات

"Our ETL pipeline runs every night at 2 AM."
مسار ETL الخاص بنا يعمل كل ليلة في الساعة 2 صباحاً

"We switched from ETL to ELT last quarter."
انتقلنا من ETL إلى ELT الربع الماضي

"The Airflow DAG has 15 tasks with complex dependencies."
DAG في Airflow يحتوي 15 مهمة بتبعيات معقدة

مصطلحات التخزين

المصطلح العربية المعنى
Data warehouse مستودع البيانات تخزين مركزي للبيانات المنظمة والمعالجة للتحليلات
Data lake بحيرة البيانات تخزين للبيانات الخام بأي تنسيق
Data lakehouse بحيرة-مستودع البيانات يجمع مرونة البحيرة مع أداء المستودع
OLAP المعالجة التحليلية مُحسَّن للاستعلامات المعقدة والتجميعات
OLTP معالجة المعاملات مُحسَّن لعمليات الإدراج والتحديث والحذف السريعة
Partitioning التقسيم تقسيم الجدول إلى أجزاء بناءً على عمود (مثل التاريخ)
Sharding التجزئة توزيع البيانات عبر عدة نسخ من قاعدة البيانات

مصطلحات قواعد البيانات

المصطلح العربية المعنى
Schema المخطط تعريف هيكل قاعدة البيانات
Index الفهرس بنية بيانات تسرّع استرجاع البيانات
Primary key المفتاح الأساسي معرّف فريد لكل صف في الجدول
Foreign key المفتاح الخارجي عمود يشير إلى مفتاح أساسي في جدول آخر
Normalization التطبيع تنظيم البيانات لتقليل التكرار
Denormalization إلغاء التطبيع إضافة تكرار متعمد لتحسين أداء القراءة
CDC التقاط تغييرات البيانات تتبع التغييرات في قاعدة البيانات المصدر

مصطلحات تنسيقات البيانات

المصطلح العربية المعنى
Parquet باركيه تنسيق عمودي مضغوط، مثالي للتحليلات
Avro أفرو تنسيق قائم على الصفوف مع مخطط مدمج، ممتاز للتدفق
JSON JSON تنسيق شبه منظم قابل للقراءة البشرية
CSV CSV قيم مفصولة بفواصل — بسيط بدون أنواع بيانات
Schema evolution تطور المخطط القدرة على تغيير المخطط بدون كسر المستهلكين

مصطلحات أطر المعالجة

المصطلح العربية المعنى
Spark سبارك محرك معالجة بيانات موزع للدفعات والتدفق
Flink فلينك إطار معالجة تدفقية مع معالجة حقيقية لوقت الحدث
Kafka كافكا منصة تدفق أحداث موزعة لمسارات البيانات
Airflow إيرفلو منصة تنسيق تجدول وتراقب DAGs
dbt dbt أداة تحويل قائمة على SQL للتحليلات

الاختصارات الأساسية

الاختصار الشكل الكامل الفئة
ETL Extract, Transform, Load المسارات
ELT Extract, Load, Transform المسارات
DAG Directed Acyclic Graph التنسيق
CDC Change Data Capture قواعد البيانات
OLAP Online Analytical Processing التخزين
OLTP Online Transaction Processing التخزين
ACID Atomicity, Consistency, Isolation, Durability قواعد البيانات

التالي: قراءة توثيق بنية البيانات والمسارات

:::

اختبار

اختبار مفردات هندسة البيانات

خذ الاختبار