الدرس 1 من 6
المفردات الأساسية لهندسة البيانات

مصطلحات هندسة البيانات الأساسية

8 دقيقة للقراءة

كمهندس بيانات يعمل في فرق ناطقة بالإنجليزية، تحتاج مفردات دقيقة لمناقشة مسارات البيانات وأنظمة التخزين وقواعد البيانات وتنسيقات البيانات وأطر المعالجة.

مصطلحات المسارات والمعالجة

المصطلحالعربيةالمعنى
ETLاستخراج، تحويل، تحميلالبيانات تُحوَّل قبل تحميلها في النظام الهدف
ELTاستخراج، تحميل، تحويلالبيانات تُحمَّل خام ثم تُحوَّل في النظام الهدف
Batch processingالمعالجة الدفعيةمعالجة البيانات في دفعات مجدولة (كل ساعة، يومياً)
Stream processingالمعالجة التدفقيةمعالجة البيانات بشكل مستمر عند وصولها
DAGرسم بياني موجه غير دورييحدد تبعيات المهام وترتيب التنفيذ
Orchestrationالتنسيقإدارة وجدولة تنفيذ مهام المسار
Pipelineمسار البياناتسلسلة من خطوات معالجة البيانات المتصلة

عبارات شائعة في المحادثات

"Our ETL pipeline runs every night at 2 AM."
مسار ETL الخاص بنا يعمل كل ليلة في الساعة 2 صباحاً

"We switched from ETL to ELT last quarter."
انتقلنا من ETL إلى ELT الربع الماضي

"The Airflow DAG has 15 tasks with complex dependencies."
DAG في Airflow يحتوي 15 مهمة بتبعيات معقدة

مصطلحات التخزين

المصطلحالعربيةالمعنى
Data warehouseمستودع البياناتتخزين مركزي للبيانات المنظمة والمعالجة للتحليلات
Data lakeبحيرة البياناتتخزين للبيانات الخام بأي تنسيق
Data lakehouseبحيرة-مستودع البياناتيجمع مرونة البحيرة مع أداء المستودع
OLAPالمعالجة التحليليةمُحسَّن للاستعلامات المعقدة والتجميعات
OLTPمعالجة المعاملاتمُحسَّن لعمليات الإدراج والتحديث والحذف السريعة
Partitioningالتقسيمتقسيم الجدول إلى أجزاء بناءً على عمود (مثل التاريخ)
Shardingالتجزئةتوزيع البيانات عبر عدة نسخ من قاعدة البيانات

مصطلحات قواعد البيانات

المصطلحالعربيةالمعنى
Schemaالمخططتعريف هيكل قاعدة البيانات
Indexالفهرسبنية بيانات تسرّع استرجاع البيانات
Primary keyالمفتاح الأساسيمعرّف فريد لكل صف في الجدول
Foreign keyالمفتاح الخارجيعمود يشير إلى مفتاح أساسي في جدول آخر
Normalizationالتطبيعتنظيم البيانات لتقليل التكرار
Denormalizationإلغاء التطبيعإضافة تكرار متعمد لتحسين أداء القراءة
CDCالتقاط تغييرات البياناتتتبع التغييرات في قاعدة البيانات المصدر

مصطلحات تنسيقات البيانات

المصطلحالعربيةالمعنى
Parquetباركيهتنسيق عمودي مضغوط، مثالي للتحليلات
Avroأفروتنسيق قائم على الصفوف مع مخطط مدمج، ممتاز للتدفق
JSONJSONتنسيق شبه منظم قابل للقراءة البشرية
CSVCSVقيم مفصولة بفواصل — بسيط بدون أنواع بيانات
Schema evolutionتطور المخططالقدرة على تغيير المخطط بدون كسر المستهلكين

مصطلحات أطر المعالجة

المصطلحالعربيةالمعنى
Sparkسباركمحرك معالجة بيانات موزع للدفعات والتدفق
Flinkفلينكإطار معالجة تدفقية مع معالجة حقيقية لوقت الحدث
Kafkaكافكامنصة تدفق أحداث موزعة لمسارات البيانات
Airflowإيرفلومنصة تنسيق تجدول وتراقب DAGs
dbtdbtأداة تحويل قائمة على SQL للتحليلات

الاختصارات الأساسية

الاختصارالشكل الكاملالفئة
ETLExtract, Transform, Loadالمسارات
ELTExtract, Load, Transformالمسارات
DAGDirected Acyclic Graphالتنسيق
CDCChange Data Captureقواعد البيانات
OLAPOnline Analytical Processingالتخزين
OLTPOnline Transaction Processingالتخزين
ACIDAtomicity, Consistency, Isolation, Durabilityقواعد البيانات

التالي: قراءة توثيق بنية البيانات والمسارات

:::

مراجعة سريعة: كيف تجد هذا الدرس؟

اختبار

اختبار مفردات هندسة البيانات

خذ الاختبار