المفردات الأساسية لهندسة البيانات
مصطلحات هندسة البيانات الأساسية
8 دقيقة للقراءة
كمهندس بيانات يعمل في فرق ناطقة بالإنجليزية، تحتاج مفردات دقيقة لمناقشة مسارات البيانات وأنظمة التخزين وقواعد البيانات وتنسيقات البيانات وأطر المعالجة.
مصطلحات المسارات والمعالجة
| المصطلح | العربية | المعنى |
|---|---|---|
| ETL | استخراج، تحويل، تحميل | البيانات تُحوَّل قبل تحميلها في النظام الهدف |
| ELT | استخراج، تحميل، تحويل | البيانات تُحمَّل خام ثم تُحوَّل في النظام الهدف |
| Batch processing | المعالجة الدفعية | معالجة البيانات في دفعات مجدولة (كل ساعة، يومياً) |
| Stream processing | المعالجة التدفقية | معالجة البيانات بشكل مستمر عند وصولها |
| DAG | رسم بياني موجه غير دوري | يحدد تبعيات المهام وترتيب التنفيذ |
| Orchestration | التنسيق | إدارة وجدولة تنفيذ مهام المسار |
| Pipeline | مسار البيانات | سلسلة من خطوات معالجة البيانات المتصلة |
عبارات شائعة في المحادثات
"Our ETL pipeline runs every night at 2 AM."
مسار ETL الخاص بنا يعمل كل ليلة في الساعة 2 صباحاً
"We switched from ETL to ELT last quarter."
انتقلنا من ETL إلى ELT الربع الماضي
"The Airflow DAG has 15 tasks with complex dependencies."
DAG في Airflow يحتوي 15 مهمة بتبعيات معقدة
مصطلحات التخزين
| المصطلح | العربية | المعنى |
|---|---|---|
| Data warehouse | مستودع البيانات | تخزين مركزي للبيانات المنظمة والمعالجة للتحليلات |
| Data lake | بحيرة البيانات | تخزين للبيانات الخام بأي تنسيق |
| Data lakehouse | بحيرة-مستودع البيانات | يجمع مرونة البحيرة مع أداء المستودع |
| OLAP | المعالجة التحليلية | مُحسَّن للاستعلامات المعقدة والتجميعات |
| OLTP | معالجة المعاملات | مُحسَّن لعمليات الإدراج والتحديث والحذف السريعة |
| Partitioning | التقسيم | تقسيم الجدول إلى أجزاء بناءً على عمود (مثل التاريخ) |
| Sharding | التجزئة | توزيع البيانات عبر عدة نسخ من قاعدة البيانات |
مصطلحات قواعد البيانات
| المصطلح | العربية | المعنى |
|---|---|---|
| Schema | المخطط | تعريف هيكل قاعدة البيانات |
| Index | الفهرس | بنية بيانات تسرّع استرجاع البيانات |
| Primary key | المفتاح الأساسي | معرّف فريد لكل صف في الجدول |
| Foreign key | المفتاح الخارجي | عمود يشير إلى مفتاح أساسي في جدول آخر |
| Normalization | التطبيع | تنظيم البيانات لتقليل التكرار |
| Denormalization | إلغاء التطبيع | إضافة تكرار متعمد لتحسين أداء القراءة |
| CDC | التقاط تغييرات البيانات | تتبع التغييرات في قاعدة البيانات المصدر |
مصطلحات تنسيقات البيانات
| المصطلح | العربية | المعنى |
|---|---|---|
| Parquet | باركيه | تنسيق عمودي مضغوط، مثالي للتحليلات |
| Avro | أفرو | تنسيق قائم على الصفوف مع مخطط مدمج، ممتاز للتدفق |
| JSON | JSON | تنسيق شبه منظم قابل للقراءة البشرية |
| CSV | CSV | قيم مفصولة بفواصل — بسيط بدون أنواع بيانات |
| Schema evolution | تطور المخطط | القدرة على تغيير المخطط بدون كسر المستهلكين |
مصطلحات أطر المعالجة
| المصطلح | العربية | المعنى |
|---|---|---|
| Spark | سبارك | محرك معالجة بيانات موزع للدفعات والتدفق |
| Flink | فلينك | إطار معالجة تدفقية مع معالجة حقيقية لوقت الحدث |
| Kafka | كافكا | منصة تدفق أحداث موزعة لمسارات البيانات |
| Airflow | إيرفلو | منصة تنسيق تجدول وتراقب DAGs |
| dbt | dbt | أداة تحويل قائمة على SQL للتحليلات |
الاختصارات الأساسية
| الاختصار | الشكل الكامل | الفئة |
|---|---|---|
| ETL | Extract, Transform, Load | المسارات |
| ELT | Extract, Load, Transform | المسارات |
| DAG | Directed Acyclic Graph | التنسيق |
| CDC | Change Data Capture | قواعد البيانات |
| OLAP | Online Analytical Processing | التخزين |
| OLTP | Online Transaction Processing | التخزين |
| ACID | Atomicity, Consistency, Isolation, Durability | قواعد البيانات |
التالي: قراءة توثيق بنية البيانات والمسارات
:::