كمهندس بيانات يعمل في فرق ناطقة بالإنجليزية، تحتاج مفردات دقيقة لمناقشة مسارات البيانات وأنظمة التخزين وقواعد البيانات وتنسيقات البيانات وأطر المعالجة.
| المصطلح |
العربية |
المعنى |
| ETL |
استخراج، تحويل، تحميل |
البيانات تُحوَّل قبل تحميلها في النظام الهدف |
| ELT |
استخراج، تحميل، تحويل |
البيانات تُحمَّل خام ثم تُحوَّل في النظام الهدف |
| Batch processing |
المعالجة الدفعية |
معالجة البيانات في دفعات مجدولة (كل ساعة، يومياً) |
| Stream processing |
المعالجة التدفقية |
معالجة البيانات بشكل مستمر عند وصولها |
| DAG |
رسم بياني موجه غير دوري |
يحدد تبعيات المهام وترتيب التنفيذ |
| Orchestration |
التنسيق |
إدارة وجدولة تنفيذ مهام المسار |
| Pipeline |
مسار البيانات |
سلسلة من خطوات معالجة البيانات المتصلة |
"Our ETL pipeline runs every night at 2 AM."
مسار ETL الخاص بنا يعمل كل ليلة في الساعة 2 صباحاً
"We switched from ETL to ELT last quarter."
انتقلنا من ETL إلى ELT الربع الماضي
"The Airflow DAG has 15 tasks with complex dependencies."
DAG في Airflow يحتوي 15 مهمة بتبعيات معقدة
| المصطلح |
العربية |
المعنى |
| Data warehouse |
مستودع البيانات |
تخزين مركزي للبيانات المنظمة والمعالجة للتحليلات |
| Data lake |
بحيرة البيانات |
تخزين للبيانات الخام بأي تنسيق |
| Data lakehouse |
بحيرة-مستودع البيانات |
يجمع مرونة البحيرة مع أداء المستودع |
| OLAP |
المعالجة التحليلية |
مُحسَّن للاستعلامات المعقدة والتجميعات |
| OLTP |
معالجة المعاملات |
مُحسَّن لعمليات الإدراج والتحديث والحذف السريعة |
| Partitioning |
التقسيم |
تقسيم الجدول إلى أجزاء بناءً على عمود (مثل التاريخ) |
| Sharding |
التجزئة |
توزيع البيانات عبر عدة نسخ من قاعدة البيانات |
| المصطلح |
العربية |
المعنى |
| Schema |
المخطط |
تعريف هيكل قاعدة البيانات |
| Index |
الفهرس |
بنية بيانات تسرّع استرجاع البيانات |
| Primary key |
المفتاح الأساسي |
معرّف فريد لكل صف في الجدول |
| Foreign key |
المفتاح الخارجي |
عمود يشير إلى مفتاح أساسي في جدول آخر |
| Normalization |
التطبيع |
تنظيم البيانات لتقليل التكرار |
| Denormalization |
إلغاء التطبيع |
إضافة تكرار متعمد لتحسين أداء القراءة |
| CDC |
التقاط تغييرات البيانات |
تتبع التغييرات في قاعدة البيانات المصدر |
| المصطلح |
العربية |
المعنى |
| Parquet |
باركيه |
تنسيق عمودي مضغوط، مثالي للتحليلات |
| Avro |
أفرو |
تنسيق قائم على الصفوف مع مخطط مدمج، ممتاز للتدفق |
| JSON |
JSON |
تنسيق شبه منظم قابل للقراءة البشرية |
| CSV |
CSV |
قيم مفصولة بفواصل — بسيط بدون أنواع بيانات |
| Schema evolution |
تطور المخطط |
القدرة على تغيير المخطط بدون كسر المستهلكين |
| المصطلح |
العربية |
المعنى |
| Spark |
سبارك |
محرك معالجة بيانات موزع للدفعات والتدفق |
| Flink |
فلينك |
إطار معالجة تدفقية مع معالجة حقيقية لوقت الحدث |
| Kafka |
كافكا |
منصة تدفق أحداث موزعة لمسارات البيانات |
| Airflow |
إيرفلو |
منصة تنسيق تجدول وتراقب DAGs |
| dbt |
dbt |
أداة تحويل قائمة على SQL للتحليلات |
| الاختصار |
الشكل الكامل |
الفئة |
| ETL |
Extract, Transform, Load |
المسارات |
| ELT |
Extract, Load, Transform |
المسارات |
| DAG |
Directed Acyclic Graph |
التنسيق |
| CDC |
Change Data Capture |
قواعد البيانات |
| OLAP |
Online Analytical Processing |
التخزين |
| OLTP |
Online Transaction Processing |
التخزين |
| ACID |
Atomicity, Consistency, Isolation, Durability |
قواعد البيانات |
التالي: قراءة توثيق بنية البيانات والمسارات
:::