الدرس 12 من 23

البحث الهجين وإعادة الترتيب

لماذا البحث الهجين

2 دقيقة للقراءة

لا البحث الدلالي ولا البحث بالكلمات المفتاحية مثالي وحده. البحث الهجين يجمع قواهما لتحقيق استرجاع أفضل.

مشكلة القيود

قيود البحث الدلالي

تشابه المتجهات يعاني مع:

# الاستعلام: "error 404"
# البحث الدلالي يجد: "page not found", "missing resource"
# لكن يفتقد: المستندات التي تقول حرفياً "error 404"

# الاستعلام: "HIPAA compliance"
# البحث الدلالي يجد: "healthcare privacy regulations"
# لكن يفتقد: المستندات التي تستخدم الاختصار بالضبط "HIPAA"

يفشل في:

  • المصطلحات والاختصارات الدقيقة (API, HIPAA, HTTP)
  • أسماء المنتجات والمعرفات (iPhone 15, SKU-12345)
  • مقتطفات الكود ورسائل الخطأ
  • الاستعلامات الرقمية (التواريخ، الإصدارات، الأسعار)

قيود البحث بالكلمات المفتاحية

BM25/TF-IDF يعاني مع:

# الاستعلام: "كيف أصلح تطبيق بطيء"
# البحث بالكلمات المفتاحية يجد: مستندات بها "بطيء" و"تطبيق"
# لكن يفتقد: "تقنيات تحسين الأداء"

# الاستعلام: "رحلات رخيصة إلى باريس"
# البحث بالكلمات المفتاحية يجد: مستندات بها "رخيصة" و"رحلات"
# لكن يفتقد: "أسعار طيران اقتصادية إلى فرنسا"

يفشل في:

  • المرادفات وإعادة الصياغة
  • المطابقة المفاهيمية
  • فهم النية
  • التعامل مع الأخطاء الإملائية

القوى المتكاملة

الجانب الدلالي الكلمات المفتاحية الهجين
المصطلحات الدقيقة ضعيف ممتاز ممتاز
المرادفات ممتاز ضعيف ممتاز
الاختصارات ضعيف ممتاز ممتاز
المفاهيم ممتاز ضعيف ممتاز
تحمل الأخطاء الإملائية جيد ضعيف جيد

أمثلة من الواقع

المثال 1: التوثيق التقني

الاستعلام: "OAuth 2.0 authentication flow"

مطابقات الكلمات المفتاحية:
- "OAuth 2.0 is an authorization framework..."
- "The OAuth 2.0 flow begins with..."

المطابقات الدلالية:
- "Token-based authentication process..."
- "Third-party login implementation..."

الهجين يجمع كليهما → تغطية كاملة

المثال 2: التجارة الإلكترونية

الاستعلام: "أحذية جري زرقاء مقاس 10"

مطابقات الكلمات المفتاحية:
- منتجات بها "زرقاء"، "جري"، "أحذية"، "10" في العنوان
- SKUs تطابق بالضبط

المطابقات الدلالية:
- "أحذية رياضية بلون كحلي"
- "حذاء رياضي للركض"

الهجين يجمع كليهما → اكتشاف منتجات أفضل

متى تستخدم البحث الهجين

البداية
هل الاستعلامات تحتوي مصطلحات دقيقة (معرفات، رموز، اختصارات)؟
  ├─ نعم → البحث الهجين مطلوب
هل المستخدمون يبحثون بمفردات متنوعة؟
  ├─ نعم → البحث الهجين مطلوب
هل مجالك تقني للغاية؟
  ├─ نعم → البحث الهجين موصى به
الدلالي النقي قد يكون كافياً
(لكن الهجين نادراً ما يضر)

مقارنة الأداء

الدراسات تظهر أن البحث الهجين يتفوق على كلتا الطريقتين وحدهما:

الطريقة Recall@10 Precision@10 MRR
BM25 فقط 0.72 0.58 0.65
دلالي فقط 0.78 0.62 0.71
هجين 0.86 0.70 0.79

النتائج من معيار مجموعة بيانات MS MARCO

تكلفة الهجين

العامل التأثير
زمن الاستجابة ~1.5x طريقة واحدة (قابل للتوازي)
التعقيد معتدل (منطق الدمج مطلوب)
التخزين 2x (متجهات + فهرس مقلوب)
الصيانة فهرسان للتحديث

الحكم: تحسين الجودة يبرر دائماً تقريباً التعقيد الإضافي لأنظمة RAG الإنتاجية.

رؤية رئيسية: البحث الهجين ليس عن الاختيار بين الطرق—إنه عن التعرف على أن أنواع استعلامات مختلفة تحتاج نهج استرجاع مختلفة، وجمعها يوفر المتانة.

التالي، لننفذ البحث الهجين مع BM25 واسترجاع المتجهات. :::

اختبار

الوحدة 4: البحث الهجين وإعادة الترتيب

خذ الاختبار