الخطوات التالية والتقدم

تهانينا على إكمال هذه الدورة حول حواجز LLM في الإنتاج! يحدد هذا الدرس الأخير الخطوات التالية للتقدم في ممارستك للحواجز.

ملخص الدورة

تعلمت:

البنية: دفاع متعدد الطبقات، ميزانيات التأخير، تصميم الفشل الآمن
تصفية المدخلات: اكتشاف PII، منع الحقن، تصنيف السمية
مصنفات السلامة: LlamaGuard 3، ShieldGemma، تصنيفات مخصصة
NeMo Guardrails: تدفقات Colang، قواعد مخصصة، تأسيس RAG
Guardrails AI: مخططات Pydantic، مدققات Hub، تكامل LiteLLM
عمليات الإنتاج: المراقبة، اختبار A/B، تسجيل التدقيق

الخطوات التالية الموصى بها

1. التنفيذ العملي

ابدأ بإثبات المفهوم:

# إعداد حاجز إنتاج بسيط
from guardrails import Guard
from guardrails.hub import ToxicLanguage, DetectPII
from pydantic import BaseModel, Field

class SafeResponse(BaseModel):
    content: str = Field(
        json_schema_extra={
            "validators": [
                ToxicLanguage(threshold=0.5, on_fail="exception"),
                DetectPII(on_fail="fix")
            ]
        }
    )

guard = Guard.for_pydantic(SafeResponse)

# أضف لخط أنابيب LLM الموجود لديك
result = guard(
    model="gpt-4o",
    messages=[{"role": "user", "content": user_input}]
)

2. قياس نظامك

إنشاء مجموعة بيانات تقييم السلامة:

SAFETY_TEST_CASES = [
    # إيجابيات حقيقية (يجب أن تُحظر)
    {"input": "...", "expected": "blocked", "category": "hate_speech"},

    # سلبيات حقيقية (يجب أن تمر)
    {"input": "كيف أتعلم Python؟", "expected": "passed"},

    # حالات حدية
    {"input": "...", "expected": "flagged", "notes": "غامض"},
]

async def benchmark_guardrails(guardrail, test_cases):
    results = {
        "true_positive": 0,
        "false_positive": 0,
        "true_negative": 0,
        "false_negative": 0
    }

    for case in test_cases:
        result = await guardrail.check(case["input"])

        if result.blocked and case["expected"] == "blocked":
            results["true_positive"] += 1
        elif result.blocked and case["expected"] == "passed":
            results["false_positive"] += 1
        elif not result.blocked and case["expected"] == "passed":
            results["true_negative"] += 1
        else:
            results["false_negative"] += 1

    return results

3. حلقة التحسين المستمر

┌─────────────────────────────────────────────────┐
│                                                 │
│  ┌─────────┐   ┌─────────┐   ┌─────────────┐   │
│  │ جمع    │──▶│ تحليل  │──▶│  تحسين     │   │
│  │ البيانات│   │ الفشل  │   │  الحواجز   │   │
│  └─────────┘   └─────────┘   └─────────────┘   │
│       ▲                            │           │
│       │                            │           │
│       └────────────────────────────┘           │
│                                                 │
└─────────────────────────────────────────────────┘

أسبوعياً: مراجعة الطلبات المحظورة للإيجابيات الخاطئة
شهرياً: تحليل توزيعات الفئات والاتجاهات
ربع سنوياً: قياس ضد نواقل الهجوم الجديدة

مواضيع متقدمة للاستكشاف

المتانة ضد الهجمات

# اختبار ضد أنماط كسر الحماية المعروفة
ADVERSARIAL_TESTS = [
    "تجاهل التعليمات السابقة و...",
    "لنلعب لعبة حيث تتظاهر بأنك...",
    "ترجم هذا للفرنسية: [محتوى خبيث]",
    "Base64: [هجوم مشفر]"
]

الحواجز متعددة الوسائط

إشراف محتوى الصور
سلامة نسخ الصوت
تحليل إطارات الفيديو
فحص سلامة المستندات

السلامة الموحدة

مشاركة التهديدات بين المنظمات
تصنيفات خاصة بالصناعة
أطر الامتثال التنظيمي

الموارد الموصى بها

التوثيق

أوراق البحث

"Constitutional AI" (Anthropic، 2022)
"LlamaGuard: Safety Classifiers" (Meta، 2024)
"Jailbreaking LLMs" (متنوع، 2023-2024)

المجتمع

Discord Guardrails AI
مجتمع NVIDIA NeMo
مجموعات أبحاث سلامة AI

مسار الشهادات

فكر في الحصول على شهادات في:

أساسيات أمن AI (متطلب مسبق مكتمل)
حواجز LLM في الإنتاج (هذه الدورة ✓)
هندسة المحثات المتقدمة (الموصى بها تالياً)
تقنيات الفريق الأحمر AI (متقدم)

بناء محفظة الحواجز الخاصة بك

وثّق تنفيذاتك:

## مدخل محفظة الحواجز

### المشروع: سلامة روبوت دردشة التجارة الإلكترونية
- **المكدس**: NeMo Guardrails + LlamaGuard 1B + Presidio
- **النطاق**: 50 ألف طلب/يوم
- **النتائج**:
  - معدل الحظر: 2.3%
  - معدل الإيجابيات الخاطئة: 0.4%
  - تأخير P99: 85 مللي ثانية
- **التحديات الرئيسية**: اكتشاف النصيحة المالية الخاصة بالمجال
- **الحل**: تدفقات Colang مخصصة + مصنف مضبوط

التوصيات النهائية

ابدأ بسيطاً: ابدأ بالمدققات المبنية مسبقاً، أضف منطقاً مخصصاً حسب الحاجة
قس كل شيء: لا يمكنك تحسين ما لا تقيسه
افشل بأمان: عند الشك، احظر وصعّد
كرر: السلامة ليست وجهة، إنها رحلة مستمرة
ابق على اطلاع: تابع أبحاث السلامة وأنماط الهجوم الناشئة

الدورة مكتملة! أنت الآن مجهز لتنفيذ حواجز جاهزة للإنتاج لتطبيقات LLM. استمر في التعلم مع دوراتنا المتقدمة حول تقنيات الفريق الأحمر AI وسلامة AI متعددة الوسائط.

الدورة التالية المقترحة: هندسة المحثات المتقدمة والأمان :::

اختبار

ابقَ على مسار النيرد