دراسة حالة: وكيل مراجعة الكود

دراسة الحالة هذه تركز على مشكلة تقنية مع تحديات فريدة: تقييم دقة الذكاء الاصطناعي، التعامل مع قواعد الكود الكبيرة، وضمان ثقة المطورين.

سؤال المقابلة

"صمم نظام مراجعة كود بالذكاء الاصطناعي لشركة بها 500 مهندس. يجب أن يراجع النظام طلبات السحب تلقائياً، ويحدد الأخطاء ومشاكل الأمان، ويقترح تحسينات مع التكامل مع سير العمل الحالي."

الخطوة 1: المتطلبات (R)

أسئلة توضيحية:

اللغات الأساسية؟ (Python، TypeScript، Go)
الأدوات الحالية؟ (GitHub، CI/CD مع Jenkins)
ما جوانب المراجعة؟ (أخطاء، أمان، أسلوب، أداء)
متطلب البشري في الحلقة؟ (الذكاء الاصطناعي يساعد، البشري يوافق)
متطلبات زمن الاستجابة؟ (المراجعة خلال 5 دقائق من إنشاء PR)

المتطلبات الوظيفية:

تحليل فروقات PR للأخطاء، مشاكل الأمان، انتهاكات الأسلوب
توفير تعليقات سطر بسطر مع شروحات
اقتراح إصلاحات مع مقتطفات كود
التعلم من الاقتراحات المقبولة/المرفوضة
دعم السياق متعدد الملفات (فهم التغييرات عبر الملفات)

المتطلبات غير الوظيفية:

معالجة 200 PR/يوم بمتوسط 500 سطر متغير
< 5 دقائق وقت المراجعة لمعظم PRs
معدل الإيجابيات الكاذبة < 20% (وإلا المطورون يتجاهلونه)
التكامل مع سير عمل GitHub PR

الخطوة 2: الهندسة (A)

┌─────────────────────────────────────────────────────────────────────┐
│                     GitHub Webhook                                   │
│                (أحداث إنشاء / تحديث PR)                              │
└─────────────────────────────────────────────────────────────────────┘
                                  │
                                  ▼
┌─────────────────────────────────────────────────────────────────────┐
│                     قائمة انتظار معالجة PR                           │
│                      (Redis / SQS)                                   │
└─────────────────────────────────────────────────────────────────────┘
                                  │
                                  ▼
┌─────────────────────────────────────────────────────────────────────┐
│                     منسق مراجعة الكود                                │
│                                                                      │
│  1. جلب فرق PR + ملفات السياق                                       │
│  2. تقسيم الفروقات الكبيرة                                          │
│  3. الإرسال للمحللين المتخصصين                                       │
│  4. تجميع وإزالة تكرار النتائج                                       │
└─────────────────────────────────────────────────────────────────────┘
                    │
        ┌───────────┼───────────┬────────────────┐
        ▼           ▼           ▼                ▼
┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│   كاشف     │ │   ماسح     │ │   مدقق     │ │   محلل     │
│  الأخطاء   │ │   الأمان   │ │  الأسلوب   │ │   الأداء   │
│             │ │             │ │             │ │             │
│ (قائم على  │ │(قواعد+LLM) │ │(Linter+LLM)│ │ (قائم على  │
│   LLM)     │ │             │ │             │ │   LLM)     │
└─────────────┘ └─────────────┘ └─────────────┘ └─────────────┘
                    │
                    ▼
┌─────────────────────────────────────────────────────────────────────┐
│                      مجمع النتائج                                    │
│  - إزالة تكرار النتائج المتشابهة                                     │
│  - الترتيب حسب الخطورة والثقة                                        │
│  - تطبيق قواعد خاصة بالمستودع                                        │
└─────────────────────────────────────────────────────────────────────┘
                    │
                    ▼
┌─────────────────────────────────────────────────────────────────────┐
│                    ناشر تعليقات GitHub                               │
│  - نشر تعليقات سطرية على أسطر محددة                                  │
│  - نشر تعليق ملخص على PR                                            │
└─────────────────────────────────────────────────────────────────────┘

الخطوة 3: البيانات (D)

استراتيجية استرجاع السياق:

class CodeContextRetriever:
    def __init__(self, repo_indexer):
        self.indexer = repo_indexer

    async def get_review_context(self, pr_diff: dict) -> dict:
        context = {
            "changed_files": [],
            "related_files": [],
            "function_definitions": [],
            "type_definitions": [],
            "test_files": []
        }

        for file_change in pr_diff["files"]:
            # الحصول على الملف الكامل (ليس فقط الفرق)
            context["changed_files"].append(
                await self.indexer.get_file(file_change["path"])
            )

            # إيجاد الملفات ذات الصلة (الاستيرادات، المستدعين)
            related = await self.indexer.find_related(
                file_change["path"],
                max_files=5
            )
            context["related_files"].extend(related)

            # الحصول على تعريفات الدوال/الأصناف للكود المتغير
            symbols = await self.indexer.get_symbols(
                file_change["path"],
                lines=file_change["changed_lines"]
            )
            context["function_definitions"].extend(symbols)

            # إيجاد ملفات الاختبار المقابلة
            test_file = await self.indexer.find_test_file(
                file_change["path"]
            )
            if test_file:
                context["test_files"].append(test_file)

        return context

فهرسة قاعدة الكود:

indexing_strategy = {
    "symbol_index": {
        "tool": "tree-sitter",
        "stores": ["تعريفات_الدوال", "تعريفات_الأصناف", "الاستيرادات"],
        "update": "on_merge_to_main"
    },
    "semantic_index": {
        "tool": "embeddings",
        "model": "code-embedding-model",
        "chunk_by": "function",
        "update": "daily"
    },
    "dependency_graph": {
        "tool": "custom_analyzer",
        "stores": ["الاستيرادات", "استدعاءات_الدوال", "الوراثة"],
        "update": "on_merge_to_main"
    }
}

الخطوة 4: المحللون المتخصصون

class BugDetector:
    def __init__(self, llm):
        self.llm = llm
        self.prompt = """
        حلل تغيير الكود هذا للأخطاء المحتملة.

        الكود المتغير:
        {diff}

        سياق الملف الكامل:
        {file_context}

        الكود ذو الصلة:
        {related_context}

        لكل خطأ محتمل تم العثور عليه، قدم:
        1. رقم السطر
        2. نوع الخطأ (null_reference, off_by_one, race_condition, etc.)
        3. الخطورة (حرج، عالي، متوسط، منخفض)
        4. الشرح
        5. الإصلاح المقترح

        أبلغ فقط عن المشاكل التي أنت واثق منها. تجنب الإيجابيات الكاذبة.
        """

    async def analyze(self, diff: str, context: dict) -> list:
        response = await self.llm.complete(
            self.prompt.format(
                diff=diff,
                file_context=context["changed_files"],
                related_context=context["related_files"]
            )
        )
        return self._parse_findings(response)


class SecurityScanner:
    def __init__(self, llm, rule_engine):
        self.llm = llm
        self.rules = rule_engine  # Semgrep, CodeQL

    async def analyze(self, diff: str, context: dict) -> list:
        findings = []

        # المسح القائم على القواعد (سريع، إيجابيات كاذبة منخفضة)
        rule_findings = await self.rules.scan(diff)
        findings.extend(rule_findings)

        # LLM للأنماط المعقدة
        llm_findings = await self._llm_security_check(diff, context)
        findings.extend(llm_findings)

        return self._deduplicate(findings)

    async def _llm_security_check(self, diff: str, context: dict) -> list:
        prompt = """
        مراجعة أمنية لتغيير الكود هذا.

        ركز على:
        - حقن SQL
        - ثغرات XSS
        - مشاكل المصادقة/التفويض
        - تعريض البيانات الحساسة
        - التبعيات غير الآمنة

        الكود:
        {diff}

        أبلغ فقط عن مشاكل الأمان عالية الثقة.
        """
        response = await self.llm.complete(prompt.format(diff=diff))
        return self._parse_security_findings(response)

الخطوة 5: التقييم وحلقة التغذية الراجعة

قياس الدقة:

class ReviewAccuracyTracker:
    def __init__(self, db):
        self.db = db

    async def track_suggestion(self, suggestion_id: str, pr_id: str):
        """تتبع كل اقتراح من النظام."""
        await self.db.insert("suggestions", {
            "id": suggestion_id,
            "pr_id": pr_id,
            "timestamp": datetime.utcnow(),
            "status": "pending"
        })

    async def record_outcome(self, suggestion_id: str, outcome: str):
        """تسجيل استجابة المطور للاقتراح."""
        # النتيجة: "accepted", "rejected", "modified", "ignored"
        await self.db.update("suggestions", suggestion_id, {
            "status": outcome,
            "resolved_at": datetime.utcnow()
        })

    async def get_metrics(self, time_range: str = "7d") -> dict:
        suggestions = await self.db.query(
            "suggestions",
            time_range=time_range
        )

        total = len(suggestions)
        accepted = sum(1 for s in suggestions if s["status"] == "accepted")
        rejected = sum(1 for s in suggestions if s["status"] == "rejected")

        return {
            "total_suggestions": total,
            "acceptance_rate": accepted / total if total > 0 else 0,
            "rejection_rate": rejected / total if total > 0 else 0,
            "precision": accepted / (accepted + rejected) if (accepted + rejected) > 0 else 0
        }

التحسين المستمر:

improvement_pipeline = {
    "data_collection": {
        "accepted_suggestions": "أمثلة تدريب عالية الجودة",
        "rejected_with_explanation": "أمثلة سلبية",
        "human_comments_not_caught": "أنماط مفقودة"
    },
    "weekly_review": {
        "false_positive_analysis": "لماذا وضعنا علامة على هذا بشكل خاطئ؟",
        "false_negative_analysis": "ما الذي فاتنا؟",
        "prompt_refinement": "ضبط الموجهات بناءً على الأنماط"
    },
    "monthly_fine_tuning": {
        "collect_examples": "الاقتراحات المقبولة + المراجعات البشرية",
        "fine_tune_model": "تحسين الدقة الخاصة بالمجال",
        "a_b_test": "المقارنة مع خط الأساس"
    }
}

تحليل المقايضات

القرار	المقايضة	الاختيار	السبب
الملف الكامل مقابل الفرق فقط	السياق مقابل تكلفة الرموز	الملف الكامل	الدقة الأفضل تستحق التكلفة
نموذج واحد مقابل متخصص	البساطة مقابل الدقة	متخصص	المهام المختلفة تحتاج موجهات مختلفة
حظر PR مقابل استشاري	الاحتكاك مقابل الأمان	استشاري	بناء الثقة أولاً
الوقت الفعلي مقابل الدفعات	زمن الاستجابة مقابل الكفاءة	الوقت الفعلي	توقع سير عمل المطور

نصيحة للمقابلة

النقاط الرئيسية لدراسة الحالة هذه:

الدقة حرجة - المطورون سيتجاهلون أداة كثيرة الضوضاء

السياق مهم - مراجعة الكود تحتاج فهم عبر الملفات

حلقة التغذية الراجعة - تتبع القبول/الرفض للتحسين

النهج الهجين - الجمع بين القواعد (Semgrep) مع LLM

أخيراً، لنغطي نصائح المقابلة والأخطاء الشائعة لتجنبها. :::

مراجعة سريعة: كيف تجد هذا الدرس؟

اختبار