تحليل استجابة واجهة برمجة تطبيقات استخدام الحاسوب

الهدف

في هذا المختبر، ستكتب دالة Python تحلل استجابات واجهة برمجة تطبيقات استخدام الحاسوب وتستخرج معلومات رئيسية حول إجراءات الوكيل.

الخلفية

عندما يستخدم كلود أداة استخدام الحاسوب، يُرجع JSON منظم يصف إجراءات مثل نقرات الماوس وإدخال لوحة المفاتيح ولقطات الشاشة. فهم هذه البنية ضروري لبناء أنظمة المراقبة والتصحيح.

المتطلبات

أنشئ دالة parse_computer_use_response(response: dict) -> dict تقوم بـ:

استخراج نوع الإجراء: تحديد ما إذا كان mouse_move أو left_click أو type أو key أو screenshot أو scroll أو wait
استخراج الإحداثيات: لإجراءات الماوس، أرجع {"x": int, "y": int}
استخراج محتوى النص: لإجراءات type، أرجع النص المكتوب
تحديد إصدار الأداة: استخراج computer_20251124 أو الإصدار الأقدم

إرجاع مخرجات منظمة:

{
    "action_type": str,
    "coordinates": {"x": int, "y": int} | None,
    "text": str | None,
    "tool_version": str,
    "is_screenshot_request": bool
}

مثال على المدخلات

response = {
    "type": "tool_use",
    "name": "computer",
    "input": {
        "action": "left_click",
        "coordinate": [512, 384]
    }
}

مثال على المخرجات

{
    "action_type": "left_click",
    "coordinates": {"x": 512, "y": 384},
    "text": None,
    "tool_version": "computer_20251124",
    "is_screenshot_request": False
}

تلميحات

حقل coordinate هو قائمة [x, y]، وليس قاموساً
إجراءات لقطة الشاشة لديها action: "screenshot"
إجراء type له حقل text مع المحتوى للكتابة
تعامل مع الحقول المفقودة بأمان باستخدام القيم الافتراضية

ما يجب تقديمه

يجب أن يحتوي تقديمك على قسم ملف واحد في المحرر أدناه: ملف Python بالتنفيذ الكامل.

التعليمات