تحليل استجابة واجهة برمجة تطبيقات استخدام الحاسوب
التعليمات
الهدف
في هذا المختبر، ستكتب دالة Python تحلل استجابات واجهة برمجة تطبيقات استخدام الحاسوب وتستخرج معلومات رئيسية حول إجراءات الوكيل.
الخلفية
عندما يستخدم كلود أداة استخدام الحاسوب، يُرجع JSON منظم يصف إجراءات مثل نقرات الماوس وإدخال لوحة المفاتيح ولقطات الشاشة. فهم هذه البنية ضروري لبناء أنظمة المراقبة والتصحيح.
المتطلبات
أنشئ دالة parse_computer_use_response(response: dict) -> dict تقوم بـ:
-
استخراج نوع الإجراء: تحديد ما إذا كان
mouse_moveأوleft_clickأوtypeأوkeyأوscreenshotأوscrollأوwait -
استخراج الإحداثيات: لإجراءات الماوس، أرجع
{"x": int, "y": int} -
استخراج محتوى النص: لإجراءات
type، أرجع النص المكتوب -
تحديد إصدار الأداة: استخراج
computer_20250124أو الإصدار الأقدم -
إرجاع مخرجات منظمة:
{ "action_type": str, "coordinates": {"x": int, "y": int} | None, "text": str | None, "tool_version": str, "is_screenshot_request": bool }
مثال على المدخلات
response = {
"type": "tool_use",
"name": "computer",
"input": {
"action": "left_click",
"coordinate": [512, 384]
}
}
مثال على المخرجات
{
"action_type": "left_click",
"coordinates": {"x": 512, "y": 384},
"text": None,
"tool_version": "computer_20250124",
"is_screenshot_request": False
}
تلميحات
- حقل
coordinateهو قائمة[x, y]، وليس قاموساً - إجراءات لقطة الشاشة لديها
action: "screenshot" - إجراء
typeله حقلtextمع المحتوى للكتابة - تعامل مع الحقول المفقودة بأمان باستخدام القيم الافتراضية
ما يجب تقديمه
يجب أن يحتوي تقديمك على قسم ملف واحد في المحرر أدناه: ملف Python بالتنفيذ الكامل.