معمل
بناء وكيل استخراج بيانات الويب
45 دقيقة
متوسط3 المحاولات المجانية
التعليمات
الهدف
بناء وكيل Python يستخدم قدرة استخدام الحاسوب من كلود للتنقل في موقع ويب واستخراج بيانات منظمة (مثل قوائم المنتجات) إلى تنسيق JSON.
الخلفية
على عكس استخراج الويب التقليدي الذي يحلل HTML، يتفاعل وكلاء استخدام الحاسوب مع المواقع بصرياً. هذا يعمل حتى على المواقع الثقيلة بـ JavaScript حيث تفشل أدوات الاستخراج التقليدية.
المتطلبات
أنشئ فئة WebDataExtractor مع الطرق التالية:
1. generate_navigation_sequence(url: str) -> list[dict]
يرجع استدعاءات أداة استخدام الحاسوب لـ:
- التركيز على شريط URL (Ctrl+L)
- كتابة عنوان URL
- الضغط على Enter للتنقل
- انتظار تحميل الصفحة
2. generate_scroll_sequence(direction: str, amount: int) -> list[dict]
يرجع استدعاءات الأداة للتمرير:
direction: "up" أو "down"amount: عدد وحدات التمرير
استخدم إجراء scroll من computer_20250124.
3. parse_screenshot_data(screenshot_description: str) -> list[dict]
بالنظر إلى وصف نصي لما يراه كلود على الشاشة، استخرج بيانات منظمة:
[
{
"title": "اسم المنتج",
"price": "$99.99",
"rating": "4.5/5",
"in_stock": True
}
]
4. generate_extraction_workflow(url: str, scroll_pages: int) -> list[dict]
يرجع سير عمل كامل:
- التنقل إلى URL
- التقاط لقطة شاشة
- التمرير لأسفل
- التقاط لقطة شاشة
- التكرار لـ
scroll_pagesتكرارات
تنسيقات استدعاء الأداة
# التركيز على شريط URL
{"type": "tool_use", "name": "computer", "input": {"action": "key", "text": "ctrl+l"}}
# كتابة URL
{"type": "tool_use", "name": "computer", "input": {"action": "type", "text": "https://example.com"}}
# الضغط على Enter
{"type": "tool_use", "name": "computer", "input": {"action": "key", "text": "Return"}}
# انتظار التحميل
{"type": "tool_use", "name": "computer", "input": {"action": "wait", "duration": 3000}}
# التمرير لأسفل
{"type": "tool_use", "name": "computer", "input": {"action": "scroll", "coordinate": [512, 384], "direction": "down", "amount": 3}}
# التقاط لقطة شاشة
{"type": "tool_use", "name": "computer", "input": {"action": "screenshot"}}
تلميحات
- انتظر دائماً بعد التنقل لتحميل الصفحة
- استخدم
coordinateفي التمرير لتحديد مكان التمرير - يجب التقاط لقطات الشاشة بعد إجراءات الانتظار
- تعامل مع اختصارات لوحة المفاتيح لـ Mac (cmd) و Linux (ctrl)
معايير التقييم
generate_navigation_sequence ينتج تسلسل تنقل URL صالح25 نقاط
generate_scroll_sequence يستخدم تنسيق إجراء التمرير الصحيح20 نقاط
parse_screenshot_data يستخرج البيانات المنظمة بشكل صحيح25 نقاط
generate_extraction_workflow يجمع كل الخطوات بشكل صحيح30 نقاط
حلك
يمكنك استخدام أي لغة برمجة
3 محاولات مجانية متبقية