فهم استخدام الحاسوب
كيف يعمل استخدام الحاسوب
5 دقيقة للقراءة
يعمل استخدام الحاسوب من خلال حلقة تغذية راجعة مستمرة بين كلود وجهاز الكمبيوتر الخاص بك. فهم هذه الحلقة ضروري لبناء وكلاء فعالين.
حلقة الوكيل
┌─────────────────────────────────────────────────┐
│ 1. كلود يستلم المهمة + لقطة الشاشة │
│ ↓ │
│ 2. كلود يحلل الشاشة، يقرر الإجراء │
│ ↓ │
│ 3. كلود يُرجع استدعاء الأداة (نقر، كتابة، إلخ)│
│ ↓ │
│ 4. الكود الخاص بك ينفذ الإجراء │
│ ↓ │
│ 5. التقاط لقطة شاشة جديدة │
│ ↓ │
│ 6. الحلقة تستمر حتى اكتمال المهمة │
└─────────────────────────────────────────────────┘
أداة الحاسوب
يوفر إصدار الأداة computer_20250124 هذه الإجراءات:
| الإجراء | الوصف |
|---|---|
screenshot |
التقاط حالة الشاشة الحالية |
mouse_move |
تحريك المؤشر إلى إحداثيات x,y |
left_click |
نقر زر الماوس الأيسر |
right_click |
نقر زر الماوس الأيمن |
double_click |
نقر مزدوج للزر الأيسر |
triple_click |
تحديد سطر/فقرة كاملة |
left_mouse_down |
الضغط على الزر الأيسر (للسحب) |
left_mouse_up |
تحرير الزر الأيسر |
scroll |
التمرير لأعلى/لأسفل/لليسار/لليمين |
type |
كتابة نص |
key |
ضغط مفتاح أو تركيبة مفاتيح |
hold_key |
الضغط على مفتاح أثناء تنفيذ إجراء |
wait |
الإيقاف لمدة محددة |
الترويسات المطلوبة
لاستخدام استخدام الحاسوب، أضف ترويسات بيتا هذه:
headers = {
"anthropic-beta": "computer-use-2025-01-24"
}
دقة الشاشة
يعمل كلود بشكل أفضل مع دقات محددة. الإعداد الموصى به:
# الدقات المثالية لاستخدام الحاسوب
RECOMMENDED_RESOLUTIONS = [
(1024, 768), # XGA - سريع وفعال
(1280, 800), # WXGA - توازن جيد
(1920, 1080), # Full HD - تفاصيل أكثر
]
نصيحة: الدقات المنخفضة تعني معالجة أسرع للقطات الشاشة وتكاليف رموز أقل.
الفهم المبني على الرؤية
يستخدم كلود قدرات الرؤية الخاصة به لـ:
- تحديد عناصر واجهة المستخدم (الأزرار، حقول النص، القوائم)
- قراءة النص على الشاشة
- فهم التخطيط والعلاقات المكانية
- تتبع التغييرات بين لقطات الشاشة
هذا يعني أن كلود يمكنه العمل مع أي تطبيق دون الحاجة إلى تكاملات متخصصة.
بعد ذلك، سننظر في حزمة Agent SDK التي تبسط بناء هذه الحلقات. :::