فهم استخدام الحاسوب

كيف يعمل استخدام الحاسوب

5 دقيقة للقراءة

يعمل استخدام الحاسوب من خلال حلقة تغذية راجعة مستمرة بين كلود وجهاز الكمبيوتر الخاص بك. فهم هذه الحلقة ضروري لبناء وكلاء فعالين.

حلقة الوكيل

┌─────────────────────────────────────────────────┐
│  1. كلود يستلم المهمة + لقطة الشاشة            │
│                    ↓                            │
│  2. كلود يحلل الشاشة، يقرر الإجراء             │
│                    ↓                            │
│  3. كلود يُرجع استدعاء الأداة (نقر، كتابة، إلخ)│
│                    ↓                            │
│  4. الكود الخاص بك ينفذ الإجراء                │
│                    ↓                            │
│  5. التقاط لقطة شاشة جديدة                     │
│                    ↓                            │
│  6. الحلقة تستمر حتى اكتمال المهمة             │
└─────────────────────────────────────────────────┘

أداة الحاسوب

يوفر إصدار الأداة computer_20250124 هذه الإجراءات:

الإجراء الوصف
screenshot التقاط حالة الشاشة الحالية
mouse_move تحريك المؤشر إلى إحداثيات x,y
left_click نقر زر الماوس الأيسر
right_click نقر زر الماوس الأيمن
double_click نقر مزدوج للزر الأيسر
triple_click تحديد سطر/فقرة كاملة
left_mouse_down الضغط على الزر الأيسر (للسحب)
left_mouse_up تحرير الزر الأيسر
scroll التمرير لأعلى/لأسفل/لليسار/لليمين
type كتابة نص
key ضغط مفتاح أو تركيبة مفاتيح
hold_key الضغط على مفتاح أثناء تنفيذ إجراء
wait الإيقاف لمدة محددة

الترويسات المطلوبة

لاستخدام استخدام الحاسوب، أضف ترويسات بيتا هذه:

headers = {
    "anthropic-beta": "computer-use-2025-01-24"
}

دقة الشاشة

يعمل كلود بشكل أفضل مع دقات محددة. الإعداد الموصى به:

# الدقات المثالية لاستخدام الحاسوب
RECOMMENDED_RESOLUTIONS = [
    (1024, 768),   # XGA - سريع وفعال
    (1280, 800),   # WXGA - توازن جيد
    (1920, 1080),  # Full HD - تفاصيل أكثر
]

نصيحة: الدقات المنخفضة تعني معالجة أسرع للقطات الشاشة وتكاليف رموز أقل.

الفهم المبني على الرؤية

يستخدم كلود قدرات الرؤية الخاصة به لـ:

  1. تحديد عناصر واجهة المستخدم (الأزرار، حقول النص، القوائم)
  2. قراءة النص على الشاشة
  3. فهم التخطيط والعلاقات المكانية
  4. تتبع التغييرات بين لقطات الشاشة

هذا يعني أن كلود يمكنه العمل مع أي تطبيق دون الحاجة إلى تكاملات متخصصة.

بعد ذلك، سننظر في حزمة Agent SDK التي تبسط بناء هذه الحلقات. :::

اختبار

الوحدة 1: فهم استخدام الحاسوب

خذ الاختبار