فهم استخدام الحاسوب

كيف يعمل استخدام الحاسوب

5 دقيقة للقراءة

يعمل استخدام الحاسوب من خلال حلقة تغذية راجعة مستمرة بين كلود وجهاز الكمبيوتر الخاص بك. فهم هذه الحلقة ضروري لبناء وكلاء فعالين.

حلقة الوكيل

┌─────────────────────────────────────────────────┐
│  1. كلود يستلم المهمة + لقطة الشاشة            │
│                    ↓                            │
│  2. كلود يحلل الشاشة، يقرر الإجراء             │
│                    ↓                            │
│  3. كلود يُرجع استدعاء الأداة (نقر، كتابة، إلخ)│
│                    ↓                            │
│  4. الكود الخاص بك ينفذ الإجراء                │
│                    ↓                            │
│  5. التقاط لقطة شاشة جديدة                     │
│                    ↓                            │
│  6. الحلقة تستمر حتى اكتمال المهمة             │
└─────────────────────────────────────────────────┘

أداة الحاسوب

يوفر إصدار الأداة computer_20250124 هذه الإجراءات:

الإجراءالوصف
screenshotالتقاط حالة الشاشة الحالية
mouse_moveتحريك المؤشر إلى إحداثيات x,y
left_clickنقر زر الماوس الأيسر
right_clickنقر زر الماوس الأيمن
double_clickنقر مزدوج للزر الأيسر
triple_clickتحديد سطر/فقرة كاملة
left_mouse_downالضغط على الزر الأيسر (للسحب)
left_mouse_upتحرير الزر الأيسر
scrollالتمرير لأعلى/لأسفل/لليسار/لليمين
typeكتابة نص
keyضغط مفتاح أو تركيبة مفاتيح
hold_keyالضغط على مفتاح أثناء تنفيذ إجراء
waitالإيقاف لمدة محددة

الترويسات المطلوبة

لاستخدام استخدام الحاسوب، أضف ترويسات بيتا هذه:

headers = {
    "anthropic-beta": "computer-use-2025-01-24"
}

دقة الشاشة

يعمل كلود بشكل أفضل مع دقات محددة. الإعداد الموصى به:

# الدقات المثالية لاستخدام الحاسوب
RECOMMENDED_RESOLUTIONS = [
    (1024, 768),   # XGA - سريع وفعال
    (1280, 800),   # WXGA - توازن جيد
    (1920, 1080),  # Full HD - تفاصيل أكثر
]

نصيحة: الدقات المنخفضة تعني معالجة أسرع للقطات الشاشة وتكاليف رموز أقل.

الفهم المبني على الرؤية

يستخدم كلود قدرات الرؤية الخاصة به لـ:

  1. تحديد عناصر واجهة المستخدم (الأزرار، حقول النص، القوائم)
  2. قراءة النص على الشاشة
  3. فهم التخطيط والعلاقات المكانية
  4. تتبع التغييرات بين لقطات الشاشة

هذا يعني أن كلود يمكنه العمل مع أي تطبيق دون الحاجة إلى تكاملات متخصصة.

بعد ذلك، سننظر في حزمة Agent SDK التي تبسط بناء هذه الحلقات. :::

اختبار

الوحدة 1: فهم استخدام الحاسوب

خذ الاختبار
هل كان هذا الدرس مفيدًا؟

سجّل الدخول للتقييم

نشرة أسبوعية مجانية

ابقَ على مسار النيرد

بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.

بدون إزعاج. إلغاء الاشتراك في أي وقت.