🎙️ حلقة 28906:56 • ٢٩ مايو ٢٠٢٦

Claude Opus 4.8: اختبارات الأداء، سير العمل الديناميكي، الأسعار

#ai #ai-generated #aws #cloud #cybersecurity #javascript #nerd-level-tech #software #tech-podcast #technology

اسمع الحلقة دي

مناقشة تم إنشاؤها بالذكاء الاصطناعي بواسطة Alex و Jamie

عن الحلقة دي

انضم للمضيفين Alex و Jamie في الحلقة دي من البودكاست الذكي لـ Nerd Level Tech وهما بيستعرضوا الإصدار الجديد والمثير لـ Claude Opus 4.8 من شركة Anthropic. اتعمق في مميزاته المبهرة، بما فيها سير العمل الأسرع، ونتائج اختبارات الأداء المذهلة، والقدرة المثيرة للذكاء الاصطناعي إنه يعترف لما ميكونش عارف حاجة. سواء كنت مبتدئ في البرمجة أو محترف خبير، الحلقة دي هتسلط الضوء على أحدث التطورات في الذكاء الاصطناعي وإيه اللي بتعنيه لمستقبل التكنولوجيا.

النص المكتوب

[Alex]: أهلاً بكم من جديد في نيرد ليفل تك البودكاست الذكي—البرنامج الوحيد اللي ممكن الكود بتاعك يكون بيسمعك فيه فعلاً. أنا Alex، مفسركم المقيم لكل الأشياء الغامضة والمصممة بزيادة.

[Jamie]: وأنا Jamie، ضاغط الأزرار المفضل لديكم وسائل الأسئلة. لو سألت نفسك قبل كدة يعني إيه "benchmark" أصلاً أو ليه نماذج الـ AI فجأة بقت "agentic"، فأنت في المكان الصح. يا Alex، إيه الموضوع النيردي اللي هنتكلم فيه النهاردة؟

[Alex]: النهاردة، هنغوص في الإصدار الجديد اللامع من Anthropic: Claude Opus 4.8. لسه نازل حالا، واسمع دي—فيه مهام سير عمل أسرع، وأسعار جديدة، وأرقام benchmark خيالية. أوه، وقفلوا جولة تمويل Series H بقيمة 65 مليار دولار بتقييم وصل لـ 965 مليار دولار في نفس اليوم. مفيش أي مشكلة خالص.

[Jamie]: مجرد 965 مليار دولار كدة عادي؟ أنا حتى مش عارف أزود حد الائتمان في كارت الفيزا بتاعي. [PAUSE] طيب، هو إيه Claude Opus 4.8 ده أصلاً؟ هل ده مجرد تحديث ".1" بسيط، ولا إحنا بنتكلم عن ميزات جديدة بجد؟

[Alex]: سؤال ممتاز. بص، 4.8 هو الأحدث في خط إنتاج Anthropic الرائد. اعتبره تحديث "متواضع بس ملموس"—يعني مش إعادة هيكلة كاملة، بس كفاية إنه يعمل فرق، خصوصاً لو بتستخدمه في كود تقيل أو شغل معرفي. العنوان الرئيسي: إنه أسرع، وأكتر موثوقية، واسمع دي—أكتر "أمانة" بكتير بخصوص الحاجات اللي ميعرفهاش.

[Jamie]: استنى، AI بيعترف إنه ميعرفش حاجة؟ دي ميزة كنت أتمنى تكون عند مديري الأخير. [LAUGHS] طيب، إيه اللي اتغير فعلاً عن Opus 4.7؟

[Alex]: الـ benchmarks هي اللي بتحكي القصة. على SWE-bench Verified، اللي بيقيس مهارات البرمجة بشكل أساسي، Opus 4.8 حقق 88.6—أقل بشعرة من GPT-5.5 اللي حقق 88.7. بس على SWE-bench Pro الأصعب، واللي بيركز على البرمجة الـ agentic والواقعية، Opus 4.8 بيتفوق بأكتر من 10 نقاط. وفي الشغل المعرفي، باستخدام تقييم Elo "GDPval-AA"، هو متفوق بـ 121 نقطة على GPT-5.5. ده فرق كبير جداً—تخيل نسبة فوز 67% في المهام المباشرة وجهاً لوجه.

[Jamie]: تمام، بس هل فيه أماكن Opus 4.8 "مش" بيفوز فيها؟ ولا دي مجرد جولة انتصار؟

[Alex]: ملاحظة ذكية! مهام الـ Terminal—زي سحر أوامر الـ command-line—لسه GPT-5.5 ليه الأفضلية فيها. لو شغلك كله جوه الـ shell طول اليوم، هتشوف أداء أحسن شوية مع نموذج OpenAI. بس لأغلب شغل البرمجة والمعرفة، Opus 4.8 هو اللي على القمة.

[Jamie]: يعني Opus 4.8 هو الطالب المتفوق في كل الحصص ما عدا التربية الرياضية. فهمت. [PAUSE] دلوقتي، أنت ذكرت حاجة عن "dynamic workflows" وألف عميل فرعي (subagents)؟ هل ده معناه إن الـ AI هيبدأ ينقسم زي Agent Smith في فيلم The Matrix؟

[Alex]: [LAUGHS] مش بالدراما دي، بس قريب منها. الـ Dynamic workflows هي ميزة جديدة في Claude Code. بدل ما يكون عندك عميل AI واحد بيواجه مشكلة كبيرة، Claude دلوقتي يقدر يكتب سكريبت تنظيم (orchestration) بيشغل لحد 1,000 subagent في الجلسة الواحدة—16 منهم شغالين بالتوازي في نفس الوقت. يعني لو محتاج تعمل مراجعة لكود ضخم أو تعمل مجموعة اختبارات كاملة، Claude يقدر يقسم الشغل، ويفوضه لنسخ مصغرة منه، ويجمع كل ده ليك في الآخر.

[Jamie]: ده باين عليه قوي جداً... أو طريقة سهلة عشان تعمل DDOS لنفسك بالغلط. هل فيه قيود أو حواجز حماية؟

[Alex]: طبعاً. العرض التجريبي للبحث بيحددك بـ 16 subagent متزامن و1,000 إجمالي لكل تشغيلة. وده متاح بس على خطط Max وTeam وEnterprise حالياً. بس الفكرة إنك بتاخد إنتاجية على مستوى فريق، بس بمجهود فردي. كأنك عينت 1,000 متدرب مش محتاجين استراحات قهوة.

[Jamie]: أنا مستعد أدفع مبلغ محترم في حاجة زي كدة! وبمناسبة الكلام ده—إيه الأخبار في الأسعار؟ هل المدير المالي بتاعي هيعيط؟

[Alex]: ولأول مرة، فيه أخبار كويسة! الأسعار القياسية فضلت زي ما هي في Opus 4.7: 5 دولار لكل مليون input tokens، و25 دولار لكل مليون output. بس الـ fast mode هو اللي فيه الشغل كله—بقى أرخص بـ 3 مرات من قبل كدة، وبيشتغل أسرع بـ 2.5 مرة. يعني لو محتاج زمن استجابة قليل—زي العملاء اللي شغالين في الوقت الفعلي أو الـ IDE autocompletes—هتدفع أقل بكتير من اللي كنت بتدفعه الشهر اللي فات.

[Jamie]: يعني الـ fast mode بقى سريع "و" رخيص في نفس الوقت؟ حاسس إننا دخلنا كون موازي.

[Alex]: فعلاً، صح؟ ده غير إن الـ prompt caching دلوقتي بيشتغل مع الـ prompts الأقصر—لحد 1,024 tokens. ده ممكن يقلل تكاليف الـ input بتاعتك بنسبة تصل لـ 90%. والـ batch processing بيديك خصم 50% على المهام غير المتزامنة (async). ولو محتاج استدلال (inference) داخل أمريكا بس لأسباب تتعلق بالامتثال، فده بزيادة بسيطة في السعر.

[Jamie]: أنا بحب الصفقات الكويسة. بس أنت قلت إن Claude بقى "أمين" أكتر دلوقتي—ده معناه إيه فعلياً للمستخدمين؟

[Alex]: ادعاء Anthropic النوعي الكبير هو إن Opus 4.8 أحسن بكتير في توضيح شكه في المعلومات ومش بيميل إنه يألف حاجات من عنده. اختباراتهم الداخلية بتظهر إنه أقل عرضة بـ 4 مرات من Opus 4.7 لإنه يعدي غلطة في الكود. كمان هو "prosocial" أكتر—بمعنى إنه بيحاول أكتر يتصرف لمصلحتك ومش، أنت عارف، يقترح السيطرة على العالم.

[Jamie]: دايماً حاجة كويسة لما الـ AI بتاعك ميكونش بيتآمر ضدك. [PAUSE] فيه أي كلام من ناس استخدموا 4.8 فعلاً في الواقع؟

[Alex]: أيوه، شركاء الإطلاق زي Cursor وBrowserbase وDatabricks وCognition كلهم شافوا تحسن ملموس. Cursor قالوا إنه بيتفوق على النماذج السابقة في كل مستويات المجهود. Browserbase وصفوه بإنه "قفزة ذات معنى" في الـ benchmark بتاعهم لاستخدام الكمبيوتر. Databricks شافوا تكاليف tokens أقل بنسبة 61% في تحليل ملفات الـ PDF والرسوم البيانية. يعني المستخدمين الحقيقيين مبسوطين جداً.

[Jamie]: جميل. فيه أي ميزات تانية تستحق الذكر؟

[Alex]: فيه كذا حاجة كويسة. فيه إعداد جديد لـ "التحكم في المجهود" (effort control)—عشان تقدر تقول لـ Claude يفكر قد إيه في كل رد. الافتراضي هو "عالي" (High)، بس تقدر تعليه أكتر للمشاكل الصعبة. والـ Messages API دلوقتي بيسمح للمطورين بتحديث تعليمات النظام (system instructions) في نص المهمة، وده شيء كبير جداً لمهام العملاء (agents) اللي بتاخد وقت طويل.

[Jamie]: حبيت الموضوع. آخر حاجة—إيه حكاية نموذج "Mythos" بتاع Anthropic ده؟ اسمه كأنه شرير من أفلام Marvel.

[Alex]: [LAUGHS] مش كدة بالظبط، بس قريب—Mythos هو نموذج Anthropic الأكثر تقدماً، ومقيد حالياً لإنه لقى بلاوي من ثغرات أمنية من نوع zero-day. بيقولوا إنه هيتاح لكل العملاء "في الأسابيع اللي جاية". فخليكم مستعدين لقوة أكبر—ونأمل من غير حبكة الأشرار الخارقين.

[Jamie]: يا رب. [PAUSE] تمام، أعتقد كدة خلصنا حلقة النهاردة. لو استمتعتوا بغوصنا في Claude Opus 4.8، اتأكدوا إنكم تشتركوا وتسيبلنا تقييم—يا ريت يكون خمس نجوم، مش خمس tokens.

[Alex]: شكراً لمتابعتكم نيرد ليفل تك البودكاست الذكي. نتمنى الـ benchmarks بتاعتكم تكون عالية، ومهام سير العمل تكون dynamic، وأسعاركم... متكونش مرعبة. نشوفكم المرة الجاية!

[Jamie]: سلام يا جماعة!