'التفكير' بيعني إيه فعلاً عبر النماذج

كل vendor كبير دلوقتي بيشحن reasoning mode. Anthropic بتسمّيه extended thinking. OpenAI شحنوا عيلة نماذج منفصلة لده (سلسلة الـo — o1, o3, o4-mini). Google بتسمّي variant بتاع Gemini deep-think أو thinking. اللغة التسويقية شبه بعضها عبر التلاتة. الـmechanism الفعلي شبه بعضه كمان. الـcost profile والـuse case الصح بيختلفوا.

الـmechanism المشتركة

في التلات implementations، "التفكير" بيعني إن النموذج بيطلّع reasoning trace مخفي قبل ما يطلّع الإجابة المرئية للمستخدم. الـtrace ممكن يبقى طويل جداً — مئات أو آلاف الـtokens من الـmonologue الداخلي. إنت بتدفع للـtokens دي (بتتحسب من cost الـoutput عند Anthropic، وكـ"reasoning tokens" عند OpenAI)، والإجابة المرئية بتوصل متأخرة أصل الـtrace بيتولّد الأول.

الـtrace ده chain-of-thought حقيقي. النموذج مسموح له يرجع ورا، يناقض نفسه، يجرّب طرق كتير، ويرمي اللي فشل. الإجابة المرئية بس هي اللي النموذج وصل واثق منها.

ده مختلف عن chain-of-thought المهندَس بالـprompt (نمط "think step by step" من كورس الأساسيات). الـCoT بالـprompt هو forward pass واحد بالـreasoning مكتوب في الـoutput المرئي. الـthinking modes اللي بيشحنها الـvendors فيها phase مخفية منفصلة، والإجابة بعد التفكير.

كل vendor بيسمّيه إيه

الـvendor	اسم الـmode	الـAPI surface	نموذج التسعير
Anthropic	Extended thinking	parameter `thinking: { type: "enabled", budget_tokens: N }` على call نموذج Claude عادي	thinking tokens بتتحسب كـoutput tokens
OpenAI	reasoning في سلسلة الـo	اسم نموذج منفصل (o1, o3, o4-mini) بـendpoints خاصة	reasoning tokens بتتحسب كسطر "reasoning" منفصل في الفاتورة
Google	Thinking / deep-think	parameter `thinking_config` على Gemini 2.5 Pro	thinking tokens بتتحسب كـoutput tokens

3 استنتاجات من الجدول ده. الأول، على Anthropic و Google، التفكير flag على نموذج عادي — نفس النموذج، compute أكتر. على OpenAI، التفكير نموذج تاني خالص (سلسلة الـo)، وما تقدرش تفعّل التفكير على call GPT-4o الأساسي. التاني، التلاتة بيضيفوا latency tax تقدر تقيسها — الـresponses بتاعت thinking-mode ممكن تاخد 10–60+ ثانية للمسائل الصعبة، قبال 1–3 ثواني لنفس الـprompt على النموذج الأساسي. التالت، التلاتة بيضيفوا cost tax تقدر تقيسه — thinking tokens مش ببلاش، وإنت بتدفع للـtrace المخفي سواء الإجابة المرئية اتغيّرت ولا لأ.

إمتى الـlatency والـcost يستاهلوا

الإجابة الصريحة: أقل من اللي التسويق بيقوله. أغلب الـprompts بتاعة الـproduction هي إعادة كتابة نبرة، classifications، تلخيصات، structured extractions — مهام النموذج الأساسي عنده الإجابة فيها في forward pass واحد. إنك تضيف thinking للمهام دي ده دفع في feature ما بتستخدمهاش.

الـthinking بيستاهل لما المهمة فيها reasoning وسيط حقيقي — ألغاز multi-step، توليد كود محتاج state-tracking دقيق، مسائل math word بحسابات فرعية كتيرة، مهام planning الإجابة فيها بتعتمد على chain طويلة من "لو X يبقى Y". الدرسين الجايين هيشغّلوا لغز منطقي عبر النماذج الأساسية التلاتة عشان تشوف "من غير تفكير" شكلها إيه، وبعدين نقارن بتكلفة إنك تطلع لـthinking mode.

التالي: لغز منطقي عبر النماذج الأساسية التلاتة، من غير تفعيل thinking. الفجوة في المخرج أوسع من اللي إنت متوقّعه. :::

الـmechanism المشتركة

كل vendor بيسمّيه إيه

إمتى الـlatency والـcost يستاهلوا

اختبار

ابقَ على مسار النيرد