extended thinking بيرجّع قيمته إمتى فعلاً

الدرس اللي فات ورّى إن Claude و GPT-4o-mini الاتنين حلّوا لغز ترتيب السباق على النموذج الأساسي في 3-4 ثواني. لو ضفت thinking mode للـprompt ده كان هيطلّع نفس الإجابة في 30+ ثانية ويكلّف فلوس أكتر. يعني thinking mode مش دايماً مكسب. السؤال إمتى يكون.

thinking mode بيرجّع قيمته فين وبيخسرك فين

بيرجّع قيمته

Reasoning puzzle

دقة النموذج الأساسيأحياناً غلط

عقوبة الـlatency30-60 ث

رفع الجودة10-30 نقطة مئوية

الحكميستاهل

المزايا

multi-step deduction أكتر اللي بيستفيد
صح يقدر يتحقق منه

بيرجّع قيمته

code review لـprod

دقة النموذج الأساسيبيفوّت bugs دقيقة

عقوبة الـlatency30-90 ث

رفع الجودةبيمسك state-tracking bugs

الحكميستاهل للـproduction

المزايا

تكلفة الإجابة الغلط عالية
الـlatency مش بتظهر للمستخدم

صرف ضايع

tone rewrite / تلخيص

دقة النموذج الأساسيأصلاً كويسة

عقوبة الـlatency10-30 ث

رفع الجودة~صفر

الحكمعدّي على thinking

العيوب

مهام forward-pass ما بتستفيدش
تكلفة من غير فايدة

صرف ضايع

structured extraction

دقة النموذج الأساسيعالية مع tools

عقوبة الـlatency10-30 ث

رفع الجودة~صفر

الحكماستخدم tool-use mode

العيوب

فرض الـschema > التفكير في المهمة دي

الـ4 حالات اللي thinking بيرجّع قيمته فيها

1. النموذج الأساسي بيغلط. دي الحالة الأوضح. لو تقدر تتحقق من الإجابة (عندك test set معروفة صح، أو المسألة رياضية)، والنموذج الأساسي بيغلط، الطلوع لـthinking mode غالباً بيصلّحها. benchmarks داخلية في الـlabs الكبيرة بتورّي رفع 10-30 نقطة مئوية على رياضيات مسابقات، code multi-step، ومسائل constraint-satisfaction.

2. المهمة فيها failure mode reasoning معروف. لو المهمة بتاعتك "خمّن إجابة لمسألة Fermi دي"، النماذج الأساسية بتميل تعدّي الـrigorous decomposition وتكتب رقم شكله معقول. thinking mode بيجبر الـdecomposition. نفس الحاجة لمهام "الكود ده صح؟" review اللي النموذج الأساسي يقدر يفوّت bugs دقيقة فيها.

3. الـlatency مش بتظهر للمستخدم. لو الـprompt بيشتغل في batch job في الـbackground الساعة 3 الصبح، عقوبة الـlatency 30-60 ث ما بتفرقش. ادفعها. فرق التكلفة لكل call كمان غالباً غير ذي صلة على volume قليل — research-summary digest job اللي بيشتغل مرة في اليوم تمام إنه يبقى على thinking mode لو ده بيحسّن الجودة.

4. تكلفة الإجابة الغلط طاغية على تكلفة الـcompute. لو النموذج بيعمل توصية اللي بتروح لـreviewer بشري أو لقرار فلوس حقيقية، إنك تدفع 5x للإجابة رخيص قبال التكلفة اللي ورا توصية وحشة. code review لأنظمة production، تحليل بنود contracts، financial analysis — كل دي أماكن thinking mode بيرجّع قيمته فيها.

thinking إمتى بيبقى صرف ضايع

أغلب الـprompts بتاعة الـproduction. tone rewrites ما بتتحسّنش بالتفكير؛ النموذج عارف يخلّي الإيميل أدفى. classifications ما بتتحسّنش بالتفكير؛ الإجابة موجودة أصلاً في الـembedding space. structured extractions لما الـdata موجود في الـinput ما بتستفيدش. JSON formatting ما بيستفيدش.

اختبار مفيد قبل ما تشغّل thinking: هل failure rate الحالي بتاعك بسبب إن النموذج "مش بيحاول جامد كفاية"، ولا بسبب إن النموذج ما عندوش information محتاجها؟ thinking mode بيصلّح الحالة الأولى. ما بيصلّحش التانية. لو الإجابة الصح محتاجة fresh data النموذج ما عندوش، الـthinking هيطلّع إجابة غلط أكتر تفصيل، مش صح.

سلّم عملي

لما تشكّ إن مهمة محتاجة reasoning أكتر من اللي النموذج الأساسي بيدّيه:

جرّب prompt-engineered chain-of-thought الأول. ضيف "think step by step" أو "show your reasoning before the answer". ببلاش، سريع، غالباً بيكفي.
جرّب few-shot. مثالين أو 3 شغّالين في الـprompt بيعلّموا الـpattern. كمان ببلاش، كمان سريع.
اطلع لـbase model أكبر. Claude Opus 4.5 بدل Sonnet 4.5. GPT-4o بدل GPT-4o-mini. Gemini 2.5 Pro بدل Flash. تكلفة per-call أعلى، بس من غير الـlatency tax بتاع thinking mode.
وبعدين جرّب thinking mode. بس لو (1)–(3) ما حرّكوش الإبرة. لما توصل هنا المفروض يكون عندك benchmark تقدر تقارن بيه.

الترتيب مهم. الطفر على طول لـthinking mode هي أغلى طريقة تكتشف بيها إنك كنت محتاج few-shot.

التالي: الكتابة الإبداعية — فين thinking mode بيبقى tax من غير فايدة. :::