أوضاع التفكير — متى تفكر، ومتى تتخطى
لغز منطقي عبر 3 نماذج أساسية
اللغز المنطقي الصغير هو أنضف مكان نشوف فيه فروق الـreasoning. 3 قيود، 3 متسابقين، طلّع الترتيب. شكل المخرج محدد — فقرة reasoning واحدة، وبعدين assignment لـ1st/2nd/3rd. ولا واحد فيهم التلاتة اتفعّله thinking mode في الـrun ده. ده أداء النموذج الأساسي.
الـprompt
Three friends — Ali, Bilal, and Cyrus — finished a race in some order.
- Ali did not finish last.
- Bilal finished after Cyrus.
- Cyrus did not finish first.
Who finished in each position? Show your one-paragraph reasoning, then give the final answer in this format: 1st: 2nd: 3rd:
Claude Sonnet 4.5
Let me work through this step by step. Since Cyrus did not finish first, he finished either 2nd or 3rd. Since Bilal finished after Cyrus, if Cyrus finished 2nd, then Bilal finished 3rd; if Cyrus finished 3rd, then Bilal would need to finish after 3rd, which is impossible. Therefore, Cyrus finished 2nd and Bilal finished 3rd. This means Ali finished 1st, which is consistent with the constraint that Ali did not finish last.
1st: Ali 2nd: Cyrus 3rd: Bilal
GPT-4o-mini
To determine the finishing order of Ali, Bilal, and Cyrus, we analyze the provided clues. First, since Ali did not finish last, he must have finished either first or second. Second, since Bilal finished after Cyrus, he cannot be in first place. Third, since Cyrus did not finish first, he must have finished either second or third. The only possible scenario that satisfies all these conditions is if Cyrus finished second, Ali finished first, and Bilal finished last. Thus, the final positions are:
1st: Ali 2nd: Cyrus 3rd: Bilal
Gemini 2.5 Flash
Cyrus could not have finished first, and Bilal finished after Cyrus,
بطاقة المقارنة
لغز منطقي: النموذج الأساسي حلّه؟
Claude Sonnet 4.5
- بيبدأ بالـvariable الأكتر مقيّد
- بيورّي الحالة المستحيلة
GPT-4o-mini
- بيخفي خطوة الـdeduction الفعلية
- الإجابة صح، الشرح ضبابي
Gemini 2.5 Flash
- وقف بعد ما رجّع clue اتنين
- مش مرشّح لمهام reasoning
اللي ده بيقوله لنا
Claude و GPT-4o-mini الاتنين وصلوا للإجابة الصح (Ali / Cyrus / Bilal) والاتنين طلّعوا الإجابة بالشكل المطلوب. وصلوها عبر مسارات reasoning مختلفة شوية.
reasoning بتاع Claude هو constraint-elimination: اختار الـvariable الأكتر مقيّد الأول (Cyrus، اللي عنده قيدين صريحين)، عدّد الحالات، شال المستحيلة. ده الـapproach الكلاسيكي لمسائل constraint-satisfaction الصغيرة و Claude بينفّذه بدقة.
reasoning بتاع GPT-4o-mini هو constraint-listing: لمّ كل قيد بيدل على إيه، ضيّق search space، حدّد الـassignment الوحيد المتّسق. الـchain صح بس غير مباشر شوية — "the only possible scenario that satisfies all these conditions" بيعمل شغل أكتر من اللي الشرح بيوضّحه. GPT طلّع الإجابة؛ الشرح بيخفي الـdeduction الفعلية.
Gemini Flash اتقطع. تاني. جملتين، من غير إجابة، من غير format. ده base-model run، مش thinking-mode run، بس Flash بيطلّع ولا حاجة شغّالة لأي مهمة reasoning ورّيناها لحد دلوقتي. الـthinking mode المفروض يصلّح ده — Gemini 2.5 Pro بـthinking_config مفعّل وحش تاني. بس Flash لوحده ما عندوش المساحة لمسألة reasoning مقيّدة.
الخلاصة لسؤال الـCTO بتاع هاجر: لو المهمة بتاعتك فيها أي نوع deduction multi-step، حتى الصغير زي ده، Claude و GPT-4o-mini الاتنين شغّالين على النموذج الأساسي. Gemini Flash لأ. الدرس الجاي بيسأل: تطلع لـthinking mode على أي حال؟ إمتى الـlatency والـcost بيرجّعوا قيمتهم؟
Captured 2026-04-27 من Claude Sonnet 4.5 و GPT-4o-mini و Gemini 2.5 Flash. الـre-runs ممكن تختلف شوية.
التالي: إمتى extended thinking بيرجّع الـlatency tax بتاعه. :::
سجّل الدخول للتقييم