Self-critique: خلّي الموديل يقيّم نفسه

self-critique هو النمط اللي بتطلب فيه من الموديل يكتب حاجة، وبعدين ينقد الـ output بتاعه على طول مقابل معايير إنت بتحددها، ويعيد الصياغة لو أي معيار سقط. فعّال بشكل مفاجئ لأن خطوة النقد بتستخدم مهارة الموديل التقييمية — وهي عادةً أحدّ من مهارته في المسودة الأولى.

شكل الـ prompt

البنية هي نفسها دايماً:

توليد حاجة (عنوان، وصف، مقطع كود).
تقييمها مقابل قايمة معايير متسماة.
إعادة الصياغة لو أي معيار سقط تحت عتبة.

بتكتب ده في prompt واحد. الموديل بيعمل الـ3 خطوات في رد واحد.

حلقة الـ self-critique

توليد

إنتاج المسودة الأولى من الـ prompt

تقييم

تقدير مقابل 3-5 معايير متسماة

قرار

في معيار سقط تحت العتبة؟

إعادة صياغة

إعادة كتابة لإصلاح المعيار الساقط

مثال محلول — توليد عناوين

Write a 2-sentence headline for a blog post titled "Why your A/B tests
are lying to you". Then critique your own headline against these criteria:
clarity, curiosity, specificity. If any criterion scores below 8/10, write
a second headline that fixes it.

الـ output الملتقَط:

# Headline

**Your A/B Tests Might Be Statistically Significant—But Completely Wrong. Here's Why Sample Ratio Mismatch and 5 Other Hidden Biases Are Sabotaging Your Results.**

# Critique

**Clarity: 7/10**
The headline makes the core message clear (A/B tests can be wrong despite seeming valid), but it's dense with jargon. "Sample Ratio Mismatch" and "statistical significance" may confuse readers unfamiliar with testing terminology.

**Curiosity: 9/10**
Strong curiosity driver—the tension between "statistically significant" and "completely wrong" creates intrigue. Promising to reveal "5 other hidden biases" provides a specific payoff.

**Specificity: 9/10**
Excellent specificity with concrete details: mentions specific problem (Sample Ratio Mismatch), quantifies issues (6 total biases), and identifies the practical impact (sabotaging results).

# Revised Headline

**Your A/B Tests Show a Clear Winner—But You're Making the Wrong Decision. Here's How 6 Invisible Errors Corrupt Your Data (And How to Catch Them).**

This revision improves clarity to 9/10 by removing technical jargon while maintaining the same tension. It keeps curiosity at 9/10 with relatable language (\"clear winner\" vs \"wrong decision\") and maintains specificity at 9/10 by adding a practical benefit (\"how to catch them\").

لقطة من Claude Sonnet 4.5 (claude-sonnet-4-5) في 2026-04-27. الـ re-runs ممكن تختلف شوية.

لاحظ اللي حصل لسه:

المسودة الأولى سجلت 7/10 في الـ clarity بسبب الـ jargon — والموديل نفسه أشار لده.
بفضل قاعدة "تحت 8/10"، أنتج مسودة تانية استبدلت "Sample Ratio Mismatch" و"statistically significant" بمكافئات بلغة بسيطة ("clear winner"، "invisible errors").
التحسن حقيقي وملموس، مش تعديل تجميلي.

ليه ده بيشتغل

الموديل شاطر في التقييم لما بيتدّى معايير صريحة. من غير معايير، "العنوان ده كويس؟" بيستدعي إجابة "أيوة، كويس لحد ما" مبهمة. بمحاور متسماة (clarity، curiosity، specificity) ومقياس عددي، الموديل بيتجبر يبص للعنوان عبر 3 عدسات مختلفة. النقد المركّز ده هو اللي بيكشف الضعف.

تصميم معاييرك

3 قواعد لاختيار معايير كويسة:

القاعدة	السبب
3 لـ 5 معايير، مش أكتر.	أكتر من كده بيخلي النقد قايمة تذمّرات صغيرة.
سمّيها بدقة.	"كويس" مالهاش معنى. "الـ specificity" أو "بيناسب 80 حرف" أو "من غير jargon" ملموس.
خليها مستقلة.	"Clarity" و"سهولة الفهم" حاجة واحدة — اختار واحدة.

فخ تتجنبه

self-critique مش بديل لعرض الموديل اللي الكويس شكله إيه. لو عندك أمثلة عظيمة (منطقة الـ few-shot)، استخدمها. self-critique بيلمع لما تحتاج حكم على مسودة ولّدتها لسه — زي تحرير عنوان، تشديد فقرة، أو اختبار خطة.

إمتى تلجأ له

في شغل هاجر اليومي، self-critique هي الحركة الصح لما:

كتبت بوست على LinkedIn وحسّت إنه "كويس بس مش عظيم".
بتعرض 3 مفاهيم حملة وعايزة الموديل يقيّم كل واحد.
مسودة إيميل شكلها مش مظبوطة شوية وما بتقدريش تحدد السبب.

النمط بيحوّل "ده مش مظبوط تماماً" لتشخيص مهيكل مع إصلاح.

التالي: التفكيك — لما مهمة كبيرة بتبقى 5 مهام أصغر قابلة للإدارة. :::