هل هو أفضل من Claude Opus 4.8 أو GPT-5.5؟

في الاختبارات المرجعية الخاصة بـ Moonshot، يتأخر K2.7-Code عن كليهما في معظم الصفوف؛ فهو يتفوق على Opus 4.8 فقط في مجموعة استخدام الأدوات MCP Mark Verified. لم تكن هناك اختبارات مرجعية مستقلة عند الإطلاق لتأكيد أو دحض هذه المقارنات. 1 3

ما هو حجم نافذة السياق؟

256 ألف توكن (262,144)، وفقاً لتسعير Moonshot ووثائق البدء السريع. 2 5

هل يمكنني إيقاف تشغيل "التفكير" لتوفير التوكنز؟

لا. وضع التفكير إلزامي وتعطيله يؤدي إلى خطأ في API. يأتي توفير التوكنز في Moonshot بدلاً من ذلك من استخدام النموذج لتوكنز تفكير أقل بنسبة 30% تقريباً من K2.6، وليس من خلال مفتاح تبديل. 1 5

هل تم اختباره على SWE-bench Verified؟

ليس بشكل مستقل، حتى تاريخ 12 يونيو 2026. كل رقم منشور هو اختبار مرجعي من طرف Moonshot نفسه. 3

ai-ml

Kimi K2.7-Code: أوزان مفتوحة، أرقام الطرف الأول (2026)

١٣ يونيو ٢٠٢٦

#Kimi K2.7-Code #Moonshot AI #open-weight coding model #Kimi Code Bench #agentic coding #LLM benchmarks #MCP tool use #open weights

Kimi K2.7-Code: Open Weights, First-Party Numbers (2026)

أطلقت Moonshot AI نموذج Kimi K2.7-Code في 12 يونيو 2026 — وهو نموذج برمجة مفتوح الأوزان بـ 1 تريليون معامل مع تسعير واجهة برمجة تطبيقات (API) رخيص للغاية مقارنة بنماذج الواجهة (Frontier). يشير التقرير إلى مكاسب برقمين عشريين مقارنة بسلفه في كل اختبار مرجعي تم نشره. العائق الوحيد: حتى وقت الإطلاق، كل تلك الاختبارات المرجعية هي اختبارات خاصة بشركة Moonshot نفسها.

ملخص

Kimi K2.7-Code هو نموذج خليط من الخبراء (Mixture-of-Experts) مع إجمالي 1 تريليون معامل و32 مليار معامل نشط لكل توكن، ونافذة سياق 256 ألف توكن، وأوزان مفتوحة تحت رخصة MIT معدلة — تم إصداره في 12 يونيو 2026.¹²
تسعير واجهة برمجة التطبيقات (API) هجومي: 0.95 دولار لكل مليون توكن مدخلات، و4.00 دولار لكل مليون توكن مخرجات، و0.19 دولار لكل مليون في حالات إصابة ذاكرة التخزين المؤقت (cache hits)، وفقًا لصفحة التسعير الرسمية لـ Moonshot.²
أبلغت Moonshot عن قفزة بنسبة +21.8% مقارنة بـ Kimi K2.6 في اختبارها Kimi Code Bench v2 (من 50.9 إلى 62.0) ومكاسب في خمس مجموعات اختبار أخرى، بالإضافة إلى توكنز "تفكير" أقل بنسبة 30% تقريبًا من K2.6.¹
لكن جميع الاختبارات المرجعية الستة عند الإطلاق هي مجموعات اختبار مملوكة لشركة Moonshot. اعتبارًا من 12 يونيو، لم تكن هناك نتائج مستقلة من جهات خارجية على الاختبارات المرجعية العامة القياسية مثل SWE-bench Verified أو Terminal-Bench.³
بناءً على أرقام Moonshot الخاصة، لا يزال K2.7-Code يتخلف عن GPT-5.5 وClaude Opus 4.8 في معظم الصفوف — فهو يتفوق على Opus 4.8 في واحد فقط من اختباري استخدام الأدوات.¹

ما ستتعلمه

ما هو Kimi K2.7-Code فعليًا، وكيف تختلف بنيته عن K2.6
ما تدعيه اختبارات إطلاق Moonshot — ولماذا يتوخى الممارسون الحذر
كيف يقارن تسعير K2.7-Code بنماذج البرمجة المغلقة الرائدة
أين يبرز النموذج حقًا، وأين لا يزال يتخلف
ماذا يعني ادعاء "توكنز استدلال أقل بنسبة 30%" لفاتورتك
كيفية استدعائه من خلال واجهة برمجة التطبيقات (API) المتوافقة مع OpenAI، والقيود التي يجب مراقبتها
ما إذا كان الأمر يستحق الاعتماد اليوم مقابل انتظار النتائج المستقلة

ما هو Kimi K2.7-Code

Kimi K2.7-Code هو نموذج وكيل (agentic) متخصص في البرمجة من Moonshot AI، مبني على إصدار Kimi K2.6 السابق. تم تصميمه لهندسة البرمجيات طويلة المدى بدلاً من الدردشة العامة: فهو يخطط، ويحرر الملفات، ويشغل الأدوات، ويصحح الأخطاء عبر خطوات عديدة.¹

من الناحية الهيكلية، هو محول خليط من الخبراء (MoE) يحتوي على 1 تريليون معامل إجمالي وينشط 32 مليار معامل لكل توكن. يستخدم التصميم 384 خبيرًا، مع توجيه 8 خبراء بالإضافة إلى خبير واحد مشترك لكل توكن، عبر 61 طبقة (إحداها كثيفة). يستخدم الانتباه تقنية Multi-head Latent Attention (MLA)، ويستخدم مسار التغذية الأمامية SwiGLU، ويضيف مشفر الرؤية MoonViT حوالي 400 مليون معامل لمدخلات الصور والفيديو. يتم شحن النموذج مع تكميم INT4 أصلي، ونافذة السياق المنشورة هي 256 ألف توكن (262,144).¹²

هذا ليس نموذجًا للعمل على كمبيوتر محمول. يبلغ حجم مستودع Hugging Face حوالي 595 جيجابايت على القرص، مما يجعل الاستضافة الذاتية التزامًا على مستوى الخوادم (server-class) على الرغم من أن الأوزان مرخصة بشكل مفتوح بموجب رخصة MIT معدلة.¹

صورة الاختبارات المرجعية — اقرأ الحواشي السفلية

نشرت Moonshot ستة صفوف من الاختبارات المرجعية تقارن K2.7-Code بـ K2.6، وGPT-5.5 من OpenAI، وClaude Opus 4.8 من Anthropic. يتفوق K2.7-Code على سلفه في كل صف، مع أكبر قفزة برمجية في Kimi Code Bench v2 — من 50.9 إلى 62.0، وهو مكسب نسبي بنسبة 21.8%.¹

الاختبار المرجعي	Kimi K2.6	Kimi K2.7-Code	GPT-5.5	Claude Opus 4.8	K2.7 مقابل K2.6
Kimi Code Bench v2	50.9	62.0	69.0	67.4	+21.8%
Program Bench	48.3	53.6	69.1	63.8	+11.0%
MLS Bench Lite	26.7	35.1	35.5	42.8	+31.5%
Kimi Claw 24/7 Bench	42.9	46.9	52.8	50.4	+9.3%
MCP Atlas	69.4	76.0	79.4	81.3	+9.5%
MCP Mark Verified	72.8	81.1	92.9	76.4	+11.4%

هناك أمران يبرزان بمجرد القراءة عبر الأعمدة بدلاً من الصفوف. أولاً، التحسن مقارنة بـ K2.6 حقيقي ومتسق. ثانياً، لا يزال K2.7-Code يتخلف عن كل من GPT-5.5 وClaude Opus 4.8 في معظم هذه الصفوف. الفوز الواضح الوحيد على Opus 4.8 هو في MCP Mark Verified (81.1 مقابل 76.4)، وهي مجموعة اختبار لاستخدام الأدوات — ولكن في اختبار استخدام الأدوات الآخر، MCP Atlas، يتصدر Opus 4.8 (81.3 مقابل 76.0).¹

تعتبر ظروف التشغيل مهمة أيضًا لأي قراءة عادلة: تم تشغيل K2.7-Code داخل Kimi Code CLI، وتم تشغيل GPT-5.5 في Codex على إعداد "xhigh"، وتم تشغيل Opus 4.8 في Claude Code على إعداد "xhigh". يؤثر اختيار بيئة التشغيل (Harness) على نتائج الوكلاء، لذا فهذه مقارنات تم تكوينها من قبل المورد، وليست لوحة صدارة محايدة.¹

لماذا يتريث الممارسون في التصفيق

إليك الجزء الذي يستحق أكبر قدر من الاهتمام: كل اختبار مرجعي أعلاه هو أحد مجموعات الاختبار المملوكة لشركة Moonshot — Kimi Code Bench v2، وProgram Bench، وMLS Bench Lite، وKimi Claw 24/7 Bench، وMCP Atlas، وMCP Mark Verified. اعتبارًا من 12 يونيو 2026، ذكرت VentureBeat أنه لا توجد أرقام مستقلة من جهات خارجية لنموذج K2.7-Code في الاختبارات المرجعية العامة القياسية مثل SWE-bench Verified، أو SWE-bench Pro، أو Terminal-Bench، أو LiveCodeBench.³

هذا لا يجعل المكاسب وهمية، بل يجعلها غير مؤكدة. الاختبارات المرجعية التي يديرها المورد هي نقطة انطلاق وليست دليلاً قاطعًا — وفي البرمجة بشكل خاص، يمكن أن تكون الفجوة بين مجموعة اختبار داخلية منسقة ولوحة صدارة يديرها المجتمع كبيرة. ذهبت تعليقات الممارسين التي جمعتها VentureBeat إلى أبعد من ذلك، حيث اقترحت أن بعض التغيير يعكس سلوكًا أكثر "صدقًا" — على سبيل المثال، كتابة كود حقيقي حيث كان النموذج الأقدم يعتمد على أغلفة المكتبات (library wrappers) — بدلاً من قفزة مباشرة في القدرات. في أحد الاختبارات لنواة GPU مكتوبة، لا يزال العديد منها يفشل بسبب أخطاء النموذج نفسه.³

الخلاصة العملية: تعامل مع عنوان "+21.8%" كفرضية للاختبار على مستودع الكود الخاص بك، وليس كرقم تضعه في عرض تقديمي للمشتريات.

التسعير: أقوى ادعاء تم التحقق منه

إذا كانت الاختبارات المرجعية هي الجزء المرن من القصة، فإن التسعير هو الجزء الصلب — وهنا يبدو K2.7-Code الأكثر إقناعاً. تدرج صفحة التسعير الرسمية لشركة Moonshot النموذج بسعر 0.19 دولار لكل مليون توكن في حالات إصابة ذاكرة التخزين المؤقت (cache hits)، و0.95 دولار لكل مليون توكن للمدخلات التي لا توجد في ذاكرة التخزين المؤقت، و4.00 دولار لكل مليون توكن للمخرجات.²

بالمقارنة مع نماذج البرمجة المغلقة الرائدة، يعد هذا خصماً كبيراً. تدرج Anthropic نموذج Claude Opus 4.8 بسعر 5.00 دولار لكل مليون توكن للمدخلات و25.00 دولار لكل مليون توكن للمخرجات — لذا فإن توكنز المخرجات في K2.7-Code تبلغ تقريباً سدس السعر (4.00 دولار مقابل 25.00 دولار)، قبل احتساب أي تخزين مؤقت.⁴

النموذج	الترخيص	المعاملات (Params)	السياق (Context)	API (دخول / خروج لكل 1 مليون)
Kimi K2.7-Code	MIT معدل (مفتوح)	1T / 32B نشط	256K	$0.95 / $4.00
Kimi K2.6	أوزان مفتوحة	فئة 1T MoE	256K	أوزان مفتوحة
Claude Opus 4.8	مغلق	غير معلن	1M	$5.00 / $25.00
Qwen3-Coder-480B-A35B	مفتوح (ترخيص Qwen)	480B / 35B نشط	256K	يختلف حسب المضيف

⚠ الأسعار تتغير باستمرار. القيم المذكورة أعلاه للتوضيح فقط وقد تكون قديمة. تحقق دائماً من التسعير الحالي مباشرة من المزود قبل اتخاذ قرارات التكلفة: Anthropic · OpenAI · Google Gemini · Google Vertex AI · AWS Bedrock · Azure OpenAI · Mistral · Cohere · Together AI · DeepSeek · Groq · Fireworks AI · Perplexity · xAI · Cursor · GitHub Copilot · Windsurf.

تتعاظم قصة التكلفة مع انخفاض بنسبة ~30% في توكنز التفكير (reasoning tokens) التي تدعيها Moonshot مقارنة بـ K2.6. تُحسب توكنز التفكير كتوكنز مخرجات في معظم قوائم الأسعار، وتستغرق البرمجة المعتمدة على الوكلاء (agentic coding) مئات أو آلاف الخطوات — لذا فإن خفض "التفكير" في كل خطوة يتضاعف عبر التشغيل الطويل، مما يقلل التكلفة ويوفر ميزانية السياق في نفس الوقت.¹ مثل مكاسب الاختبارات المرجعية، فإن رقم 30% هو ادعاء من البائع، ولكنه ادعاء منطقي وسهل القياس مباشرة من قبل الفرق.

استدعاء النموذج: ملاحظات API

واجهة برمجة تطبيقات Kimi API متوافقة مع OpenAI، لذا فإن الاعتماد عليها يتطلب غالباً مجرد تغيير عنوان URL الأساسي (base-URL). اسم النموذج هو kimi-k2.7-code. هناك بعض القيود من جانب الخادم التي يجدر معرفتها قبل دمجها في حلقة وكيل (agent loop).⁵

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ.get("MOONSHOT_API_KEY"),
    base_url="https://API.moonshot.ai/v1",
)

resp = client.chat.completions.create(
    model="kimi-k2.7-code",
    messages=[
        {"role": "system", "content": "You are a coding agent."},
        {"role": "user", "content": "Refactor utils.py to remove duplicate code."},
    ],
    max_tokens=32768,  # default cap and also the maximum
)
print(resp.choices[0].message.content)

هناك ثلاث قواعد تأتي مباشرة من الوثائق. وضع التفكير (Thinking mode) إلزامي — تعطيله يؤدي إلى خطأ في API. أخذ العينات (Sampling) مقفل على قيم ثابتة (درجة الحرارة 1.0، top_p 0.95، n 1، العقوبات 0.0)؛ تمرير أي شيء آخر يؤدي لخطأ. وأثناء استدعاءات الأدوات متعددة الخطوات، يجب عليك الاحتفاظ بـ reasoning_content الخاص بكل دورة في السياق، وإلا ستفشل الدورة التالية.⁵ هذه قيود غير معتادة، وتعني أن بعض هياكل الوكلاء الحالية ستحتاج إلى تعديلات طفيفة بدلاً من مجرد استبدال مباشر.

موقعه في موجة الأوزان المفتوحة

يأتي K2.7-Code في منتصف سباق برمجة مزدحم بالأوزان المفتوحة. في الأسابيع القليلة الماضية وحدها، غطينا كفاءة الانتباه المتناثر في MiniMax M3، ومحاولة Nex-N2-Pro لمنافسة GPT-5.5، وحرب التكلفة الأوسع لنماذج البرمجة مفتوحة الأوزان في الصين. تكمن ميزة Kimi في هذا المجال في التخصص بالإضافة إلى السعر: نموذج مخصص للبرمجة فقط، بترخيص مفتوح، يتفوق على المختبرات الرائدة المغلقة في تكلفة التوكنز.

ما ينقصنا هو نفس الشيء الذي ينقص معظم هذه الإطلاقات — تقييم محايد وقابل للتكرار. النموذج الذي سيفوز بثقة المطورين في هذا القطاع قد لا يكون هو صاحب أعلى رسم بياني للبائع، بل النموذج الذي تصمد أرقامه أمام اختبارات لوحة الصدارة المستقلة.

الخلاصة

يعد Kimi K2.7-Code إصداراً مثيراً للاهتمام حقاً: أوزان مفتوحة، نموذج MoE بحجم 1T مخصص للبرمجة، تسعير رخيص مقارنة بالنماذج الرائدة، وادعاء موثوق بالكفاءة. لكن اختبارات الإطلاق هي بالكامل من طرف البائع، وفي رسوم Moonshot البيانية الخاصة، لا يزال النموذج خلف GPT-5.5 و Claude Opus 4.8 في معظم المهام. الموقف الصحيح هو الفضول وليس التحول الكامل — قم بتنزيل الأوزان أو جرب API، واختبره مقابل مستودع الأكواد الخاص بك، واترك التقييمات المستقلة تأخذ مجراها قبل اعتبار الأرقام الرئيسية نهائية.

آصف رزاق، "Moonshot AI تطلق Kimi K2.7-Code: نموذج برمجة يسجل تحسناً بنسبة +21.8% في Kimi Code Bench v2 مقارنة بـ K2.6،" MarkTechPost، 12 يونيو 2026 (تاريخ الإصدار، ترخيص MIT معدل، مبني على K2.6، بنية MoE — إجمالي 1T / 32B نشط، 384 خبيراً، 61 طبقة، MLA، SwiGLU، MoonViT +400M، INT4، حوالي 595 جيجابايت؛ جدول اختبارات كامل من ستة صفوف مع شروط التشغيل؛ ادعاء تقليل توكنز التفكير بنسبة ~30%؛ جدول مقارنة). https://www.marktechpost.com/2026/06/12/moonshot-ai-releases-kimi-k2-7-code-a-coding-model-reporting-21-8-on-kimi-code-bench-v2-over-k2-6/ ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹ ↩¹² ↩¹³
"تسعير نموذج البرمجة Kimi K2.7 Code،" التوثيق الرسمي لـ Moonshot/Kimi (إصابة ذاكرة التخزين المؤقت 0.19 دولار، إدخال مفقود من ذاكرة التخزين المؤقت 0.95 دولار، الإخراج 4.00 دولار لكل 1 مليون توكن؛ نافذة سياق 262,144 توكن). https://platform.kimi.ai/docs/pricing/chat-k27-code ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶
"Kimi K2.7-Code يقلل توكنز التفكير بنسبة 30% — لكن الممارسين يقولون إن الاختبارات لا تتطابق مع الواقع،" VentureBeat، 12 يونيو 2026 (جميع اختبارات الإطلاق هي مجموعات ملكية لـ Moonshot؛ لا توجد نتائج مستقلة من طرف ثالث على SWE-bench Verified أو SWE-bench Pro أو Terminal-Bench أو LiveCodeBench حتى 12 يونيو؛ تشكيك الممارسين في القدرة مقابل السلوك). https://venturebeat.com/technology/kimi-k2-7-code-cuts-thinking-tokens-30-practitioners-say-benchmarks-dont-check-out ↩ ↩² ↩³ ↩⁴ ↩⁵
مقارنة الأسعار والمواصفات (Claude Opus 4.8: مغلق، سياق 1M، 5.00 دولار / 25.00 دولار لكل 1M؛ Qwen3-Coder-480B-A35B: مفتوح، 480B / 35B نشط، 256K)، جدول "كيف يقارن K2.7-Code" من MarkTechPost، 12 يونيو 2026. https://www.marktechpost.com/2026/06/12/moonshot-ai-releases-kimi-k2-7-code-a-coding-model-reporting-21-8-on-kimi-code-bench-v2-over-k2-6/ ↩
دليل البدء السريع لـ "Kimi K2.7 Code"، التوثيق الرسمي لـ Moonshot/Kimi (سياق 256K؛ وضع التفكير إلزامي؛ معلمات أخذ عينات ثابتة؛ API متوافق مع OpenAI؛ سلسلة النموذج kimi-k2.7-code؛ قيود استخدام الأدوات و reasoning_content؛ الحد الأقصى الافتراضي للتوكنز 32,768). https://platform.kimi.ai/docs/guide/kimi-k2-7-code-quickstart ↩ ↩² ↩³ ↩⁴

الأسئلة الشائعة

الأوزان قابلة للتنزيل بشكل مفتوح بموجب ترخيص MIT معدل، لذا فإن الاستضافة الذاتية "مجانية" باستثناء تكلفة الأجهزة الكبيرة (المستودع يبلغ حجمه ~595 جيجابايت). استخدام API المستضاف مدفوع: 0.95 دولار / 4.00 دولار لكل مليون توكن مدخلات / مخرجات، مع توفر إصابات ذاكرة التخزين المؤقت بسعر 0.19 دولار. 1 2

Kimi K2.7-Code: أوزان مفتوحة، أرقام الطرف الأول (2026)

ملخص

ما ستتعلمه

ما هو Kimi K2.7-Code

صورة الاختبارات المرجعية — اقرأ الحواشي السفلية

لماذا يتريث الممارسون في التصفيق

التسعير: أقوى ادعاء تم التحقق منه

استدعاء النموذج: ملاحظات API

موقعه في موجة الأوزان المفتوحة

الخلاصة

الأسئلة الشائعة

مقالات ذات صلة

نماذج Coding LLMs الصينية Open-Weight: اكتساح الثلاثة أسابيع لعام

MiniMax M3: موديل برمجة Open-Weight بـ 1M-Context

Claude Fable 5: موديل Anthropic من فئة

Nex-N2-Pro: Open-Weight Coder ضد GPT-5.5 (2026)

Kimi K2.7-Code: أوزان مفتوحة، أرقام الطرف الأول (2026)

ملخص

ما ستتعلمه

ما هو Kimi K2.7-Code

صورة الاختبارات المرجعية — اقرأ الحواشي السفلية

لماذا يتريث الممارسون في التصفيق

التسعير: أقوى ادعاء تم التحقق منه

استدعاء النموذج: ملاحظات API

موقعه في موجة الأوزان المفتوحة

الخلاصة

Footnotes

الأسئلة الشائعة

مقالات ذات صلة

نماذج Coding LLMs الصينية Open-Weight: اكتساح الثلاثة أسابيع لعام

MiniMax M3: موديل برمجة Open-Weight بـ 1M-Context

Claude Fable 5: موديل Anthropic من فئة

Nex-N2-Pro: Open-Weight Coder ضد GPT-5.5 (2026)