TurboQuant من Google: ذاكرة أقل بـ 6 أضعاف لاستنتاج الـ
٦ أبريل ٢٠٢٦
تعمل خوارزمية TurboQuant من Google على ضغط ذاكرة التخزين المؤقت للـ KV (KV cache) في النماذج اللغوية الكبيرة إلى 3 بت فقط لكل قيمة — مما يقلل استخدام الذاكرة بمقدار 6 أضعاف مع عدم فقدان الدقة نهائيًا. على وحدات معالجة الرسومات NVIDIA H100، تعمل TurboQuant بدقة 4 بت على تسريع حساب لوجيتات الانتباه (attention logit) بما يصل إلى 8 أضعاف مقارنة بالمفاتيح غير المكممة بدقة 32 بت. نُشرت TurboQuant كورقة بحثية في مؤتمر ICLR 2026، وقد أحدثت بالفعل ضجة في أسهم شركات رقائق الذاكرة وأطلقت موجة من التنفيذات مفتوحة المصدر.1
ما ستتعلمه
- لماذا تُعد ذاكرة التخزين المؤقت للـ KV هي عنق الزجاجة الأول للذاكرة في استدلال النماذج اللغوية الكبيرة (LLM)
- كيف يحقق نهج "التدوير ثم التكميم" (rotation-then-quantize) في TurboQuant ضغطًا قريبًا من الأمثل
- نتائج الاختبارات المرجعية الدقيقة على LongBench و Needle-in-a-Haystack وتسريع الانتباه على H100
- ماذا تعني TurboQuant لاقتصاديات ذاكرة GPU وتكاليف الاستدلال
- كيف تبدأ في استخدام TurboQuant اليوم مع تنفيذات المجتمع
ملخص
TurboQuant هي خوارزمية ضغط لا تتطلب تدريبًا ومستقلة عن النموذج من Google Research، تعمل على تقليص ذاكرة التخزين المؤقت للـ KV — أكبر مستهلك للذاكرة أثناء استدلال LLM — من دقة 16 بت إلى 3 بت. لا تتطلب بيانات معايرة، ولا ضبطًا دقيقًا، وتعمل على أي بنية Transformer. في الاختبارات المرجعية القياسية، تطابق TurboQuant بدقة 3.5 بت أداء الدقة الكاملة تمامًا، بينما توفر TurboQuant بدقة 4 بت تسريعًا يصل إلى 8 أضعاف في حساب لوجيتات الانتباه على H100 مقابل المفاتيح بدقة 32 بت (حوالي 4 أضعاف مقابل خط الأساس FP16 المستخدم عمليًا). سيتم تقديم الورقة رسميًا في مؤتمر ICLR 2026 في ريو دي جانيرو في 25 أبريل 2026.2
مشكلة ذاكرة التخزين المؤقت للـ KV: لماذا تُعد الذاكرة هي عنق الزجاجة الحقيقي
في كل مرة يقوم فيها نموذج لغوي كبير بإنشاء توكن (token)، فإنه يخزن أزواج المفتاح والقيمة (key-value) لكل توكن سابق عبر كل طبقة انتباه. هذه هي ذاكرة التخزين المؤقت للـ KV، وهي تنمو خطيًا مع طول التسلسل.
بالنسبة للمطالبات القصيرة، تهيمن أوزان النموذج على ذاكرة GPU. ولكن مع دفع نوافذ السياق نحو 128 ألف توكن وما بعدها، تصبح ذاكرة التخزين المؤقت للـ KV هي عنق الزجاجة الأساسي. تستهلك مطالبة واحدة مكونة من 128 ألف توكن على Llama 3 70B ما يقرب من 40 جيجابايت من الذاكرة ذات النطاق الترددي العالي لمجرد تخزين KV — وهي السعة الكاملة لبطاقة NVIDIA A100 سعة 40 جيجابايت، أو نصف سعة إصدار 80 جيجابايت.3
تتفاقم المشكلة عند التوسع. يواجه مزودو الاستدلال الذين يخدمون آلاف المستخدمين المتزامنين مقايضة صعبة: سياقات أطول أو عدد أكبر من المستخدمين، ولكن ليس كليهما. تهدر أنظمة الاستدلال التقليدية 60-80% من ذاكرة التخزين المؤقت للـ KV المخصصة من خلال التجزئة (fragmentation).4 وبينما أدت الابتكارات مثل PagedAttention (من مشروع vLLM) إلى تقليل التجزئة إلى أقل من 4%، تظل المشكلة الأساسية قائمة: يتم تخزين تمثيل المفتاح والقيمة لكل توكن بدقة 16 بت كاملة، مما يستهلك ذاكرة أكبر بكثير مما يبرره محتوى المعلومات.
هذه هي المشكلة التي تهاجمها TurboQuant.
كيف تعمل TurboQuant: التدوير، ثم التكميم
تجمع TurboQuant بين تقنيتين — PolarQuant وتحويل Johnson-Lindenstrauss المكمم (QJL) — في خط معالجة يضغط متجهات KV مع تشويه قريب من الأمثل يمكن إثباته رياضيًا.5
الخطوة 1: التدوير المتعامد العشوائي
تطبق المرحلة الأولى تدويرًا متعامدًا عشوائيًا على كل متجه KV. يبدو هذا مجردًا، لكن التأثير ملموس: فهو ينشر طاقة المتجه بشكل موحد عبر جميع الإحداثيات. قبل التدوير، تحمل بعض الإحداثيات معلومات أكثر بكثير من غيرها (مشكلة "القنوات الشاذة" التي تعيب التكميم الساذج). بعد التدوير، يتبع كل إحداثي توزيعًا إحصائيًا متوقعًا — غاوسي تقريبًا — مما يجعل جميع الإحداثيات متساوية في الأهمية وقابلة للضغط بالتساوي.6
يتم إنشاء مصفوفة التدوير مرة واحدة عبر تحليل QR لمصفوفة غاوسية عشوائية وإعادة استخدامها لجميع المتجهات. وهذا يضيف عبئًا حسابيًا ضئيلًا.
الخطوة 2: تكميم Lloyd-Max الأمثل
نظرًا لأن توزيع ما بعد التدوير معروف تحليليًا، تحسب TurboQuant سلال تكميم (quantization buckets) مثالية رياضيًا باستخدام خوارزمية Lloyd-Max. على عكس مخططات التكميم المتعلمة التي تتطلب بيانات معايرة وضبطًا خاصًا بالنموذج، يتم اشتقاق سلال Lloyd-Max من نظرية الاحتمالات وحدها. تحسبها مرة واحدة، وتعمل على أي نموذج.7
عند 3 بت، يعني هذا أن كل إحداثي يتم تعيينه لواحدة من 8 سلال موضوعة بشكل مثالي. عند 4 بت، 16 سلة. الفكرة الرئيسية هي أن التدوير العشوائي يضمن مطابقة التوزيع للافتراض — لا توجد قيم شاذة متبقية لكسر المكمم.
الخطوة 3: تصحيح الخطأ QJL
تضيف TurboQuant بتًا إضافيًا واحدًا لكل إحداثي باستخدام تحويل Johnson-Lindenstrauss المكمم. يؤدي هذا إلى إنشاء آلية رياضية للتحقق من الأخطاء تحافظ على علاقات المسافة بين المتجهات — وهو أمر بالغ الأهمية لحساب درجة الانتباه. يضمن البت الإضافي أنه حتى عند نسب الضغط القصوى، يظل نمط الانتباه وفيًا للأصل.8
لماذا تسمى PolarQuant
تسمى مرحلة التكميم (الخطوتان 1 و 2) PolarQuant لأنها تحول الإحداثيات داخليًا إلى صيغة قطبية — نصف القطر والزاوية بدلاً من التمثيل الديكارتي. وهذا يلغي ثوابت التطبيع المكلفة لكل كتلة التي تتطلبها المكممات التقليدية، مما يقلل من العبء الإضافي. TurboQuant هي خط المعالجة الكامل: PolarQuant للتكميم بالإضافة إلى QJL لتصحيح الخطأ.9
نتائج الاختبارات المرجعية: صفر فقدان في الدقة عند ضغط 6 أضعاف
تم تقييم TurboQuant على نماذج Llama-3.1-8B-Instruct و Gemma و Mistral عبر خمسة اختبارات مرجعية قياسية للسياق الطويل: LongBench و Needle-in-a-Haystack و ZeroSCROLLS و RULER و L-Eval.10
LongBench (Llama-3.1-8B-Instruct)
LongBench هي مجموعة شاملة تغطي الإجابة على الأسئلة، وتوليد الكود، والتلخيص عبر المستندات الطويلة. عند 3.5 بت لكل قيمة، حققت TurboQuant درجة متوسطة بلغت 50.06 — وهي مطابقة لخط الأساس بدقة 16 بت الكاملة البالغ 50.06. حتى عند 2.5 بت القوية، انخفضت الدرجة فقط إلى 49.44.11
Needle-in-a-Haystack (Llama-3.1-8B-Instruct، سياق يصل إلى 104 ألف)
يختبر هذا المرجع ما إذا كان النموذج يمكنه استرداد حقيقة محددة مدفونة في مستند طويل. سجلت TurboQuant 0.997 عند ضغط 4 أضعاف — وهو مطابق وظيفيًا للدقة الكاملة — عبر أطوال سياق تصل إلى 104 ألف توكن.12
إنتاجية الانتباه على H100
على وحدات معالجة الرسومات NVIDIA H100، قدمت تقنية TurboQuant بتنسيق 4-bit تسريعاً يصل إلى 8 أضعاف في حساب logit للانتباه مقارنة بالمفاتيح غير المكممة بتنسيق 32-bit (حوالي 4 أضعاف مقارنة بمعيار FP16 المستخدم في الممارسة العملية). هذا ليس تسريعاً للاستنتاج من البداية إلى النهاية — فعملية الانتباه هي عنق زجاجة كبير ولكنها ليست الوحيدة، لذا سيكون التحسين الفعلي للوقت الحقيقي للاستنتاج الكامل أقل. يأتي التسريع من تقليل متطلبات عرض نطاق الذاكرة: قيم KV الأصغر تعني ملاءمة المزيد من البيانات في ذاكرة التخزين المؤقت لـ GPU، وعدد أقل من معاملات الذاكرة المطلوبة لكل عملية انتباه.13
مقاييس الضغط
عند 3 بت (TQ3)، تحقق TurboQuant ضغطاً بمقدار 4.9 ضعفاً مقارنة بـ FP16، باستخدام 52 بايت لكل متجه مكون من 128 قيمة مقارنة بـ 256 بايت بالدقة الكاملة. عند 4 بت (TQ4)، تبلغ نسبة الضغط 3.8 ضعفاً، مع 68 بايت لكل متجه مكون من 128 قيمة. يبلغ متوسط الخطأ التربيعي عند TQ3 حوالي 0.034، وعند TQ4 يبلغ 0.009 فقط.14
كيف تقارن TurboQuant بـ KIVI
تعد KIVI، التي نُشرت في ICML 2024، هي المعيار الأساسي لتكميم ذاكرة التخزين المؤقت لـ KV. وهي تستخدم تكميماً غير متماثل بمقدار 2 بت مع معالجة لكل قناة للمفاتيح ومعالجة لكل توكن للقيم، مما يحقق تقليلاً في الذاكرة بنحو 2.6 ضعفاً. تضاهي TurboQuant أو تتفوق على KIVI في LongBench عند ميزانيات بت متساوية مع كونها أبسط في التنفيذ — لا يلزم إجراء معايرة لكل قناة أو لكل توكن.15
تأثير السوق: لماذا انخفضت أسهم رقائق الذاكرة
عندما نشرت Google مدونة أبحاث TurboQuant في 25 مارس 2026، كان رد فعل السوق سريعاً ودراماتيكياً. في بورصة كوريا في اليوم التالي، انخفضت أسهم SK Hynix بنسبة 6.23% وتراجعت Samsung Electronics بنسبة 4.8%، مما أدى إلى انخفاض مؤشر KOSPI بنسبة تصل إلى 3%. كما تم بيع أسهم الذاكرة الأمريكية بشكل حاد في 26 مارس، حيث انخفضت SanDisk بنسبة تصل إلى 8%، وتراجعت Micron بنحو 5%، وانخفضت Western Digital بنحو 5%، وفقاً لتقارير من 24/7 Wall St.16
كان المنطق مباشراً: إذا كان الاستنتاج الذكي (AI inference) يمكن أن يعمل على جزء صغير من الذاكرة، فإن الطلب على الذاكرة ذات النطاق الترددي العالي (HBM) وذاكرة الوصول العشوائي الديناميكية للخوادم (DRAM) يضعف. لكن هذا التأطير يغفل تمييزاً حاسماً. تضغط TurboQuant ذاكرة العمل في مرحلة الاستنتاج فقط. وهي لا تقدم أي تقليل في متطلبات الذاكرة الهائلة لتدريب النماذج، وهو المكان الذي تنشأ فيه أكبر أحجام مشتريات الذاكرة.17
وصف المحللون عملية البيع إلى حد كبير بأنها رد فعل مبالغ فيه. حافظت Lynx Equity Strategies على سعر مستهدف قدره 700 دولار لشركة Micron، موصية بشراء السهم عند الانخفاض.18 الإجماع الأوسع: TurboQuant هي طفرة حقيقية لكفاءة الاستنتاج، لكنها لا تغير بشكل أساسي مسار الطلب على أجهزة الذاكرة عبر كامل منظومة الذكاء الاصطناعي.
البداية: تطبيقات مفتوحة المصدر
لم تصدر Google بعد كود TurboQuant الرسمي، لكن المجتمع تحرك بسرعة. اعتباراً من أوائل أبريل 2026، تتوفر عدة تطبيقات.19
لمستخدمي llama.cpp، يقدم مشروع turboquant_plus تكاملاً تجريبياً مع دعم Metal على Apple Silicon. تم التحقق منه من البداية إلى النهاية من نماذج بـ 1.5 مليار إلى 104 مليار معلمة على M5 Max، حيث حقق نموذج 104B بسياق 128K حيرة (perplexity) تبلغ 4.024 عند ذروة ذاكرة تبلغ 74 جيجابايت فقط. تضاهي إنتاجية الملء المسبق (Prefill) تقريباً q8_0 مع ضغط ذاكرة التخزين المؤقت لـ KV بنحو 4.6 ضعفاً.20
بالنسبة لـ vLLM، يتوفر فرع (fork) يعتمد على الإصدار 0.18.1rc1 مع دعم TurboQuant على GitHub، وهناك طلب ميزة رسمي مفتوح في مشروع vLLM.21
توجد أيضاً تطبيقات مستقلة في PyTorch (مع نوى Triton) و MLX. ومن المتوقع صدور تطبيق Google الرسمي في الربع الثاني من عام 2026 تقريباً.22
ما يعنيه هذا لاقتصاديات استنتاج نماذج اللغة الكبيرة (LLM)
ليست TurboQuant أول تقنية لضغط ذاكرة التخزين المؤقت لـ KV، ولكن مزيج خصائصها يجعلها عملية بشكل فريد: فهي لا تتطلب بيانات تدريب، ولا معايرة خاصة بالنموذج، ولا ضبطاً دقيقاً، وتعمل مع أي بنية Transformer. الضغط مجاني تقريباً من الناحية الحسابية — حيث يضيف التدوير والتكميم عبئاً لا يذكر مقارنة بتوفير عرض نطاق الذاكرة.
بالنسبة لمزودي خدمات الاستنتاج، فإن الحسابات مقنعة. يعني تقليل ذاكرة التخزين المؤقت لـ KV بمقدار 6 أضعاف إما خدمة مستخدمين متزامنين أكثر بـ 6 أضعاف على نفس الأجهزة، أو تمديد نوافذ السياق بمقدار 6 أضعاف عند نفس مستوى التزامن. في سوق تهيمن فيه ساعات GPU على التكلفة، يترجم هذا مباشرة إلى تكاليف استنتاج أقل لكل توكن.
بالنسبة للمطورين الذين يشغلون النماذج محلياً، تعني TurboQuant أن النماذج التي كانت تتطلب سابقاً وحدات معالجة رسومات متطورة للعمل بسياق طويل يمكنها الآن العمل على أجهزة المستهلكين. يوضح تطبيق llama.cpp بالفعل نماذج بـ 104 مليار معلمة تعمل بسياق 128K على MacBook.23
بالاقتران مع التطورات الحديثة الأخرى — PagedAttention لإدارة الذاكرة، وفك التشفير التخميني (speculative decoding) لتقليل زمن الاستجابة، و NVFP4 من NVIDIA لأوزان النماذج وتنشيطاتها منخفضة الدقة — تضيف TurboQuant طبقة أخرى إلى منظومة تحسين الاستنتاج: ضغط فائق لذاكرة التخزين المؤقت لـ KV مع عدم وجود تدهور في الجودة.
إذا كنت مهتماً بكيفية تطور مشهد أجهزة الذكاء الاصطناعي جنباً إلى جنب مع تحسينات البرمجيات هذه، فراجع تحليلنا لـ Huawei Ascend 950PR وتحديها لـ NVIDIA. للحصول على دليل عملي لتشغيل النماذج الكبيرة محلياً، راجع دليلنا الكامل لبناء ذكاء اصطناعي محلي باستخدام وكلاء RAG و Ollama.
Footnotes
-
تم نشر TurboQuant كبحث في مؤتمر ICLR 2026. المصدر: ICLR 2026 Poster ↩
-
مؤتمر ICLR 2026، ريو دي جانيرو، عرض الملصق في 25 أبريل 2026. المصدر: ICLR 2026 Schedule ↩
-
ذاكرة KV cache لنموذج Llama 3 70B عند 128K توكن. المصدر: BentoML LLM Inference Handbook ↩
-
تجزئة ذاكرة KV cache بنسبة 60–80%. المصدر: BentoML LLM Inference Handbook ↩
-
يجمع TurboQuant بين PolarQuant و QJL. المصدر: Google Research Blog ↩
-
الدوران المتعامد العشوائي يوزع الطاقة بشكل موحد. المصدر: Google Research Blog ↩
-
تكميم Lloyd-Max الأمثل المستمد من نظرية الاحتمالات. المصدر: Google Research Blog ↩
-
يضيف QJL بتًا واحدًا لكل إحداثي لتصحيح الخطأ. المصدر: Google Research Blog ↩
-
يقوم PolarQuant بالتحويل إلى إحداثيات قطبية. المصدر: Google Research Blog ↩
-
تم التقييم على Llama-3.1-8B و Gemma و Mistral عبر 5 مقاييس أداء. المصدر: Tom's Hardware ↩
-
سجل LongBench بـ 3.5 بت هو 50.06 مطابقًا لخط الأساس FP16؛ وسجل 2.5 بت هو 49.44. المصدر: Tom's Hardware ↩
-
سجل Needle-in-a-Haystack هو 0.997 عند ضغط 4x حتى سياق 104K. المصدر: Tom's Hardware ↩
-
حقق 4-bit TurboQuant إنتاجية انتباه (attention throughput) بمقدار 8x على H100. المصدر: Tom's Hardware ↩
-
TQ3: ضغط 4.9x، 52 بايت/128 قيمة، MSE 0.034؛ TQ4: 3.8x، 68 بايت، MSE 0.009. المصدر: llama.cpp Discussion #20969 ↩
-
يطابق TurboQuant أو يتفوق على KIVI في LongBench. المصدر: Tom's Hardware ↩
-
انخفاض SK Hynix بنسبة -6.23%، و Samsung بنسبة -4.8% في بورصة كوريا؛ و SanDisk بنسبة ~-8%، و Micron بنسبة ~-5%، و WDC بنسبة ~-5% في الولايات المتحدة. المصدر: 24/7 Wall St.، Seoul Economic Daily ↩
-
يستهدف TurboQuant الاستدلال (inference) فقط، وليس ذاكرة التدريب. المصدر: TradingKey Analysis ↩
-
تستهدف Lynx Equity سعر 700 دولار لـ Micron، وتنصح بالشراء عند الهبوط. المصدر: Seoul Economic Daily ↩
-
تتوفر تطبيقات مجتمعية رغم عدم وجود كود Google رسمي. المصدر: GitHub vLLM Issue #38171 ↩
-
llama.cpp turboquant_plus: 104B عند 128K، PPL 4.024، ذروة 74 جيجابايت، ضغط 4.6x. المصدر: GitHub turboquant_plus ↩
-
نسخة vLLM 0.18.1rc1 مع TurboQuant. المصدر: GitHub vllm-turboquant ↩
-
كود Google الرسمي متوقع في الربع الثاني من 2026. المصدر: Kaitchup Substack ↩
-
نموذج 104B بسياق 128K على MacBook باستخدام turboquant_plus. المصدر: GitHub turboquant_plus ↩
تقنية TurboQuant لا تتطلب تدريبًا. المصدر: مدونة Google Research ↩
تقوم TurboQuant بضغط KV cache الخاص بالاستدلال (inference) فقط. المصدر: تحليل TradingKey ↩
تم إجراء الاختبارات المرجعية على H100؛ دعم المجتمع متاح لـ NVIDIA، Apple Silicon، و CPU. المصدر: Tom's Hardware ↩
تقنيتا TurboQuant و PagedAttention مكملتان لبعضهما البعض. المصدر: دليل BentoML للاستدلال في نماذج LLM ↩
من المتوقع صدور الكود الرسمي في الربع الثاني من عام 2026. المصدر: Kaitchup Substack ↩