TurboQuant من Google: ذاكرة أقل بـ 6 أضعاف لـ LLM
تقنية TurboQuant من Google تضغط الـ LLM KV caches إلى 3 bits بدون أي فقدان في الدقة، مما يقلل استهلاك الذاكرة بمقدار 6 أضعاف ويسرع عمليات حساب الـ attention في H100 بما يصل إلى 8 أضعاف مقارنة بـ FP32.