FlashKDA: كيرنل CUTLASS من Moonshot لـ Kimi
٢ مايو ٢٠٢٦
Moonshot أطلقت FlashKDA كمصدر مفتوح، وهو CUTLASS CUDA kernel لـ Kimi Delta Attention. بديل مباشر لـ flash-linear-attention مع تسريع في الـ prefill يصل إلى 2.22 ضعف على H20 GPUs.
Moonshot أطلقت FlashKDA كمصدر مفتوح، وهو CUTLASS CUDA kernel لـ Kimi Delta Attention. بديل مباشر لـ flash-linear-attention مع تسريع في الـ prefill يصل إلى 2.22 ضعف على H20 GPUs.
تقنية TurboQuant من Google تضغط الـ LLM KV caches إلى 3 bits بدون أي فقدان في الدقة، مما يقلل استهلاك الذاكرة بمقدار 6 أضعاف ويسرع عمليات حساب الـ attention في H100 بما يصل إلى 8 أضعاف مقارنة بـ FP32.
AirLLM بيشغل 70B LLMs على GPU واحدة 4GB من خلال layer-wise inference — مفيش حاجة لـ quantization. بنختبر الادعاءات دي، وبنقيس الـ tradeoffs، وبنقارن البدائل.
بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.
بدون إزعاج. إلغاء الاشتراك في أي وقت.