#llm-inference

FlashKDA: كيرنل CUTLASS من Moonshot لـ Kimi

٢ مايو ٢٠٢٦

Moonshot أطلقت FlashKDA كمصدر مفتوح، وهو CUTLASS CUDA kernel لـ Kimi Delta Attention. بديل مباشر لـ flash-linear-attention مع تسريع في الـ prefill يصل إلى 2.22 ضعف على H20 GPUs.

#FlashKDA #Kimi Delta Attention

TurboQuant من Google: ذاكرة أقل بـ 6 أضعاف لـ LLM

٦ أبريل ٢٠٢٦

تقنية TurboQuant من Google تضغط الـ LLM KV caches إلى 3 bits بدون أي فقدان في الدقة، مما يقلل استهلاك الذاكرة بمقدار 6 أضعاف ويسرع عمليات حساب الـ attention في H100 بما يصل إلى 8 أضعاف مقارنة بـ FP32.

#TurboQuant #KV cache

AirLLM: تشغيل نماذج 70B على GPU سعة 4GB — الضجة مقابل الواقع

٥ أبريل ٢٠٢٦

AirLLM بيشغل 70B LLMs على GPU واحدة 4GB من خلال layer-wise inference — مفيش حاجة لـ quantization. بنختبر الادعاءات دي، وبنقيس الـ tradeoffs، وبنقارن البدائل.

#AirLLM #local LLM

#llm-inference

FlashKDA: كيرنل CUTLASS من Moonshot لـ Kimi

TurboQuant من Google: ذاكرة أقل بـ 6 أضعاف لـ LLM

AirLLM: تشغيل نماذج 70B على GPU سعة 4GB — الضجة مقابل الواقع

ابقَ على مسار النيرد