FlashKDA: كيرنل CUTLASS من Moonshot لـ Kimi
٢ مايو ٢٠٢٦
Moonshot أطلقت FlashKDA كمصدر مفتوح، وهو CUTLASS CUDA kernel لـ Kimi Delta Attention. بديل مباشر لـ flash-linear-attention مع تسريع في الـ prefill يصل إلى 2.22 ضعف على H20 GPUs.
Moonshot أطلقت FlashKDA كمصدر مفتوح، وهو CUTLASS CUDA kernel لـ Kimi Delta Attention. بديل مباشر لـ flash-linear-attention مع تسريع في الـ prefill يصل إلى 2.22 ضعف على H20 GPUs.
بريد واحد أسبوعياً — دورات، مقالات معمّقة، أدوات، وتجارب ذكاء اصطناعي.
بدون إزعاج. إلغاء الاشتراك في أي وقت.