Verkligen imponerande lansering av hybridmodeller från Qwen-teamet som alltid! Folk undrar hur de jämför sig i hastighet, latens och minne med @liquidai:s LFM:er för on-device distribution? Här är en snabb översikt av Apple M3 Ultra: > LFM2.5-1.2B är 52 % snabbare vid avkodning än Qwen3.5-0.8B. > LFM2-700M är 71 % snabbare än Qwen3.5-0.8B vid avkodning > LFM2-2.6B har samma hastighet som Qwen3.5-2B vid avkodning > LFM2-700M använder 46 % mindre toppminne än Qwen3.5-0.8B > LFM2-2.6B använder 21 % mindre peak-minne än Qwen3.5-2B > lfms-prefill med samma parameterstorlek är generellt 12 % snabbare än Qwen3.5 Vi designade LFM2-serien med vår hårdvaru-i-loop-meta-AI-designmetod som gör att vi kan hitta den mest effektiva arkitekturen för en given processor utan kvalitetskompromiss. Detta test görs på Apple M3 Ultra, 512 GB enhetligt minne Konfiguration: > 512 prompt-tokens, 128 generationstokens, > 5 försök per konfiguration > Ramverk: MLX (mlx-lm / mlx-vlm)