Lansarea cu adevărat impresionantă a modelelor hibride tiny din partea echipei Qwen, ca întotdeauna! Oamenii întreabă cum se compară în viteză, latență și memorie cu LFM-urile @liquidai pentru implementarea pe dispozitiv? Iată o scurtă prezentare a Apple M3 Ultra: > LFM2.5-1.2B este cu 52% mai rapid în decodare decât Qwen3.5-0.8B. > LFM2-700M este cu 71% mai rapid decât Qwen3.5-0.8B la decodare > LFM2-2.6B are aceeași viteză ca Qwen3.5-2B la decodare > LFM2-700M folosește cu 46% mai puțină memorie de pic decât Qwen3.5-0.8B > LFM2-2.6B folosește cu 21% mai puțină memorie de pic decât Qwen3.5-2B > prefill lfms cu aceeași dimensiune a parametrilor este, în general, cu 12% mai rapid decât Qwen3.5 Am proiectat seria LFM2 cu abordarea noastră de design meta-AI hardware-in-the-loop, care ne permite să descoperim cea mai eficientă arhitectură pentru un procesor dat fără sacrificii de calitate. Acest test se face pe Apple M3 Ultra, memorie unificată de 512 GB Configurație: > 512 jetoane de prompt, 128 de jetoane de generație, > 5 teste pe configurație > Framework: MLX (mlx-lm / mlx-vlm)