Rilascio davvero impressionante di modelli ibridi tiny dal team Qwen, come sempre! Le persone chiedono come si confrontano in termini di velocità, latenza e memoria con i LFMs di @liquidai per il deployment su dispositivo? Ecco un rapido profiling su Apple M3 Ultra: > LFM2.5-1.2B è il 52% più veloce in decodifica rispetto al Qwen3.5-0.8B. > LFM2-700M è il 71% più veloce del Qwen3.5-0.8B in decodifica > LFM2-2.6B ha la stessa velocità del Qwen3.5-2B in decodifica > LFM2-700M utilizza il 46% in meno di memoria di picco rispetto al Qwen3.5-0.8B > LFM2-2.6B utilizza il 21% in meno di memoria di picco rispetto al Qwen3.5-2B > gli lfms prefill con la stessa dimensione dei parametri sono generalmente il 12% più veloci del Qwen3.5 Abbiamo progettato la serie LFM2 con il nostro approccio di design meta AI hardware-in-the-loop che ci consente di scoprire l'architettura più efficiente per un dato processore senza sacrificare la qualità. Questo test è stato eseguito su Apple M3 Ultra, 512 GB di memoria unificata Configurazione: > 512 token di prompt, 128 token di generazione, > 5 prove per configurazione > Framework: MLX (mlx-lm / mlx-vlm)