Rilascio davvero impressionante di modelli ibridi tiny dal team Qwen, come sempre!
Le persone chiedono come si confrontano in termini di velocità, latenza e memoria con i LFMs di @liquidai per il deployment su dispositivo?
Ecco un rapido profiling su Apple M3 Ultra:
> LFM2.5-1.2B è il 52% più veloce in decodifica rispetto al Qwen3.5-0.8B.
> LFM2-700M è il 71% più veloce del Qwen3.5-0.8B in decodifica
> LFM2-2.6B ha la stessa velocità del Qwen3.5-2B in decodifica
> LFM2-700M utilizza il 46% in meno di memoria di picco rispetto al Qwen3.5-0.8B
> LFM2-2.6B utilizza il 21% in meno di memoria di picco rispetto al Qwen3.5-2B
> gli lfms prefill con la stessa dimensione dei parametri sono generalmente il 12% più veloci del Qwen3.5
Abbiamo progettato la serie LFM2 con il nostro approccio di design meta AI hardware-in-the-loop che ci consente di scoprire l'architettura più efficiente per un dato processore senza sacrificare la qualità.
Questo test è stato eseguito su Apple M3 Ultra, 512 GB di memoria unificata
Configurazione:
> 512 token di prompt, 128 token di generazione,
> 5 prove per configurazione
> Framework: MLX (mlx-lm / mlx-vlm)
🚀 Introduzione alla serie di modelli piccoli Qwen 3.5
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Maggiore intelligenza, meno calcolo.
Questi modelli piccoli sono costruiti sulla stessa base Qwen3.5 — multimodale nativa, architettura migliorata, RL scalato:
• 0.8B / 2B → piccoli, veloci, ottimi per dispositivi edge
• 4B → una base multimodale sorprendentemente forte per agenti leggeri
• 9B → compatto, ma già in procinto di colmare il divario con modelli molto più grandi
E sì — stiamo anche rilasciando i modelli Base.
Speriamo che questo supporti meglio la ricerca, la sperimentazione e l'innovazione industriale nel mondo reale.
Hugging Face:
ModelScope: