Vraiment impressionnante sortie de modèles hybrides miniatures de l'équipe Qwen comme toujours !
Les gens demandent comment ils se comparent en vitesse, latence et mémoire aux LFMs de @liquidai pour le déploiement sur appareil ?
Voici un rapide profilage sur Apple M3 Ultra :
> LFM2.5-1.2B est 52 % plus rapide en décodage que le Qwen3.5-0.8B.
> LFM2-700M est 71 % plus rapide que Qwen3.5-0.8B en décodage
> LFM2-2.6B a la même vitesse que Qwen3.5-2B en décodage
> LFM2-700M utilise 46 % de mémoire maximale en moins que Qwen3.5-0.8B
> LFM2-2.6B utilise 21 % de mémoire maximale en moins que Qwen3.5-2B
> les lfms préremplis avec la même taille de paramètre sont généralement 12 % plus rapides que Qwen3.5
Nous avons conçu la série LFM2 avec notre approche de conception AI méta avec matériel en boucle qui nous permet de trouver l'architecture la plus efficace pour un processeur donné sans sacrifier la qualité.
Ce test a été réalisé sur Apple M3 Ultra, 512 Go de mémoire unifiée
Configuration :
> 512 jetons d'invite, 128 jetons de génération,
> 5 essais par configuration
> Cadre : MLX (mlx-lm / mlx-vlm)