¡Realmente impresionante lanzamiento de modelos híbridos pequeños por parte del equipo de Qwen, como siempre! La gente está preguntando cómo se comparan en velocidad, latencia y memoria con los LFMs de @liquidai para implementación en dispositivos. Aquí hay un perfil rápido en Apple M3 Ultra: > LFM2.5-1.2B es un 52% más rápido en decodificación que el Qwen3.5-0.8B. > LFM2-700M es un 71% más rápido que el Qwen3.5-0.8B en decodificación. > LFM2-2.6B tiene la misma velocidad que el Qwen3.5-2B en decodificación. > LFM2-700M utiliza un 46% menos de memoria máxima que el Qwen3.5-0.8B. > LFM2-2.6B utiliza un 21% menos de memoria máxima que el Qwen3.5-2B. > Los lfms prefill con el mismo tamaño de parámetro son generalmente un 12% más rápidos que el Qwen3.5. Diseñamos la serie LFM2 con nuestro enfoque de diseño de meta AI con hardware en el bucle que nos permite encontrar la arquitectura más eficiente para un procesador dado sin sacrificar calidad. Esta prueba se realizó en Apple M3 Ultra, 512 GB de memoria unificada. Configuración: > 512 tokens de entrada, 128 tokens de generación, > 5 pruebas por configuración > Marco: MLX (mlx-lm / mlx-vlm)