Lançamento verdadeiramente impressionante de modelos híbridos pequenos da equipe Qwen, como sempre! As pessoas estão perguntando como eles se comparam em velocidade, latência e memória aos LFMs da @liquidai para implantação em dispositivos? Aqui está um rápido perfilamento no Apple M3 Ultra: > LFM2.5-1.2B é 52% mais rápido na decodificação do que o Qwen3.5-0.8B. > LFM2-700M é 71% mais rápido do que o Qwen3.5-0.8B na decodificação > LFM2-2.6B tem a mesma velocidade que o Qwen3.5-2B na decodificação > LFM2-700M usa 46% menos memória de pico do que o Qwen3.5-0.8B > LFM2-2.6B usa 21% menos memória de pico do que o Qwen3.5-2B > lfms prefill com o mesmo tamanho de parâmetro é geralmente 12% mais rápido do que o Qwen3.5 Projetamos a série LFM2 com nossa abordagem de design meta AI com hardware em loop, que nos permite descobrir a arquitetura mais eficiente para um determinado processador sem sacrificar a qualidade. Este teste foi realizado no Apple M3 Ultra, 512 GB de memória unificada Configuração: > 512 tokens de prompt, 128 tokens de geração, > 5 testes por configuração > Framework: MLX (mlx-lm / mlx-vlm)