Lançamento verdadeiramente impressionante de modelos híbridos pequenos da equipe Qwen, como sempre!
As pessoas estão perguntando como eles se comparam em velocidade, latência e memória aos LFMs da @liquidai para implantação em dispositivos?
Aqui está um rápido perfilamento no Apple M3 Ultra:
> LFM2.5-1.2B é 52% mais rápido na decodificação do que o Qwen3.5-0.8B.
> LFM2-700M é 71% mais rápido do que o Qwen3.5-0.8B na decodificação
> LFM2-2.6B tem a mesma velocidade que o Qwen3.5-2B na decodificação
> LFM2-700M usa 46% menos memória de pico do que o Qwen3.5-0.8B
> LFM2-2.6B usa 21% menos memória de pico do que o Qwen3.5-2B
> lfms prefill com o mesmo tamanho de parâmetro é geralmente 12% mais rápido do que o Qwen3.5
Projetamos a série LFM2 com nossa abordagem de design meta AI com hardware em loop, que nos permite descobrir a arquitetura mais eficiente para um determinado processador sem sacrificar a qualidade.
Este teste foi realizado no Apple M3 Ultra, 512 GB de memória unificada
Configuração:
> 512 tokens de prompt, 128 tokens de geração,
> 5 testes por configuração
> Framework: MLX (mlx-lm / mlx-vlm)
🚀 Apresentando a Série de Modelos Pequenos Qwen 3.5
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Mais inteligência, menos computação.
Estes modelos pequenos são construídos sobre a mesma base Qwen3.5 — multimodal nativo, arquitetura melhorada, RL escalado:
• 0.8B / 2B → pequeno, rápido, ótimo para dispositivos de borda
• 4B → uma base multimodal surpreendentemente forte para agentes leves
• 9B → compacto, mas já fechando a lacuna com modelos muito maiores
E sim — também estamos lançando os modelos Base.
Esperamos que isso apoie melhor a pesquisa, a experimentação e a inovação industrial no mundo real.
Hugging Face:
ModelScope: