Qwen团队如往常一样,发布了令人印象深刻的混合小型模型! 人们在问它们在速度、延迟和内存方面与@liquidai的LFM在设备上的部署相比如何? 以下是在Apple M3 Ultra上的快速分析: > LFM2.5-1.2B在解码速度上比Qwen3.5-0.8B快52%。 > LFM2-700M在解码上比Qwen3.5-0.8B快71%。 > LFM2-2.6B在解码速度上与Qwen3.5-2B相同。 > LFM2-700M的峰值内存使用量比Qwen3.5-0.8B少46%。 > LFM2-2.6B的峰值内存使用量比Qwen3.5-2B少21%。 > 相同参数大小的lfms预填充通常比Qwen3.5快12%。 我们采用硬件在环的元AI设计方法设计了LFM2系列,这使我们能够在不牺牲质量的情况下找到适合特定处理器的最有效架构。 此测试在Apple M3 Ultra上进行,512 GB统一内存。 配置: > 512个提示令牌,128个生成令牌, > 每个配置进行5次试验。 > 框架:MLX (mlx-lm / mlx-vlm)