Qwen 團隊如往常般推出的混合小型模型真是令人印象深刻! 人們在詢問它們在速度、延遲和記憶體方面與 @liquidai 的 LFM 在設備上部署的比較如何? 這裡是 Apple M3 Ultra 的快速分析: > LFM2.5-1.2B 在解碼上比 Qwen3.5-0.8B 快 52%。 > LFM2-700M 在解碼上比 Qwen3.5-0.8B 快 71%。 > LFM2-2.6B 在解碼上與 Qwen3.5-2B 的速度相同。 > LFM2-700M 的峰值記憶體使用量比 Qwen3.5-0.8B 少 46%。 > LFM2-2.6B 的峰值記憶體使用量比 Qwen3.5-2B 少 21%。 > 相同參數大小的 lfms 預填通常比 Qwen3.5 快 12%。 我們使用硬體迴路的元 AI 設計方法設計了 LFM2 系列,這使我們能夠在不犧牲質量的情況下找到針對特定處理器的最有效架構。 這項測試是在 Apple M3 Ultra 上進行的,擁有 512 GB 的統一記憶體。 配置: > 512 個提示標記,128 個生成標記, > 每個配置進行 5 次試驗。 > 框架:MLX (mlx-lm / mlx-vlm)