Действительно впечатляющий релиз гибридных мини-моделей от команды Qwen, как всегда!
Люди спрашивают, как они сравниваются по скорости, задержке и памяти с LFMs от @liquidai для развертывания на устройствах?
Вот краткий профиль на Apple M3 Ultra:
> LFM2.5-1.2B на 52% быстрее в декодировании, чем Qwen3.5-0.8B.
> LFM2-700M на 71% быстрее, чем Qwen3.5-0.8B в декодировании
> LFM2-2.6B имеет такую же скорость, как Qwen3.5-2B в декодировании
> LFM2-700M использует на 46% меньше пиковой памяти, чем Qwen3.5-0.8B
> LFM2-2.6B использует на 21% меньше пиковой памяти, чем Qwen3.5-2B
> lfms с одинаковым размером параметров в целом на 12% быстрее, чем Qwen3.5
Мы разработали серию LFM2 с нашим подходом к проектированию мета ИИ с аппаратным обеспечением в контуре, который позволяет нам находить наиболее эффективную архитектуру для данного процессора без ущерба для качества.
Этот тест проведен на Apple M3 Ultra, 512 ГБ унифицированной памяти
Конфигурация:
> 512 токенов подсказки, 128 токенов генерации,
> 5 испытаний на конфигурацию
> Фреймворк: MLX (mlx-lm / mlx-vlm)