Действительно впечатляющий релиз гибридных мини-моделей от команды Qwen, как всегда! Люди спрашивают, как они сравниваются по скорости, задержке и памяти с LFMs от @liquidai для развертывания на устройствах? Вот краткий профиль на Apple M3 Ultra: > LFM2.5-1.2B на 52% быстрее в декодировании, чем Qwen3.5-0.8B. > LFM2-700M на 71% быстрее, чем Qwen3.5-0.8B в декодировании > LFM2-2.6B имеет такую же скорость, как Qwen3.5-2B в декодировании > LFM2-700M использует на 46% меньше пиковой памяти, чем Qwen3.5-0.8B > LFM2-2.6B использует на 21% меньше пиковой памяти, чем Qwen3.5-2B > lfms с одинаковым размером параметров в целом на 12% быстрее, чем Qwen3.5 Мы разработали серию LFM2 с нашим подходом к проектированию мета ИИ с аппаратным обеспечением в контуре, который позволяет нам находить наиболее эффективную архитектуру для данного процессора без ущерба для качества. Этот тест проведен на Apple M3 Ultra, 512 ГБ унифицированной памяти Конфигурация: > 512 токенов подсказки, 128 токенов генерации, > 5 испытаний на конфигурацию > Фреймворк: MLX (mlx-lm / mlx-vlm)