Справді вражаючий реліз гібридних крихітних моделей від команди Qwen, як завжди! Люди питають, як вони порівнюються за швидкістю, затримкою та пам'яттю з LFM @liquidai для розгортання на пристрої? Ось короткий опис Apple M3 Ultra: > LFM2.5-1.2B на 52% швидший у декодуванні, ніж Qwen3.5-0.8B. > LFM2-700M на 71% швидший за Qwen3.5-0.8B при декодуванні > LFM2-2.6B має таку ж швидкість декодування, як Qwen3.5-2B > LFM2-700M використовує на 46% менше пікової пам'яті, ніж Qwen3.5-0.8B > LFM2-2.6B використовує на 21% менше пікової пам'яті, ніж Qwen3.5-2B > попереднє заповнення LFM з тим самим розміром параметра зазвичай на 12% швидше, ніж Qwen3.5 Ми розробили серію LFM2 із нашим апаратним мета-AI підходом до дизайну з апаратним механізмом у циклі, що дозволяє нам знаходити найефективнішу архітектуру для конкретного процесора без втрати якості. Цей тест проводиться на Apple M3 Ultra, уніфікованій пам'яті об'ємом 512 ГБ Конфігурація: > 512 токенів prompt, 128 токенів генерації, > 5 випробувань у кожній конфігурації > Фреймворк: MLX (mlx-lm / mlx-vlm)