Todella vaikuttava julkaisu Qwen-tiimin hybridipienistä malleista, kuten aina!
Ihmiset kysyvät, miten ne vertautuvat nopeudessa, viiveessä ja muistissa @liquidai:n LFM-laitteisiin laitekäyttöönotossa?
Tässä nopea profilointi Apple M3 Ultrasta:
> LFM2.5-1.2B on 52 % nopeampi dekoodauksessa kuin Qwen3.5-0.8B.
> LFM2-700M on 71 % nopeampi kuin Qwen3.5-0.8B dekoodauksessa
> LFM2-2.6B:llä on sama nopeus kuin Qwen3.5-2B:llä dekoodauksessa
> LFM2-700M käyttää 46 % vähemmän huippumuistia kuin Qwen3.5-0.8B
> LFM2-2.6B käyttää 21 % vähemmän huippumuistia kuin Qwen3.5-2B
> lfms-esitäyttö samalla parametrikoolla on yleensä 12 % nopeampi kuin Qwen3.5
Suunnittelimme LFM2-sarjan laitteistopohjaisella meta-AI-suunnittelumallillamme, jonka avulla voimme löytää tehokkaimman arkkitehtuurin tietylle prosessorille ilman laadun tinkimistä.
Tämä testi tehdään Apple M3 Ultralla, 512 GB yhtenäisellä muistilla
Konfiguraatio:
> 512 prompt-tokenia, 128 generation tokenia,
> 5 koetta per konfiguraatio
> Kehys: MLX (mlx-lm / mlx-vlm)