Virkelig imponerende lansering av hybride små modeller fra Qwen-teamet som alltid!
Folk spør hvordan de sammenlignes i hastighet, latens og minne med @liquidai LFM-er for distribusjon på enheten?
Her er en rask presentasjon av Apple M3 Ultra:
> LFM2.5-1.2B er 52 % raskere i dekoding enn Qwen3.5-0.8B.
> LFM2-700M er 71 % raskere enn Qwen3.5-0.8B ved dekoding
> LFM2-2.6B har samme hastighet som Qwen3.5-2B ved dekoding
> LFM2-700M bruker 46 % mindre toppminne enn Qwen3.5-0.8B
> LFM2-2.6B bruker 21 % mindre toppminne enn Qwen3.5-2B
> lfms-prefill med samme parameterstørrelse er vanligvis 12 % raskere enn Qwen3.5
Vi designet LFM2-serien med vår hardware-in-the-loop meta-AI-designtilnærming som lar oss finne den mest effektive arkitekturen for en gitt prosessor uten kvalitetsofre.
Denne testen utføres på Apple M3 Ultra, 512 GB samlet minne
Konfigurasjon:
> 512 prompt-tokens, 128 generasjonstokens,
> 5 forsøk per konfigurasjon
> Rammeverk: MLX (mlx-lm / mlx-vlm)
🚀 Introduksjon av Qwen 3.5 Small Model Series
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Mer intelligens, mindre beregning.
Disse små modellene er bygget på samme Qwen3.5-grunnlag — native multimodal, forbedret arkitektur, skalert RL:
• 0,8B / 2B → liten, rask, flott for edge-enheter
• 4B → en overraskende sterk multimodal base for lette agenter
• 9B → kompakt, men lukker allerede gapet med mye større modeller
Og ja — vi slipper også basismodellene.
Vi håper dette bedre støtter forskning, eksperimentering og industriell innovasjon i den virkelige verden.
Klemmeansikt:
ModelScope: