Todella vaikuttava julkaisu Qwen-tiimin hybridipienistä malleista, kuten aina!
Ihmiset kysyvät, miten ne vertautuvat nopeudessa, viiveessä ja muistissa @liquidai:n LFM-laitteisiin laitekäyttöönotossa?
Tässä nopea profilointi Apple M3 Ultrasta:
> LFM2.5-1.2B on 52 % nopeampi dekoodauksessa kuin Qwen3.5-0.8B.
> LFM2-700M on 71 % nopeampi kuin Qwen3.5-0.8B dekoodauksessa
> LFM2-2.6B:llä on sama nopeus kuin Qwen3.5-2B:llä dekoodauksessa
> LFM2-700M käyttää 46 % vähemmän huippumuistia kuin Qwen3.5-0.8B
> LFM2-2.6B käyttää 21 % vähemmän huippumuistia kuin Qwen3.5-2B
> lfms-esitäyttö samalla parametrikoolla on yleensä 12 % nopeampi kuin Qwen3.5
Suunnittelimme LFM2-sarjan laitteistopohjaisella meta-AI-suunnittelumallillamme, jonka avulla voimme löytää tehokkaimman arkkitehtuurin tietylle prosessorille ilman laadun tinkimistä.
Tämä testi tehdään Apple M3 Ultralla, 512 GB yhtenäisellä muistilla
Konfiguraatio:
> 512 prompt-tokenia, 128 generation tokenia,
> 5 koetta per konfiguraatio
> Kehys: MLX (mlx-lm / mlx-vlm)
🚀 Qwen 3.5 Small Model -sarjan esittely
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Enemmän älykkyyttä, vähemmän laskentaa.
Nämä pienet mallit perustuvat samaan Qwen3.5-pohjaan — natiivimultimodaali, parannettu arkkitehtuuri, skaalautunut RL:
• 0,8B / 2B → pieni, nopea, erinomainen reunalaitteelle
• 4B → yllättävän vahva multimodaalinen pohja kevyille aineille
• 9B → kompakti, mutta jo kaventaa eroa paljon suurempiin malleihin
Ja kyllä — julkaisemme myös Base-mallit.
Toivomme, että tämä tukee paremmin tutkimusta, kokeilua ja todellista teollista innovaatiota.
Halauskasvot:
ModelScope: