Wirklich beeindruckende Veröffentlichung von hybriden Mini-Modellen vom Qwen-Team, wie immer!
Die Leute fragen, wie sie sich in Bezug auf Geschwindigkeit, Latenz und Speicher im Vergleich zu @liquidai’s LFMs für die Bereitstellung auf Geräten schlagen?
Hier ist ein schnelles Profiling auf dem Apple M3 Ultra:
> LFM2.5-1.2B ist 52% schneller im Dekodieren als das Qwen3.5-0.8B.
> LFM2-700M ist 71% schneller als Qwen3.5-0.8B beim Dekodieren
> LFM2-2.6B hat die gleiche Geschwindigkeit wie Qwen3.5-2B beim Dekodieren
> LFM2-700M benötigt 46% weniger Spitzen-Speicher als Qwen3.5-0.8B
> LFM2-2.6B benötigt 21% weniger Spitzen-Speicher als Qwen3.5-2B
> lfms prefill mit der gleichen Parametergröße ist im Allgemeinen 12% schneller als Qwen3.5
Wir haben die LFM2-Serie mit unserem Hardware-in-the-Loop-Meta-AI-Designansatz entwickelt, der es uns ermöglicht, die effizienteste Architektur für einen bestimmten Prozessor zu finden, ohne die Qualität zu opfern.
Dieser Test wurde auf dem Apple M3 Ultra mit 512 GB einheitlichem Speicher durchgeführt
Konfiguration:
> 512 Eingabe-Tokens, 128 Generierungs-Tokens,
> 5 Versuche pro Konfiguration
> Framework: MLX (mlx-lm / mlx-vlm)
🚀 Einführung der Qwen 3.5 Small Model Series
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Mehr Intelligenz, weniger Rechenleistung.
Diese kleinen Modelle basieren auf dem gleichen Qwen3.5 Fundament — nativ multimodal, verbesserte Architektur, skalierte RL:
• 0.8B / 2B → klein, schnell, ideal für Edge-Geräte
• 4B → eine überraschend starke multimodale Basis für leichte Agenten
• 9B → kompakt, schließt aber bereits die Lücke zu viel größeren Modellen
Und ja — wir veröffentlichen auch die Basis-Modelle.
Wir hoffen, dass dies die Forschung, Experimente und industrielle Innovation in der realen Welt besser unterstützt.
Hugging Face:
ModelScope: