Rilis model kecil hibrida yang benar-benar mengesankan dari tim Qwen seperti biasa!
Orang-orang bertanya bagaimana mereka membandingkan kecepatan, latensi, dan memori dengan LFM @liquidai untuk penerapan di perangkat?
Berikut adalah profil singkat tentang Apple M3 Ultra:
> LFM2.5-1.2B 52% lebih cepat dalam dekode daripada Qwen3.5-0.8B.
> LFM2-700M 71% lebih cepat daripada Qwen3.5-0.8B pada dekode
> LFM2-2.6B memiliki kecepatan yang sama dengan Qwen3.5-2B pada dekode
> LFM2-700M menggunakan memori puncak 46% lebih sedikit daripada Qwen3.5-0.8B
> LFM2-2.6B menggunakan memori puncak 21% lebih sedikit daripada Qwen3.5-2B
> prefill lfms dengan ukuran parameter yang sama umumnya 12% lebih cepat daripada Qwen3.5
Kami merancang seri LFM2 dengan pendekatan desain meta AI hardware-in-the-loop kami yang memungkinkan kami menemukan arsitektur paling efisien untuk prosesor tertentu tanpa pengorbanan kualitas.
Pengujian ini dilakukan pada Apple M3 Ultra, memori terpadu 512 GB
Konfigurasi:
> 512 token prompt, 128 token generasi,
> 5 uji coba per konfigurasi
Kerangka >: MLX (mlx-lm / mlx-vlm)
🚀 Memperkenalkan Seri Model Kecil Qwen 3.5
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Lebih banyak kecerdasan, lebih sedikit komputasi.
Model-model kecil ini dibangun di atas fondasi Qwen3.5 yang sama — multimoda asli, arsitektur yang ditingkatkan, RL berskala:
• 0.8B / 2B → kecil, cepat, bagus untuk perangkat tepi
• 4B → basis multimoda yang sangat kuat untuk agen ringan
• 9B → kompak, tetapi sudah menutup celah dengan model yang jauh lebih besar
Dan ya — kami juga merilis model Base juga.
Kami berharap ini lebih mendukung penelitian, eksperimen, dan inovasi industri dunia nyata.
Wajah Memeluk:
Ruang lingkup model: