Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Rilascio davvero impressionante di modelli ibridi tiny dal team Qwen, come sempre!
Le persone chiedono come si confrontano in termini di velocità, latenza e memoria con i LFMs di @liquidai per il deployment su dispositivo?
Ecco un rapido profiling su Apple M3 Ultra:
> LFM2.5-1.2B è il 52% più veloce in decodifica rispetto al Qwen3.5-0.8B.
> LFM2-700M è il 71% più veloce del Qwen3.5-0.8B in decodifica
> LFM2-2.6B ha la stessa velocità del Qwen3.5-2B in decodifica
> LFM2-700M utilizza il 46% in meno di memoria di picco rispetto al Qwen3.5-0.8B
> LFM2-2.6B utilizza il 21% in meno di memoria di picco rispetto al Qwen3.5-2B
> gli lfms prefill con la stessa dimensione dei parametri sono generalmente il 12% più veloci del Qwen3.5
Abbiamo progettato la serie LFM2 con il nostro approccio di design meta AI hardware-in-the-loop che ci consente di scoprire l'architettura più efficiente per un dato processore senza sacrificare la qualità.
Questo test è stato eseguito su Apple M3 Ultra, 512 GB di memoria unificata
Configurazione:
> 512 token di prompt, 128 token di generazione,
> 5 prove per configurazione
> Framework: MLX (mlx-lm / mlx-vlm)

Principali
Ranking
Preferiti
