Un ingegnere di ricerca full-stack/ML, che si occupa principalmente di AI, LLM e MLX. @JohnMai_Dev ha realizzato con successo l'inferenza del modello Qwen3.5-0.8B sul chip Apple M1 Pro il 3 marzo 2026, utilizzando direttamente l'Apple Neural Engine (ANE). Basato su un progetto open source: un lavoro innovativo che chiama direttamente l'Apple Neural Engine per l'addestramento e l'inferenza, prima molti pensavano che Apple non aprisse l'ANE per un addestramento/inferenza completo. In passato, l'ANE era principalmente utilizzato per l'inferenza di CoreML integrato nel sistema, ed era difficile per i terzi chiamarlo in modo diretto ed efficiente. Ora, grazie a maderix/ANE, è possibile utilizzare direttamente l'ANE per l'inferenza in avanti di moderni grandi modelli (alcuni stanno già facendo addestramento backprop). E basato sul modello piccolo 0.8B lanciato da Qwen + ANE = consumo energetico estremamente basso, velocità abbastanza buona, privacy completamente locale. L'M1 Pro può eseguirlo, il che significa che un gran numero di vecchi utenti Mac (serie M1/M2) ha improvvisamente un'opzione di accelerazione AI molto efficiente, più economica in termini di energia e più veloce rispetto all'uso solo di GPU/CPU. La combinazione di ANE trasforma completamente il Mac in una stazione di lavoro AI locale economica; anche le vecchie macchine Apple possono eseguire l'inferenza di moderni grandi modelli cinesi (Qwen3.5 0.8B), aprendo la porta a nuove modalità di AI locale e efficiente su Mac.