Um engenheiro de pesquisa em ML/full-stack, que trabalha principalmente com AI, LLM e MLX. @JohnMai_Dev conseguiu realizar a inferência do modelo Qwen3.5-0.8B no chip Apple M1 Pro em 3 de março de 2026, utilizando diretamente o Apple Neural Engine (ANE). Baseado em um projeto de código aberto: um trabalho inovador que chama diretamente o Apple Neural Engine para treinamento e inferência, onde muitas pessoas pensavam que a Apple não abria o ANE para treinamento/inferência completos. Anteriormente, o ANE era usado principalmente para inferência do CoreML embutido no sistema, e era difícil para terceiros chamá-lo de forma eficiente. Agora, através do maderix/ANE, é possível usar o ANE para realizar a inferência direta de grandes modelos modernos (até mesmo algumas pessoas já estão fazendo treinamento de backprop). E com o modelo pequeno de 0.8B lançado pela Qwen + ANE = consumo de energia extremamente baixo, velocidade razoável e total privacidade local. O M1 Pro consegue rodar, o que significa que muitos usuários de Macs antigos (séries M1/M2) de repente têm uma opção de acelerador de AI muito eficiente, que consome menos energia e é mais rápido do que usar apenas GPU/CPU. A combinação do ANE transforma o Mac em uma estação de trabalho de AI local barata, permitindo que máquinas Apple mais antigas utilizem modelos grandes modernos em chinês (Qwen3.5 0.8B) para inferência, abrindo as portas para novas maneiras de fazer AI localmente e de forma eficiente.