Một kỹ sư nghiên cứu toàn diện/ML, chủ yếu làm các thứ liên quan đến AI, LLM, MLX @JohnMai_Dev đã thành công trong việc thực hiện suy diễn (inference) mô hình Qwen3.5-0.8B trên chip M1 Pro của Apple vào ngày 3 tháng 3 năm 2026, và điều này được thực hiện trực tiếp bằng cách sử dụng Apple Neural Engine (ANE). Dựa trên dự án mã nguồn mở: Công việc đột phá trong việc gọi trực tiếp Apple Neural Engine để thực hiện đào tạo và suy diễn, trước đây nhiều người nghĩ rằng Apple không mở ANE để thực hiện đào tạo/suy diễn hoàn chỉnh. Trước đây, ANE chủ yếu chỉ được sử dụng cho suy diễn CoreML tích hợp sẵn trong hệ thống, rất khó để bên thứ ba gọi một cách hiệu quả, nhưng giờ đây thông qua maderix/ANE, có thể sử dụng ANE để thực hiện suy diễn tiến về phía trước của các mô hình lớn hiện đại (thậm chí có người đã bắt đầu thực hiện đào tạo backprop). Và với mô hình nhỏ như Qwen 0.8B + ANE = tiêu thụ điện năng cực thấp, tốc độ khá ổn, hoàn toàn bảo mật tại chỗ. M1 Pro có thể chạy, điều này có nghĩa là một lượng lớn người dùng Mac cũ (dòng M1/M2) bỗng dưng có thêm một tùy chọn tăng tốc AI rất hiệu quả, tiết kiệm điện hơn và nhanh hơn so với chỉ sử dụng GPU/CPU. Sự kết hợp của Ane đã biến Mac thành một trạm làm việc AI địa phương giá rẻ, các máy Mac cũ của Apple đều có thể sử dụng mô hình lớn tiếng Trung hiện đại (Qwen3.5 0.8B) để suy diễn, mở ra cánh cửa cho một cách chơi AI hiệu quả mới trên Mac.