Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Thật sự ấn tượng với việc phát hành các mô hình nhỏ lai từ đội ngũ Qwen như thường lệ! Mọi người đang hỏi chúng so sánh về tốc độ, độ trễ và bộ nhớ như thế nào với LFMs của @liquidai cho việc triển khai trên thiết bị? Dưới đây là một số thông tin nhanh về hiệu suất trên Apple M3 Ultra: > LFM2.5-1.2B nhanh hơn 52% trong việc giải mã so với Qwen3.5-0.8B. > LFM2-700M nhanh hơn 71% so với Qwen3.5-0.8B trong việc giải mã > LFM2-2.6B có tốc độ tương đương với Qwen3.5-2B trong việc giải mã > LFM2-700M sử dụng ít bộ nhớ đỉnh hơn 46% so với Qwen3.5-0.8B > LFM2-2.6B sử dụng ít bộ nhớ đỉnh hơn 21% so với Qwen3.5-2B > lfms prefill với kích thước tham số tương tự thường nhanh hơn 12% so với Qwen3.5 Chúng tôi đã thiết kế dòng LFM2 với phương pháp thiết kế AI meta phần cứng trong vòng lặp cho phép chúng tôi tìm ra kiến trúc hiệu quả nhất cho một bộ xử lý nhất định mà không làm giảm chất lượng. Bài kiểm tra này được thực hiện trên Apple M3 Ultra, 512 GB bộ nhớ thống nhất Cấu hình: > 512 token nhắc, 128 token sinh, > 5 lần thử cho mỗi cấu hình > Khung: MLX (mlx-lm / mlx-vlm)

Hàng đầu

Thứ hạng

Yêu thích