Alibaba đã mở rộng dòng mô hình Qwen3.5 của mình với 3 mô hình mới - mô hình 27B là một mô hình nổi bật, đạt 42 điểm trên Chỉ số Trí tuệ Phân tích Nhân tạo và phù hợp với các mô hình trọng lượng mở gấp 8-25 lần kích thước của nó @Alibaba_Qwen đã mở rộng dòng Qwen3.5 với ba mẫu mới cùng với chiếc flagship 397B được phát hành vào đầu tháng này: Qwen3.5 27B (Dense, đạt 42 điểm trên Intelligence Index), Qwen3.5 122B A10B (MoE, 42) và Qwen3.5 35B A3B (MoE, 37). Hai mô hình MoE (Hỗn hợp các chuyên gia) chỉ kích hoạt một phần nhỏ trong tổng số thông số trên mỗi lần chuyển tiếp (lần lượt là 10B của 122B và ~ 3B của 35B). Chỉ số thông minh là số liệu tổng hợp của chúng tôi kết hợp 10 đánh giá bao gồm lý luận chung, nhiệm vụ tác nhân, mã hóa và lý luận khoa học. Tất cả các mô hình đều được cấp phép Apache 2.0, hỗ trợ ngữ cảnh 262K và quay trở lại kiến trúc kết hợp tư duy thống nhất / không suy nghĩ từ Qwen3 ban đầu, sau khi Alibaba chuyển sang các điểm kiểm tra Hướng dẫn và Lý luận riêng biệt với các bản cập nhật Qwen3 2507. Kết quả điểm chuẩn chính cho các biến thể suy luận: ➤ Qwen3.5 27B đạt 42 điểm về Chỉ số thông minh và là mô hình thông minh nhất dưới 230B. Mô hình gần nhất có kích thước tương tự là GLM-4.7-Flash (tổng cộng 31B, 3B hoạt động) đạt 30 điểm. Các mô hình trọng lượng mở có trí thông minh tương đương lớn hơn 8-25 lần về tổng thông số: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) và GLM-4.7 (357B, 42). Ở độ chính xác FP8, cần ~ 27GB để lưu trữ trọng lượng mô hình, trong khi ở lượng tử hóa 4 bit, bạn có thể sử dụng phần cứng chất lượng máy tính xách tay với RAM 16GB + ➤ Qwen3.5 27B đạt 1205 điểm trên GDPval-AA (Nhiệm vụ làm việc trong thế giới thực tác nhân), đặt nó cùng với các mô hình lớn hơn. Đối với ngữ cảnh, MiniMax-M2.5 đạt điểm 1206, GLM-4.7 (Lý luận) đạt 1200 điểm và DeepSeek V3.2 (Lý luận) đạt điểm 1194. Điều này đặc biệt đáng chú ý đối với mô hình tham số 27B và cho thấy khả năng tác nhân mạnh mẽ so với kích thước của nó. GDPval-AA thử nghiệm các mô hình trên các nhiệm vụ trong thế giới thực trên 44 ngành nghề và 9 ngành công nghiệp chính ➤ AA-Omniscience vẫn là một điểm yếu tương đối trong họ Qwen3.5, chủ yếu do độ chính xác thấp hơn là tỷ lệ ảo giác. Qwen3.5 27B đạt điểm -42 trên AA-Omniscience, tương đương với MiniMax-M2.5 (-40) nhưng đứng sau DeepSeek V3.2 (-21) và GLM-4.7 (-35). Mặc dù tỷ lệ ảo giác của Qwen3.5 27B (80%) thấp hơn so với các đồng nghiệp (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), độ chính xác của nó cũng thấp hơn ở mức 21% so với 34% đối với DeepSeek V3.2 và 29% đối với GLM-4.7. Đây có thể là hậu quả của kích thước mô hình - chúng tôi thường quan sát thấy rằng các mô hình có tổng tham số nhiều hơn hoạt động tốt hơn về độ chính xác trong AA-Omniscience, vì khả năng nhớ lại kiến thức rộng hơn được hưởng lợi từ số lượng tham số lớn hơn ➤ Qwen3.5 27B thông minh tương đương với Qwen3.5 122B A10B. 122B A10B là một mô hình Hỗn hợp các chuyên gia chỉ kích hoạt 10B trong tổng số 122B thông số của nó cho mỗi lần chuyển tiếp. Mô hình 27B dẫn đầu về GDPval-AA (1205 Elo so với 1145 Elo) và một chút trên TerminalBench (+1,5 pp), trong khi mô hình 122B dẫn đầu về SciCode (+2,5 pp), HLE (+1,2 pp) và có tỷ lệ ảo giác thấp hơn (Omniscience -40 so với -42) ➤ Qwen3.5 35B A3B (Reasoning, 37) là model thông minh nhất với các thông số hoạt động ~ 3B, hơn 7 điểm so với GLM-4.7-Flash (30). Các mẫu khác trong danh mục hoạt động ~ 3B này bao gồm Qwen3 Coder Next (tổng cộng 80B, 28), Qwen3 Next 80B A3B (27) và NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B đã sử dụng 98 triệu mã thông báo đầu ra để chạy Chỉ số thông minh, có giá ~ 299 đô la thông qua API đám mây của Alibaba. Đây là mức sử dụng token cao đáng chú ý so với các mô hình có trí thông minh tương tự: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) và thậm chí cả Qwen3.5 397B (86M) lớn hơn. Thông tin khác: ➤ Cửa sổ ngữ cảnh: 262K mã thông báo (có thể mở rộng lên 1 triệu thông qua YaRN) ➤ Giấy phép: Apache 2.0 ➤ Định giá API (Alibaba Cloud): 397 tỷ: 0,60 USD/3,60 USD, 122 tỷ: 0,40 USD/3,20 USD, 27B: 0,30 USD/2,40 USD, 35B A3B: 0,25 USD/2,00 USD cho mỗi 1 triệu token đầu vào/đầu ra
Qwen3.5 27B nổi bật với khả năng tác động ở kích thước mô hình của nó. Với Elo là 1205 trên GDPval-AA, nó tương đương với các mô hình có tổng số tham số lớn hơn từ 8-25 lần và chỉ kém flagship 397B (1208) 3 điểm mặc dù nhỏ hơn khoảng 14 lần.
Trong số các mô hình trọng số mở với tổng số tham số 40B hoặc ít hơn, Qwen3.5 27B và 35B A3B nổi bật là những người dẫn đầu rõ ràng trong Chỉ số Trí tuệ. Mô hình thông minh tiếp theo trong danh mục kích thước này là GLM-4.7-Flash (30)
So sánh toàn bộ gia đình Qwen3.5 với các mô hình hàng đầu khác tại: Kho lưu trữ Qwen3.5 27B trên HuggingFace:
3,57K