Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Phân tích độc lập các mô hình AI và nhà cung cấp dịch vụ lưu trữ - chọn mô hình và nhà cung cấp API tốt nhất cho trường hợp sử dụng của bạn
Alibaba đã mở rộng dòng mô hình Qwen3.5 của mình với 3 mô hình mới - mô hình 27B là một mô hình nổi bật, đạt 42 điểm trên Chỉ số Trí tuệ Phân tích Nhân tạo và phù hợp với các mô hình trọng lượng mở gấp 8-25 lần kích thước của nó
@Alibaba_Qwen đã mở rộng dòng Qwen3.5 với ba mẫu mới cùng với chiếc flagship 397B được phát hành vào đầu tháng này: Qwen3.5 27B (Dense, đạt 42 điểm trên Intelligence Index), Qwen3.5 122B A10B (MoE, 42) và Qwen3.5 35B A3B (MoE, 37). Hai mô hình MoE (Hỗn hợp các chuyên gia) chỉ kích hoạt một phần nhỏ trong tổng số thông số trên mỗi lần chuyển tiếp (lần lượt là 10B của 122B và ~ 3B của 35B). Chỉ số thông minh là số liệu tổng hợp của chúng tôi kết hợp 10 đánh giá bao gồm lý luận chung, nhiệm vụ tác nhân, mã hóa và lý luận khoa học.
Tất cả các mô hình đều được cấp phép Apache 2.0, hỗ trợ ngữ cảnh 262K và quay trở lại kiến trúc kết hợp tư duy thống nhất / không suy nghĩ từ Qwen3 ban đầu, sau khi Alibaba chuyển sang các điểm kiểm tra Hướng dẫn và Lý luận riêng biệt với các bản cập nhật Qwen3 2507.
Kết quả điểm chuẩn chính cho các biến thể suy luận:
➤ Qwen3.5 27B đạt 42 điểm về Chỉ số thông minh và là mô hình thông minh nhất dưới 230B. Mô hình gần nhất có kích thước tương tự là GLM-4.7-Flash (tổng cộng 31B, 3B hoạt động) đạt 30 điểm. Các mô hình trọng lượng mở có trí thông minh tương đương lớn hơn 8-25 lần về tổng thông số: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) và GLM-4.7 (357B, 42). Ở độ chính xác FP8, cần ~ 27GB để lưu trữ trọng lượng mô hình, trong khi ở lượng tử hóa 4 bit, bạn có thể sử dụng phần cứng chất lượng máy tính xách tay với RAM 16GB +
➤ Qwen3.5 27B đạt 1205 điểm trên GDPval-AA (Nhiệm vụ làm việc trong thế giới thực tác nhân), đặt nó cùng với các mô hình lớn hơn. Đối với ngữ cảnh, MiniMax-M2.5 đạt điểm 1206, GLM-4.7 (Lý luận) đạt 1200 điểm và DeepSeek V3.2 (Lý luận) đạt điểm 1194. Điều này đặc biệt đáng chú ý đối với mô hình tham số 27B và cho thấy khả năng tác nhân mạnh mẽ so với kích thước của nó. GDPval-AA thử nghiệm các mô hình trên các nhiệm vụ trong thế giới thực trên 44 ngành nghề và 9 ngành công nghiệp chính
➤ AA-Omniscience vẫn là một điểm yếu tương đối trong họ Qwen3.5, chủ yếu do độ chính xác thấp hơn là tỷ lệ ảo giác. Qwen3.5 27B đạt điểm -42 trên AA-Omniscience, tương đương với MiniMax-M2.5 (-40) nhưng đứng sau DeepSeek V3.2 (-21) và GLM-4.7 (-35). Mặc dù tỷ lệ ảo giác của Qwen3.5 27B (80%) thấp hơn so với các đồng nghiệp (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), độ chính xác của nó cũng thấp hơn ở mức 21% so với 34% đối với DeepSeek V3.2 và 29% đối với GLM-4.7. Đây có thể là hậu quả của kích thước mô hình - chúng tôi thường quan sát thấy rằng các mô hình có tổng tham số nhiều hơn hoạt động tốt hơn về độ chính xác trong AA-Omniscience, vì khả năng nhớ lại kiến thức rộng hơn được hưởng lợi từ số lượng tham số lớn hơn
➤ Qwen3.5 27B thông minh tương đương với Qwen3.5 122B A10B. 122B A10B là một mô hình Hỗn hợp các chuyên gia chỉ kích hoạt 10B trong tổng số 122B thông số của nó cho mỗi lần chuyển tiếp. Mô hình 27B dẫn đầu về GDPval-AA (1205 Elo so với 1145 Elo) và một chút trên TerminalBench (+1,5 pp), trong khi mô hình 122B dẫn đầu về SciCode (+2,5 pp), HLE (+1,2 pp) và có tỷ lệ ảo giác thấp hơn (Omniscience -40 so với -42)
➤ Qwen3.5 35B A3B (Reasoning, 37) là model thông minh nhất với các thông số hoạt động ~ 3B, hơn 7 điểm so với GLM-4.7-Flash (30). Các mẫu khác trong danh mục hoạt động ~ 3B này bao gồm Qwen3 Coder Next (tổng cộng 80B, 28), Qwen3 Next 80B A3B (27) và NVIDIA Nemotron 3 Nano 30B A3B (24)
➤ Qwen3.5 27B đã sử dụng 98 triệu mã thông báo đầu ra để chạy Chỉ số thông minh, có giá ~ 299 đô la thông qua API đám mây của Alibaba. Đây là mức sử dụng token cao đáng chú ý so với các mô hình có trí thông minh tương tự: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) và thậm chí cả Qwen3.5 397B (86M) lớn hơn.
Thông tin khác:
➤ Cửa sổ ngữ cảnh: 262K mã thông báo (có thể mở rộng lên 1 triệu thông qua YaRN)
➤ Giấy phép: Apache 2.0
➤ Định giá API (Alibaba Cloud): 397 tỷ: 0,60 USD/3,60 USD, 122 tỷ: 0,40 USD/3,20 USD, 27B: 0,30 USD/2,40 USD, 35B A3B: 0,25 USD/2,00 USD cho mỗi 1 triệu token đầu vào/đầu ra

3,56K
Kling 3.0 1080p (Pro) chiếm vị trí số 1 trong danh sách Text to Video cả với Âm thanh và Không có Âm thanh trong Arena Video Phân Tích Nhân Tạo, vượt qua Grok Imagine, Runway Gen-4.5 và Veo 3.1!
Trong danh sách Hình ảnh sang Video, Kling 3.0 1080p (Pro) đứng thứ 4 trong danh sách có Âm thanh và thứ 6 trong danh sách Không có Âm thanh, theo sau Grok Imagine và PixVerse V5.6.
Kling 3.0 là phiên bản mới nhất từ @Kling_ai, đại diện cho một bước nhảy vọt lớn từ các mô hình Kling 2.6 của họ. Mô hình có chất lượng 1080p (Pro) và 720p (Standard), hỗ trợ các thế hệ lên đến 15 giây cũng như tạo âm thanh gốc.
Kling cũng đã phát hành Kling 3.0 Omni, một mô hình đa phương thức mở rộng ra ngoài việc tạo video để hỗ trợ đầu vào hình ảnh và video, chỉnh sửa video, và tạo video trong một mô hình thống nhất. Kling 3.0 Omni 1080p (Pro) và Omni 720p (Standard) cũng hoạt động mạnh mẽ, với Omni 1080p (Pro) đứng thứ 2 trong danh sách Text to Video có Âm thanh và thứ 4 trong danh sách Không có Âm thanh.
Kling 3.0 có sẵn thông qua ứng dụng Kling AI và qua API trên @fal. Kling 3.0 1080p (Pro) có giá khoảng ~$13/phút không có âm thanh và ~$20/phút có âm thanh, trong khi 720p (Standard) có giá khoảng ~$10/phút và ~$15/phút tương ứng. Không có âm thanh, 1080p (Pro) tương đương với Veo 3.1 với giá $12/phút, mặc dù có mức giá cao hơn đáng kể so với Kling 2.5 Turbo và Grok Imagine với giá $4.20/phút.
Xem bên dưới để so sánh giữa Kling 3.0 1080p (Pro) và các mô hình hàng đầu khác trong Arena Video Phân Tích Nhân Tạo 🧵

144
Inception Labs đã ra mắt Mercury 2, thế hệ tiếp theo của Diffusion LLM sẵn sàng cho sản xuất. Mercury 2 đạt >1.000 token đầu ra/s với những cải tiến đáng kể về trí tuệ
Diffusion LLM của @_inception_ai (“dLLMs”) sử dụng một kiến trúc khác so với các LLM dựa trên autoregressive. Quy trình tạo ra Diffusion LLM bắt đầu với tiếng ồn và tinh chỉnh đầu ra theo từng bước bằng cách sử dụng một mô hình transformer có thể sửa đổi nhiều token song song. Điều này cho phép song song hóa việc tạo ra token đầu ra, cho phép tốc độ đầu ra nhanh hơn vì nhiều token đầu ra được tạo ra cùng một lúc.
Những điểm chính:
➤ Trong số các mô hình có kích thước/giá cả tương đương, Mercury 2 hoạt động cạnh tranh về trí tuệ so với tốc độ đầu ra. Mặc dù nó không có trí tuệ hàng đầu, nhưng tốc độ đầu ra của nó nhanh hơn hơn 3 lần so với mô hình nhanh nhất tiếp theo trong lớp này (các chỉ số dựa trên các điểm cuối của bên thứ nhất hoặc trung bình của các nhà cung cấp phục vụ mô hình khi không có điểm cuối của bên thứ nhất)
➤ Những điểm mạnh chính bao gồm lập trình agentic & sử dụng terminal và tuân theo hướng dẫn. Mercury 2 hoạt động ở mức tương tự như Claude 4.5 Haiku trên Terminal-Bench Hard và đạt 70% trên IFBench (Tuân theo Hướng dẫn), vượt trội hơn gpt-oss-120B, GPT-5.1 Codex mini và GPT-5 nano
Thông tin nền tảng về Inception Labs:
Đây là lần phát hành thứ hai từ Inception Labs. Các nhà sáng lập trước đây là giáo sư từ Stanford, UCLA và Cornell và đã đóng góp cho nghiên cứu & công nghệ AI bao gồm Flash Attention, Decision Transformers và Tối ưu hóa Sở thích Trực tiếp (DPO).
Xem bên dưới để phân tích thêm.

11,3K
Hàng đầu
Thứ hạng
Yêu thích
