DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Artificial Analysis

Oberoende analys av AI-modeller och hostingleverantörer - välj den bästa modellen och API-leverantören för ditt användningsfall

Alibaba har utökat sin Qwen3.5-modellfamilj med 3 nya modeller – 27B-modellen är en utmärkelse, med 42 poäng på Artificial Analysis Intelligence Index och matchar öppna viktmodeller 8–25 gånger sin storlek @Alibaba_Qwen har utökat Qwen3.5-familjen med tre nya modeller tillsammans med flaggskeppet 397B som släpptes tidigare denna månad: Qwen3.5 27B (Dense, med 42 poäng på Intelligence Index), Qwen3.5 122B A10B (MoE, 42) och Qwen3.5 35B A3B (MoE, 37). De två MoE (Mixture-of-Experts)-modellerna aktiverar endast en bråkdel av de totala parametrarna per framåtpassning (10B av 122B respektive ~3B av 35B). Intelligensindexet är vårt syntesmått som inkluderar 10 utvärderingar som täcker allmänt resonemang, agentiska uppgifter, kodning och vetenskapligt resonemang. Alla modeller är Apache 2.0-licensierade, stöder inbyggt 262K-kontext och återgår till den hybridarkitekturen för enhetligt tänkande/icke-tänkande från ursprungliga Qwen3, efter att Alibaba gick över till separata kontrollpunkter för Instruct och Reasoning med Qwen3 2507-uppdateringarna. Viktiga benchmarkingresultat för resonemangsvarianterna: ➤ Qwen3.5 27B får 42 på Intelligence Index och är den mest intelligenta modellen under 230B. Den närmaste modellen av liknande storlek är GLM-4.7-Flash (totalt 31 miljarder, 3 miljarder aktiva) som får 30 poäng. Öppna viktmodeller med ekvivalent intelligens är 8–25 gånger större i termer av totala parametrar: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) och GLM-4.7 (357B, 42). I FP8 Precision krävs ~27GB för att lagra modellvikterna, medan du i 4-bitars kvantisering kan använda laptop-kvalitetshårdvara med 16GB+ RAM ➤ Qwen3.5 27B får 1205 poäng på GDPval-AA (Agentic Real-World Work Tasks), vilket placerar det bland större modeller. För kontext får MiniMax-M2.5 1206, GLM-4.7 (Resonemang) 1200 och DeepSeek V3.2 (Resonemang) 1194. Detta är särskilt anmärkningsvärt för en 27B-parametermodell och antyder stark agentisk kapacitet för dess storlek. GDPval-AA testar modeller på verkliga uppgifter inom 44 yrken och 9 stora industrier ➤ AA-Allvetande är fortfarande en relativ svaghet inom Qwen3.5-familjen, främst driven av lägre noggrannhet snarare än hallucinationsfrekvens. Qwen3.5 27B får -42 på AA-Omniscience, jämförbart med MiniMax-M2.5 (-40) men ligger bakom DeepSeek V3.2 (-21) och GLM-4.7 (-35). Även om Qwen3.5 27B:s hallucinationsfrekvens (80 %) är lägre än jämförbara (GLM-4,7 90 %, MiniMax 89 %, DeepSeek 82 %), är dess noggrannhet också lägre med 21 % jämfört med 34 % för DeepSeek V3,2 och 29 % för GLM-4,7. Detta är sannolikt en följd av modellstorleken – vi har generellt observerat att modeller med fler totala parametrar presterar bättre på noggrannhet i AA-Omniscience, eftersom bredare kunskapsinkallning gynnas av större parameterantal ➤ Qwen3.5 27B är likvärdigt intelligent som Qwen3.5 122B A10B. 122B A10B är en Mixture-of-Experts-modell som endast aktiverar 10B av sina totala 122B parametrar per framåtpass. 27B-modellen leder i GDPval-AA (1205 Elo mot 1145 Elo) och något på TerminalBench (+1,5 p.p.), medan 122B-modellen leder på SciCode (+2,5 p.p.), HLE (+1,2 p.p.) och har en lägre hallucinationsfrekvens (Omniscience -40 vs -42) ➤ Qwen3.5 35B A3B (Reasoning, 37) är den mest intelligenta modellen med ~3B aktiva parametrar, 7 poäng före GLM-4.7-Flash (30). Andra modeller i denna ~3B aktiva kategori inkluderar Qwen3 Coder Next (totalt 80 miljarder, 28), Qwen3 Next 80B A3B (27) och NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B använde 98 miljoner utdatatoken för att köra Intelligence Index, vilket kostade ~299 dollar via Alibaba Cloud API. Detta är anmärkningsvärt hög tokenanvändning jämfört med modeller med liknande intelligens: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) och till och med den större Qwen3.5 397B (86M). Övrig information: ➤ Kontextfönster: 262K tokens (kan utökas till 1M via YaRN) ➤ Licens: Apache 2.0 ➤ API-prissättning (Alibaba Cloud): 397B: $0,60/$3,60, 122B: $0,40/$3,20, 27B: $0,30/$2,40, 35B A3B: $0,25/$2,00 per 1 miljon in-/utmatningstoken

Topp

Rankning

Favoriter