DApp Store | Web3 Hub for hendelser og spill

Populære emner

Artificial Analysis

Uavhengig analyse av AI-modeller og vertsleverandører - velg den beste modellen og API-leverandøren for ditt bruksområde

Alibaba har utvidet sin Qwen3.5-modellfamilie med 3 nye modeller – 27B-modellen skiller seg ut, med 42 poeng på Artificial Analysis Intelligence Index og matcher åpne vektmodeller 8-25 ganger sin størrelse @Alibaba_Qwen har utvidet Qwen3.5-familien med tre nye modeller i tillegg til flaggskipet 397B som ble lansert tidligere denne måneden: Qwen3.5 27B (Dense, med 42 på Intelligence Index), Qwen3.5 122B A10B (MoE, 42), og Qwen3.5 35B A3B (MoE, 37). De to MoE (Mixture-of-Experts)-modellene aktiverer bare en brøkdel av de totale parameterne per fremoverpass (henholdsvis 10B av 122B og ~3B av 35B). Intelligensindeksen er vår syntese-metrikk som inkluderer 10 evalueringer som dekker generell resonnering, agentiske oppgaver, koding og vitenskapelig resonnement. Alle modellene er Apache 2.0-lisensierte, støtter 262K-kontekst nativt, og går tilbake til den enhetlige tenkning/ikke-tenkende hybridarkitekturen fra den opprinnelige Qwen3, etter at Alibaba gikk over til separate Instruct- og Reasoning-sjekkpunkter med Qwen3 2507-oppdateringene. Viktige benchmarkingresultater for resonnementvariantene: ➤ Qwen3.5 27B scorer 42 på Intelligence Index og er den mest intelligente modellen under 230B. Den nærmeste modellen av lignende størrelse er GLM-4.7-Flash (31B totalt, 3B aktiv) som scorer 30. Åpne vektmodeller med ekvivalent intelligens er 8–25 ganger større når det gjelder totale parametere: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) og GLM-4.7 (357B, 42). I FP8 Precision tar det ~27GB å lagre modellvektene, mens du i 4-bits kvantisering kan bruke maskinvare av laptopkvalitet med 16GB+ RAM ➤ Qwen3.5 27B scorer 1205 på GDPval-AA (Agentic Real-World Work Tasks), noe som plasserer den sammen med større modeller. For kontekst scorer MiniMax-M2.5 1206, GLM-4.7 (Resonnering) 1200, og DeepSeek V3.2 (Resonnement) 1194. Dette er spesielt bemerkelsesverdig for en 27B-parametermodell og antyder sterk agentisk kapasitet for sin størrelse. GDPval-AA tester modeller på virkelige oppgaver på tvers av 44 yrker og 9 store industrier ➤ AA-Omniscience forblir en relativ svakhet i Qwen3.5-familien, drevet hovedsakelig av lavere nøyaktighet snarere enn hallusinasjonsrate. Qwen3.5 27B scorer -42 på AA-Omniscience, sammenlignbart med MiniMax-M2.5 (-40), men bak DeepSeek V3.2 (-21) og GLM-4.7 (-35). Selv om hallusinasjonsraten til Qwen3.5 27B (80 %) er lavere enn jevnaldrende (GLM-4,7 90 %, MiniMax 89 %, DeepSeek 82 %), er også nøyaktigheten lavere med 21 % mot 34 % for DeepSeek V3.2 og 29 % for GLM-4,7. Dette er sannsynligvis en konsekvens av modellstørrelsen – vi har generelt observert at modeller med flere totale parametere presterer bedre på nøyaktighet i AA-Omniscience, ettersom bredere kunnskapsgjenkalling drar nytte av større parametertall ➤ Qwen3.5 27B er tilsvarende intelligent som Qwen3.5 122B A10B. 122B A10B er en Mixture-of-Experts-modell som kun aktiverer 10B av sine 122B totale parametere per fremoverpass. 27B-modellen leder i GDPval-AA (1205 Elo mot 1145 Elo) og litt på TerminalBench (+1,5 p.p.), mens 122B-modellen leder på SciCode (+2,5 p.p.), HLE (+1,2 p.p.), og har lavere hallusinasjonsrate (Omniscience -40 vs -42) ➤ Qwen3.5 35B A3B (Reasoning, 37) er den mest intelligente modellen med ~3B aktive parametere, 7 poeng foran GLM-4.7-Flash (30). Andre modeller i denne ~3B aktive kategorien inkluderer Qwen3 Coder Next (80B totalt, 28), Qwen3 Next 80B A3B (27), og NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B brukte 98 millioner utdatatokens for å kjøre Intelligence Index, som kostet ~$299 via Alibaba Cloud API. Dette er bemerkelsesverdig høy tokenbruk sammenlignet med modeller med lignende intelligens: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M), og til og med den større Qwen3.5 397B (86M). Annen informasjon: ➤ Kontekstvindu: 262K tokens (kan utvides til 1M via YaRN) ➤ Lisens: Apache 2.0 ➤ API-pris (Alibaba Cloud): 397B: $0,60/$3,60, 122B: $0,40/$3,20, 27B: $0,30/$2,40, 35B A3B: $0,25/$2,00 per 1M input/output-tokens

Topp

Rangering

Favoritter