DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Artificial Analysis

Onafhankelijke analyse van AI-modellen en hostingproviders - kies het beste model en de beste API-provider voor uw use-case

Alibaba heeft zijn Qwen3.5 modelfamilie uitgebreid met 3 nieuwe modellen - het 27B model is een uitblinker, met een score van 42 op de Artificial Analysis Intelligence Index en het evenaart open gewichten modellen die 8-25x zijn grootte @Alibaba_Qwen heeft de Qwen3.5 familie uitgebreid met drie nieuwe modellen naast de 397B vlaggenschip die eerder deze maand is uitgebracht: de Qwen3.5 27B (Dense, score 42 op de Intelligence Index), Qwen3.5 122B A10B (MoE, 42), en Qwen3.5 35B A3B (MoE, 37). De twee MoE (Mixture-of-Experts) modellen activeren slechts een fractie van de totale parameters per forward pass (10B van 122B en ~3B van 35B respectievelijk). De Intelligence Index is onze synthese-metric die 10 evaluaties omvat die algemene redenering, agenttaken, codering en wetenschappelijke redenering dekt. Alle modellen zijn gelicentieerd onder Apache 2.0, ondersteunen van nature 262K context en keren terug naar de verenigde denken/niet-denken hybride architectuur van de originele Qwen3, nadat Alibaba was overgestapt naar gescheiden Instruct en Reasoning checkpoints met de Qwen3 2507 updates. Belangrijke benchmarkresultaten voor de redeneringsvarianten: ➤ Qwen3.5 27B scoort 42 op de Intelligence Index en is het meest intelligente model onder de 230B. Het dichtstbijzijnde model van vergelijkbare grootte is GLM-4.7-Flash (31B totaal, 3B actief) dat 30 scoort. Open gewichten modellen van equivalente intelligentie zijn 8-25x groter in termen van totale parameters: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42), en GLM-4.7 (357B, 42). In FP8 precisie kost het ~27GB om de modelgewichten op te slaan, terwijl je in 4-bit kwantisatie laptopkwaliteit hardware kunt gebruiken met 16GB+ RAM ➤ Qwen3.5 27B scoort 1205 op GDPval-AA (Agentic Real-World Work Tasks), wat het naast grotere modellen plaatst. Ter context, MiniMax-M2.5 scoort 1206, GLM-4.7 (Reasoning) scoort 1200, en DeepSeek V3.2 (Reasoning) scoort 1194. Dit is bijzonder opmerkelijk voor een model met 27B parameters en suggereert sterke agentcapaciteit voor zijn grootte. GDPval-AA test modellen op real-world taken in 44 beroepen en 9 belangrijke industrieën ➤ AA-Omniscience blijft een relatieve zwakte binnen de Qwen3.5 familie, voornamelijk gedreven door lagere nauwkeurigheid in plaats van hallucinatietarief. Qwen3.5 27B scoort -42 op AA-Omniscience, vergelijkbaar met MiniMax-M2.5 (-40) maar achter DeepSeek V3.2 (-21) en GLM-4.7 (-35). Hoewel het hallucinatietarief van Qwen3.5 27B (80%) lager is dan dat van peers (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), is de nauwkeurigheid ook lager met 21% versus 34% voor DeepSeek V3.2 en 29% voor GLM-4.7. Dit is waarschijnlijk een gevolg van de modelgrootte - we hebben over het algemeen waargenomen dat modellen met meer totale parameters beter presteren op nauwkeurigheid in AA-Omniscience, aangezien bredere kennisherinnering profiteert van grotere parameteraantallen ➤ Qwen3.5 27B is even intelligent als Qwen3.5 122B A10B. De 122B A10B is een Mixture-of-Experts model dat slechts 10B van zijn 122B totale parameters per forward pass activeert. Het 27B model leidt in GDPval-AA (1205 Elo versus 1145 Elo) en iets op TerminalBench (+1.5 p.p.), terwijl het 122B model leidt op SciCode (+2.5 p.p.), HLE (+1.2 p.p.), en een lager hallucinatietarief heeft (Omniscience -40 versus -42) ➤ Qwen3.5 35B A3B (Reasoning, 37) is het meest intelligente model met ~3B actieve parameters, 7 punten voor op GLM-4.7-Flash (30). Andere modellen in deze ~3B actieve categorie zijn Qwen3 Coder Next (80B totaal, 28), Qwen3 Next 80B A3B (27), en NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B gebruikte 98M outputtokens om de Intelligence Index te draaien, wat ~$299 kost via de Alibaba Cloud API. Dit is opmerkelijk hoog tokenverbruik vergeleken met modellen van vergelijkbare intelligentie: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M), en zelfs het grotere Qwen3.5 397B (86M). Andere informatie: ➤ Contextvenster: 262K tokens (uitbreidbaar tot 1M via YaRN) ➤ Licentie: Apache 2.0 ➤ API-prijzen (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 per 1M input/output tokens

Boven

Positie

Favorieten