DApp Store | Centrum Web3 pro události a hry

Populární témata

Artificial Analysis

Nezávislá analýza modelů AI a poskytovatelů hostingu - vyberte si nejlepší model a poskytovatele API pro váš případ použití

Alibaba rozšířila svou modelovou rodinu Qwen3.5 o 3 nové modely – model 27B vyniká s 42. bodem v Indexu umělé analýzy inteligence a odpovídá otevřeným modelům 8–25x větší velikosti @Alibaba_Qwen rozšířil rodinu Qwen3.5 o tři nové modely vedle vlajkové lodi 397B, která byla uvedena začátkem tohoto měsíce: Qwen3.5 27B (Dense, skóre 42 v indexu inteligence), Qwen3.5 122B A10B (MoE, 42) a Qwen3.5 35B A3B (MoE, 37). Oba modely MoE (Mixture-of-Expert) aktivují pouze zlomek celkových parametrů na jeden průchod vpřed (10B z 122B a ~3B z 35B). Index inteligence je naše syntetická metrika, která zahrnuje 10 hodnocení pokrývajících obecné uvažování, agentické úkoly, programování a vědecké uvažování. Všechny modely jsou licencovány na Apache 2.0, nativně podporují 262K kontext a vracejí se k hybridní architektuře sjednoceného myšlení/nemyšlení z původního Qwen3, poté co Alibaba přešla na samostatné kontrolní body Instruct a Reasoning s aktualizacemi Qwen3 2507. Klíčové výsledky benchmarkingu pro varianty uvažování: ➤ Qwen3.5 27B dosahuje 42 bodů na Indexu inteligence a je nejinteligentnějším modelem pod 230B. Nejbližší model podobné velikosti je GLM-4.7-Flash (celkem 31B, 3B aktivní), který dosahuje skóre 30. Modely s otevřenými váhami ekvivalentní inteligence jsou 8–25krát větší z hlediska celkových parametrů: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) a GLM-4.7 (357B, 42). V FP8 precision trvá uložení hmotností modelu ~27GB, zatímco ve 4bitové kvantizaci můžete použít hardware v kvalitě notebooku s 16GB+ RAM ➤ Qwen3.5 27B dosahuje skóre 1205 na GDPval-AA (Agentic Real-World Work Tasks), což jej řadí vedle větších modelů. Pro kontext, MiniMax-M2.5 skóre 1206, GLM-4.7 (Uvažování) 1200 a DeepSeek V3.2 (Uvažování) 1194. To je zvláště pozoruhodné u modelu s 27B parametry a naznačuje silnou agentickou schopnost vzhledem k jeho velikosti. GDPval-AA testuje modely na reálných úkolech napříč 44 profesemi a 9 hlavními odvětvími ➤ AA-Vševědoucnost zůstává relativní slabinou v celé rodině Qwen3.5, způsobenou především nižší přesností, nikoli halucinací. Qwen3.5 27B dosahuje skóre -42 na AA-Omniscience, což je srovnatelné s MiniMax-M2.5 (-40), ale za DeepSeek V3.2 (-21) a GLM-4.7 (-35). Ačkoli míra halucinací Qwen3.5 27B (80 %) je nižší než u konkurentů (GLM-4.7 90 %, MiniMax 89 %, DeepSeek 82 %), její přesnost je také nižší, 21 % oproti 34 % u DeepSeek V3.2 a 29 % u GLM-4.7. To je pravděpodobně důsledek velikosti modelu – obecně jsme pozorovali, že modely s více celkovými parametry dosahují lepších výsledků přesnosti v AA-Omniscience, protože širší paměť znalostí těží z většího počtu parametrů ➤ Qwen3.5 27B je ekvivalentně inteligentní Qwen3.5 122B A10B. Model 122B A10B je model směsi expertů, který aktivuje pouze 10B ze svých celkových parametrů 122B na jeden průchod vpřed. Model 27B vede v GDPval-AA (1205 Elo vs 1145 Elo) a mírně za TerminalBench (+1,5 p.p.), zatímco model 122B vede ve SciCode (+2.5 p.p.), HLE (+1.2 p.p.) a má nižší míru halucinací (Omniscience -40 vs -42) ➤ Qwen3.5 35B A3B (Uvažování, 37) je nejinteligentnější model s ~3B aktivními parametry, o 7 bodů před GLM-4.7-Flash (30). Mezi další modely v této ~3B aktivní kategorii patří Qwen3 Coder Next (celkem 80B, 28), Qwen3 Next 80B A3B (27) a NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B použilo 98 milionů výstupních tokenů k provozu Intelligence Indexu, což stálo ~$299 přes Alibaba Cloud API. To je výrazně vysoké využití tokenů ve srovnání s modely s podobnou inteligencí: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) a dokonce i větší Qwen3.5 397B (86M). Další informace: ➤ Kontextové okno: 262K tokenů (rozšiřitelné na 1M přes YaRN) ➤ Licence: Apache 2.0 ➤ Ceny API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 za 1M vstupní/výstupní tokeny

Top

Hodnocení

Oblíbené