DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Artificial Analysis

Unabhängige Analyse von KI-Modellen und Hosting-Providern - wählen Sie das beste Modell und den besten API-Anbieter für Ihren Anwendungsfall

Alibaba hat seine Qwen3.5-Modellfamilie mit 3 neuen Modellen erweitert - das 27B-Modell sticht hervor und erzielt 42 im Artificial Analysis Intelligence Index und erreicht die offenen Gewichtungsmodelle, die 8-25x so groß sind. @Alibaba_Qwen hat die Qwen3.5-Familie mit drei neuen Modellen neben dem 397B-Flaggschiff, das Anfang dieses Monats veröffentlicht wurde, erweitert: das Qwen3.5 27B (Dense, erzielt 42 im Intelligence Index), Qwen3.5 122B A10B (MoE, 42) und Qwen3.5 35B A3B (MoE, 37). Die beiden MoE (Mixture-of-Experts)-Modelle aktivieren nur einen Bruchteil der gesamten Parameter pro Vorwärtsdurchlauf (10B von 122B und ~3B von 35B). Der Intelligence Index ist unser Synthesemaß, das 10 Bewertungen umfasst, die allgemeines Denken, agentische Aufgaben, Programmierung und wissenschaftliches Denken abdecken. Alle Modelle sind unter der Apache 2.0-Lizenz lizenziert, unterstützen nativ 262K Kontext und kehren zur einheitlichen Denk-/Nicht-Denk-Hybridarchitektur des ursprünglichen Qwen3 zurück, nachdem Alibaba mit den Qwen3 2507-Updates zu separaten Instruct- und Reasoning-Checkpoints gewechselt ist. Wichtige Benchmark-Ergebnisse für die Denkvarianten: ➤ Qwen3.5 27B erzielt 42 im Intelligence Index und ist das intelligenteste Modell unter 230B. Das nächstgelegene Modell ähnlicher Größe ist GLM-4.7-Flash (31B insgesamt, 3B aktiv), das 30 erzielt. Offene Gewichtungsmodelle mit vergleichbarer Intelligenz sind 8-25x größer in Bezug auf die Gesamtparameter: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) und GLM-4.7 (357B, 42). In FP8-Präzision benötigt es ~27GB, um die Modellgewichte zu speichern, während Sie bei 4-Bit-Quantisierung Hardware in Laptop-Qualität mit 16GB+ RAM verwenden können. ➤ Qwen3.5 27B erzielt 1205 im GDPval-AA (Agentic Real-World Work Tasks) und platziert sich neben größeren Modellen. Zum Kontext: MiniMax-M2.5 erzielt 1206, GLM-4.7 (Reasoning) erzielt 1200 und DeepSeek V3.2 (Reasoning) erzielt 1194. Dies ist besonders bemerkenswert für ein Modell mit 27B Parametern und deutet auf starke agentische Fähigkeiten für seine Größe hin. GDPval-AA testet Modelle in realen Aufgaben über 44 Berufe und 9 Hauptindustrien. ➤ AA-Omniscience bleibt eine relative Schwäche in der Qwen3.5-Familie, die hauptsächlich durch geringere Genauigkeit und nicht durch die Halluzinationsrate bedingt ist. Qwen3.5 27B erzielt -42 in AA-Omniscience, vergleichbar mit MiniMax-M2.5 (-40), aber hinter DeepSeek V3.2 (-21) und GLM-4.7 (-35). Obwohl die Halluzinationsrate von Qwen3.5 27B (80%) niedriger ist als die der Mitbewerber (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), ist die Genauigkeit mit 21% im Vergleich zu 34% für DeepSeek V3.2 und 29% für GLM-4.7 ebenfalls niedriger. Dies ist wahrscheinlich eine Folge der Modellgröße - wir haben allgemein beobachtet, dass Modelle mit mehr Gesamtparametern in der Genauigkeit bei AA-Omniscience besser abschneiden, da das breitere Wissen von größeren Parameterzahlen profitiert. ➤ Qwen3.5 27B ist gleich intelligent wie Qwen3.5 122B A10B. Das 122B A10B ist ein Mixture-of-Experts-Modell, das nur 10B seiner insgesamt 122B Parametern pro Vorwärtsdurchlauf aktiviert. Das 27B-Modell führt in GDPval-AA (1205 Elo vs 1145 Elo) und leicht bei TerminalBench (+1,5 p.p.), während das 122B-Modell bei SciCode (+2,5 p.p.), HLE (+1,2 p.p.) führt und eine niedrigere Halluzinationsrate hat (Omniscience -40 vs -42). ➤ Qwen3.5 35B A3B (Reasoning, 37) ist das intelligenteste Modell mit ~3B aktiven Parametern, 7 Punkte vor GLM-4.7-Flash (30). Andere Modelle in dieser ~3B aktiven Kategorie sind Qwen3 Coder Next (80B insgesamt, 28), Qwen3 Next 80B A3B (27) und NVIDIA Nemotron 3 Nano 30B A3B (24). ➤ Qwen3.5 27B verwendete 98M Ausgabetoken, um den Intelligence Index auszuführen, was ~$299 über die Alibaba Cloud API kostet. Dies ist im Vergleich zu Modellen mit ähnlicher Intelligenz bemerkenswert hoch: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) und sogar das größere Qwen3.5 397B (86M). Weitere Informationen: ➤ Kontextfenster: 262K Tokens (erweiterbar auf 1M über YaRN) ➤ Lizenz: Apache 2.0 ➤ API-Preise (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 pro 1M Eingabe-/Ausgabetokens

Top

Ranking

Favoriten