DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Artificial Analysis

Analisi indipendente dei modelli di intelligenza artificiale e dei provider di hosting: scegli il modello e il fornitore API migliori per il tuo caso d'uso

Alibaba ha ampliato la sua famiglia di modelli Qwen3.5 con 3 nuovi modelli - il modello 27B è un punto di riferimento, con un punteggio di 42 sull'Artificial Analysis Intelligence Index e pari a modelli a pesi aperti 8-25 volte le sue dimensioni @Alibaba_Qwen ha ampliato la famiglia Qwen3.5 con tre nuovi modelli insieme al flagship da 397B rilasciato all'inizio di questo mese: il Qwen3.5 27B (Denso, punteggio 42 sull'Intelligence Index), Qwen3.5 122B A10B (MoE, 42) e Qwen3.5 35B A3B (MoE, 37). I due modelli MoE (Mixture-of-Experts) attivano solo una frazione dei parametri totali per passaggio in avanti (10B di 122B e ~3B di 35B rispettivamente). L'Intelligence Index è la nostra metrica di sintesi che incorpora 10 valutazioni che coprono ragionamento generale, compiti agentici, codifica e ragionamento scientifico. Tutti i modelli sono con licenza Apache 2.0, supportano nativamente 262K contesto e tornano all'architettura ibrida di pensiero/non pensiero unificata del Qwen3 originale, dopo che Alibaba è passata a separare i checkpoint Instruct e Reasoning con gli aggiornamenti Qwen3 2507. Risultati chiave di benchmarking per le varianti di ragionamento: ➤ Qwen3.5 27B ottiene 42 sull'Intelligence Index ed è il modello più intelligente sotto i 230B. Il modello più vicino di dimensioni simili è GLM-4.7-Flash (31B totali, 3B attivi) che ottiene 30. I modelli a pesi aperti di intelligenza equivalente sono 8-25 volte più grandi in termini di parametri totali: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) e GLM-4.7 (357B, 42). In precisione FP8 ci vogliono ~27GB per memorizzare i pesi del modello, mentre in quantizzazione a 4 bit puoi utilizzare hardware di qualità laptop con 16GB+ di RAM ➤ Qwen3.5 27B ottiene 1205 su GDPval-AA (Compiti di Lavoro Reale Agentici), collocandosi accanto a modelli più grandi. Per contesto, MiniMax-M2.5 ottiene 1206, GLM-4.7 (Ragionamento) ottiene 1200 e DeepSeek V3.2 (Ragionamento) ottiene 1194. Questo è particolarmente notevole per un modello con 27B di parametri e suggerisce una forte capacità agentica per le sue dimensioni. GDPval-AA testa i modelli su compiti reali in 44 professioni e 9 settori principali ➤ AA-Omniscience rimane una debolezza relativa in tutta la famiglia Qwen3.5, guidata principalmente da una minore accuratezza piuttosto che dal tasso di allucinazione. Qwen3.5 27B ottiene -42 su AA-Omniscience, comparabile a MiniMax-M2.5 (-40) ma dietro a DeepSeek V3.2 (-21) e GLM-4.7 (-35). Sebbene il tasso di allucinazione di Qwen3.5 27B (80%) sia inferiore a quello dei pari (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), la sua accuratezza è anche inferiore al 21% rispetto al 34% per DeepSeek V3.2 e al 29% per GLM-4.7. Questo è probabilmente una conseguenza delle dimensioni del modello - abbiamo generalmente osservato che i modelli con più parametri totali performano meglio in accuratezza in AA-Omniscience, poiché il richiamo di conoscenza più ampio beneficia di conteggi di parametri più grandi ➤ Qwen3.5 27B è equivalentemente intelligente rispetto a Qwen3.5 122B A10B. Il 122B A10B è un modello Mixture-of-Experts che attiva solo 10B dei suoi 122B di parametri totali per passaggio in avanti. Il modello 27B guida in GDPval-AA (1205 Elo vs 1145 Elo) e leggermente su TerminalBench (+1.5 p.p.), mentre il modello 122B guida su SciCode (+2.5 p.p.), HLE (+1.2 p.p.) e ha un tasso di allucinazione più basso (Omniscience -40 vs -42) ➤ Qwen3.5 35B A3B (Ragionamento, 37) è il modello più intelligente con ~3B di parametri attivi, 7 punti avanti rispetto a GLM-4.7-Flash (30). Altri modelli in questa categoria di ~3B attivi includono Qwen3 Coder Next (80B totali, 28), Qwen3 Next 80B A3B (27) e NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B ha utilizzato 98M di token di output per eseguire l'Intelligence Index, costando ~$299 tramite Alibaba Cloud API. Questo è notevolmente alto rispetto all'uso di token rispetto a modelli di intelligenza simile: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) e persino il più grande Qwen3.5 397B (86M). Altre informazioni: ➤ Finestra di contesto: 262K token (estendibile a 1M tramite YaRN) ➤ Licenza: Apache 2.0 ➤ Prezzi API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 per 1M token di input/output

Principali

Ranking

Preferiti