Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Analisi indipendente dei modelli di intelligenza artificiale e dei provider di hosting: scegli il modello e il fornitore API migliori per il tuo caso d'uso
Alibaba ha ampliato la sua famiglia di modelli Qwen3.5 con 3 nuovi modelli - il modello 27B è un punto di riferimento, con un punteggio di 42 sull'Artificial Analysis Intelligence Index e pari a modelli a pesi aperti 8-25 volte le sue dimensioni
@Alibaba_Qwen ha ampliato la famiglia Qwen3.5 con tre nuovi modelli insieme al flagship da 397B rilasciato all'inizio di questo mese: il Qwen3.5 27B (Denso, punteggio 42 sull'Intelligence Index), Qwen3.5 122B A10B (MoE, 42) e Qwen3.5 35B A3B (MoE, 37). I due modelli MoE (Mixture-of-Experts) attivano solo una frazione dei parametri totali per passaggio in avanti (10B di 122B e ~3B di 35B rispettivamente). L'Intelligence Index è la nostra metrica di sintesi che incorpora 10 valutazioni che coprono ragionamento generale, compiti agentici, codifica e ragionamento scientifico.
Tutti i modelli sono con licenza Apache 2.0, supportano nativamente 262K contesto e tornano all'architettura ibrida di pensiero/non pensiero unificata del Qwen3 originale, dopo che Alibaba è passata a separare i checkpoint Instruct e Reasoning con gli aggiornamenti Qwen3 2507.
Risultati chiave di benchmarking per le varianti di ragionamento:
➤ Qwen3.5 27B ottiene 42 sull'Intelligence Index ed è il modello più intelligente sotto i 230B. Il modello più vicino di dimensioni simili è GLM-4.7-Flash (31B totali, 3B attivi) che ottiene 30. I modelli a pesi aperti di intelligenza equivalente sono 8-25 volte più grandi in termini di parametri totali: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) e GLM-4.7 (357B, 42). In precisione FP8 ci vogliono ~27GB per memorizzare i pesi del modello, mentre in quantizzazione a 4 bit puoi utilizzare hardware di qualità laptop con 16GB+ di RAM
➤ Qwen3.5 27B ottiene 1205 su GDPval-AA (Compiti di Lavoro Reale Agentici), collocandosi accanto a modelli più grandi. Per contesto, MiniMax-M2.5 ottiene 1206, GLM-4.7 (Ragionamento) ottiene 1200 e DeepSeek V3.2 (Ragionamento) ottiene 1194. Questo è particolarmente notevole per un modello con 27B di parametri e suggerisce una forte capacità agentica per le sue dimensioni. GDPval-AA testa i modelli su compiti reali in 44 professioni e 9 settori principali
➤ AA-Omniscience rimane una debolezza relativa in tutta la famiglia Qwen3.5, guidata principalmente da una minore accuratezza piuttosto che dal tasso di allucinazione. Qwen3.5 27B ottiene -42 su AA-Omniscience, comparabile a MiniMax-M2.5 (-40) ma dietro a DeepSeek V3.2 (-21) e GLM-4.7 (-35). Sebbene il tasso di allucinazione di Qwen3.5 27B (80%) sia inferiore a quello dei pari (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), la sua accuratezza è anche inferiore al 21% rispetto al 34% per DeepSeek V3.2 e al 29% per GLM-4.7. Questo è probabilmente una conseguenza delle dimensioni del modello - abbiamo generalmente osservato che i modelli con più parametri totali performano meglio in accuratezza in AA-Omniscience, poiché il richiamo di conoscenza più ampio beneficia di conteggi di parametri più grandi
➤ Qwen3.5 27B è equivalentemente intelligente rispetto a Qwen3.5 122B A10B. Il 122B A10B è un modello Mixture-of-Experts che attiva solo 10B dei suoi 122B di parametri totali per passaggio in avanti. Il modello 27B guida in GDPval-AA (1205 Elo vs 1145 Elo) e leggermente su TerminalBench (+1.5 p.p.), mentre il modello 122B guida su SciCode (+2.5 p.p.), HLE (+1.2 p.p.) e ha un tasso di allucinazione più basso (Omniscience -40 vs -42)
➤ Qwen3.5 35B A3B (Ragionamento, 37) è il modello più intelligente con ~3B di parametri attivi, 7 punti avanti rispetto a GLM-4.7-Flash (30). Altri modelli in questa categoria di ~3B attivi includono Qwen3 Coder Next (80B totali, 28), Qwen3 Next 80B A3B (27) e NVIDIA Nemotron 3 Nano 30B A3B (24)
➤ Qwen3.5 27B ha utilizzato 98M di token di output per eseguire l'Intelligence Index, costando ~$299 tramite Alibaba Cloud API. Questo è notevolmente alto rispetto all'uso di token rispetto a modelli di intelligenza simile: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) e persino il più grande Qwen3.5 397B (86M).
Altre informazioni:
➤ Finestra di contesto: 262K token (estendibile a 1M tramite YaRN)
➤ Licenza: Apache 2.0
➤ Prezzi API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 per 1M token di input/output

3,54K
Kling 3.0 1080p (Pro) occupa il primo posto nella categoria Testo in Video sia nella classifica Con Audio che Senza Audio nell'Arena Video di Analisi Artificiale, superando Grok Imagine, Runway Gen-4.5 e Veo 3.1!
Nella categoria Immagine in Video, Kling 3.0 1080p (Pro) si posiziona al quarto posto nella classifica Con Audio e al sesto posto nella classifica Senza Audio, dietro a Grok Imagine e PixVerse V5.6.
Kling 3.0 è l'ultima versione di @Kling_ai, che rappresenta un grande salto rispetto ai loro modelli Kling 2.6. Il modello è disponibile in qualità 1080p (Pro) e 720p (Standard) e supporta generazioni fino a 15 secondi, oltre alla generazione audio nativa.
Kling ha anche rilasciato Kling 3.0 Omni, un modello multimodale che si estende oltre la generazione video per supportare input di immagini e video, editing video e generazione video in un unico modello unificato. Kling 3.0 Omni 1080p (Pro) e Omni 720p (Standard) si comportano anche bene, con Omni 1080p (Pro) che si posiziona al secondo posto nella categoria Testo in Video Con Audio e al quarto posto nella categoria Senza Audio.
Kling 3.0 è disponibile tramite l'app Kling AI e via API su @fal. Kling 3.0 1080p (Pro) costa ~$13/min senza audio e ~$20/min con audio, mentre 720p (Standard) è disponibile a ~$10/min e ~$15/min rispettivamente. Senza audio, 1080p (Pro) è comparabile a Veo 3.1 a $12/min, sebbene con un significativo sovrapprezzo rispetto a Kling 2.5 Turbo e Grok Imagine a $4.20/min.
Vedi qui sotto i confronti tra Kling 3.0 1080p (Pro) e altri modelli leader nella nostra Arena Video di Analisi Artificiale 🧵

131
Inception Labs ha lanciato Mercury 2, il loro modello Diffusion LLM di nuova generazione pronto per la produzione. Mercury 2 raggiunge >1.000 token di output/s con significativi guadagni in intelligenza
I Diffusion LLM di @_inception_ai (“dLLMs”) utilizzano un'architettura diversa rispetto ai LLM basati su autoregressione. Il processo di generazione del Diffusion LLM inizia con il rumore e affina iterativamente l'output utilizzando un modello transformer che può modificare più token in parallelo. Questo consente la parallelizzazione della generazione dei token di output, permettendo velocità di output più elevate poiché molti token di output vengono generati contemporaneamente.
Punti chiave:
➤ Tra i modelli di dimensioni/prezzi comparabili, Mercury 2 si comporta in modo competitivo in intelligenza rispetto alla velocità di output. Anche se non ha l'intelligenza leader, la sua velocità di output è più di 3 volte quella del modello più veloce in questa classe (benchmark basati su endpoint di prima parte o la mediana dei fornitori che servono il modello dove un endpoint di prima parte non è disponibile)
➤ I punti di forza chiave includono la codifica agentica e l'uso terminale e il rispetto delle istruzioni. Mercury 2 si comporta a un livello simile a Claude 4.5 Haiku su Terminal-Bench Hard e ottiene il 70% su IFBench (Instruction Following), superando gpt-oss-120B, GPT-5.1 Codex mini e GPT-5 nano
Contesto di Inception Labs:
Questa è la seconda release di Inception Labs. I fondatori erano precedentemente professori di Stanford, UCLA e Cornell e hanno contribuito alla ricerca e alle tecnologie AI, inclusi Flash Attention, Decision Transformers e Direct Preference Optimization (DPO).
Vedi sotto per ulteriori analisi.

11,29K
Principali
Ranking
Preferiti
