Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Analiza independentă a modelelor AI și a furnizorilor de găzduire - alegeți cel mai bun model și furnizor API pentru cazul dvs.
Alibaba și-a extins familia de modele Qwen3.5 cu 3 modele noi – modelul 27B este un remarcat, obținând un scor 42 pe Artificial Analysis Intelligence Index și comparând modelele cu greutăți deschise de 8-25 de ori mai mari decât el
@Alibaba_Qwen a extins familia Qwen3.5 cu trei modele noi, alături de flagship 397B lansat la începutul acestei luni: Qwen3.5 27B (Dense, obținând 42 la Intelligence Index), Qwen3.5 122B A10B (MoE, 42) și Qwen3.5 35B A3B (MoE, 37). Cele două modele MoE (Mix-of-Experts) activează doar o fracțiune din parametrii totali pe fiecare trecere înainte (10B din 122B și ~3B din 35B, respectiv). Indicele de Inteligență este metrica noastră de sinteză care include 10 evaluări care acoperă raționamentul general, sarcinile agențice, codarea și raționamentul științific.
Toate modelele sunt licențiate Apache 2.0, suportă nativ contextul 262K și revin la arhitectura hibridă unificată gândire/non-gândire de la Qwen3 original, după ce Alibaba a trecut la puncte de control separate pentru Instruct și Reasoning odată cu actualizările Qwen3 2507.
Rezultate cheie de benchmarking pentru variantele de raționament:
➤ Qwen3.5 27B obține scorul 42 la Indicele de Inteligență și este cel mai inteligent model sub 230B. Cel mai apropiat model de dimensiuni similare este GLM-4.7-Flash (total 31B, 3B activ) care are un scor 30. Modelele cu greutăți deschise de inteligență echivalentă sunt de 8-25 de ori mai mari în termeni de parametri totali: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) și GLM-4.7 (357B, 42). În precizia FP8 este nevoie de ~27GB pentru a stoca greutățile modelelor, în timp ce în cuantizarea pe 4 biți poți folosi hardware de calitate laptop cu 16GB+ RAM
➤ Qwen3.5 27B scoruri 1205 la GDPval-AA (Agentic Real-World Work Tasks), plasându-l alături de modele mai mari. Pentru context, MiniMax-M2.5 obține 1206, GLM-4.7 (Raționament) 1200, iar DeepSeek V3.2 (Raționament) 1194. Acest lucru este deosebit de notabil pentru un model cu 27B parametri și sugerează o capacitate agentică puternică pentru dimensiunea sa. GDPval-AA testează modele pe sarcini reale din 44 de ocupații și 9 industrii majore
➤ AA-Omnisciența rămâne o slăbiciune relativă în familia Qwen3.5, determinată în principal de o acuratețe mai scăzută decât de rata halucinațiilor. Qwen3.5 27B obține -42 la AA-Omnisciență, comparabil cu MiniMax-M2.5 (-40), dar în spatele DeepSeek V3.2 (-21) și GLM-4.7 (-35). Deși rata halucinațiilor Qwen3.5 27B (80%) este mai mică decât a concurenților (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), acuratețea sa este de asemenea mai mică, 21% față de 34% pentru DeepSeek V3.2 și 29% pentru GLM-4.7. Aceasta este probabil o consecință a dimensiunii modelului – am observat, în general, că modelele cu mai mulți parametri totali au performanțe mai bune la acuratețe în AA-Omniscience, deoarece reamintirea mai largă a cunoștințelor beneficiază de un număr mai mare de parametri
➤ Qwen3.5 27B este echivalent inteligent cu Qwen3.5 122B A10B. 122B A10B este un model Mix-of-Experts care activează doar 10B din cei 122B parametri totali pe fiecare trecere înainte. Modelul 27B conduce la GDPval-AA (1205 Elo vs 1145 Elo) și ușor la TerminalBench (+1,5 p.p.), în timp ce modelul 122B conduce la SciCode (+2,5 p.p.), HLE (+1,2 p.p.) și are o rată mai mică de halucinații (Omniscience -40 vs -42)
➤ Qwen3.5 35B A3B (Raționament, 37) este cel mai inteligent model cu ~3B parametri activi, cu 7 puncte înaintea GLM-4.7-Flash (30). Alte modele din această categorie activă ~3B includ Qwen3 Coder Next (80B total, 28), Qwen3 Next 80B A3B (27) și NVIDIA Nemotron 3 Nano 30B A3B (24)
➤ Qwen3.5 27B a folosit 98M tokenuri de ieșire pentru a rula Intelligence Index, costând ~$299 prin Alibaba Cloud API. Aceasta este o utilizare notabil de mare de tokenuri comparativ cu modele cu inteligență similară: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) și chiar mai marele Qwen3.5 397B (86M).
Alte informații:
➤ Fereastră de context: 262K tokenuri (extensibile până la 1M prin YaRN)
➤ Licență: Apache 2.0
➤ Prețuri API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 la 1M tokenuri de intrare/ieșire

3,54K
Kling 3.0 1080p (Pro) ocupă locul #1 în Text to Video atât în clasamentele cu audio, cât și fără audio în arena Video de Analiză Artificială, depășind Grok Imagine, Runway Gen-4.5 și Veo 3.1!
În Image to Video, Kling 3.0 1080p (Pro) ocupă locul #4 în clasamentul With Audio și #6 în No Audio, fiind urmat de Grok Imagine și PixVerse V5.6.
Kling 3.0 este cea mai recentă versiune de la @Kling_ai, reprezentând un salt major față de modelele lor Kling 2.6. Modelul este disponibil în niveluri de calitate 1080p (Pro) și 720p (Standard) și suportă generații de până la 15 secunde, precum și generare audio nativă.
Kling a lansat, de asemenea, Kling 3.0 Omni, un model multimodal care depășește generarea video pentru a susține imagini și intrări video, editare video și generare video într-un singur model unificat. Kling 3.0 Omni 1080p (Pro) și Omni 720p (Standard) au de asemenea performanțe excelente, Omni 1080p (Pro) ocupând locul #2 la Text to Video With Audio și #4 la No Audio.
Kling 3.0 este disponibil prin aplicația Kling AI și prin API pe @fal. Kling 3.0 1080p (Pro) costă ~13$/min fără sunet și ~$20/min cu audio, în timp ce 720p (Standard) costă ~10$/min și respectiv ~15$/min. Fără sunet, 1080p (Pro) este comparabil cu Veo 3.1 la 12$/min, deși este un plus semnificativ față de Kling 2.5 Turbo și Grok Imagine la $4.20/min.
Vezi mai jos comparații între Kling 3.0 1080p (Pro) și alte modele de top din Arena 🧵 noastră de Analiză Artificială Video

132
Inception Labs a lansat Mercury 2, următoarea lor generație de Diffusion LLM, gata de producție. Mercury 2 atinge >1.000 de tokenuri de ieșire/s cu creșteri semnificative în inteligență
LLM-urile Diffusion ("dLLM-uri") ale @_inception_ai folosesc o arhitectură diferită comparativ cu LLM-urile bazate pe autoregresivă. Procesul de generare a LLM-urilor prin difuzie începe cu zgomot și rafinează iterativ ieșirea folosind un model de transformator care poate modifica mai multe jetoane în paralel. Aceasta permite paralelizarea generării tokenurilor de ieșire, permițând viteze de ieșire mai rapide deoarece multe tokenuri de ieșire sunt generate simultan.
Concluzii cheie:
➤ Dintre modelele de dimensiuni/preț comparabile, Mercury 2 performează competitiv la inteligență vs. viteză de ieșire. Deși nu are inteligență de top, viteza sa de ieșire este de peste 3 ori mai rapidă decât următorul model din această clasă (benchmark-uri bazate pe endpoint-urile first-party sau mediana furnizorilor care servesc modelul acolo unde un endpoint first party nu este disponibil)
➤ Punctele forte cheie includ codificarea agentică și utilizarea terminalului și urmărirea instrucțiunilor. Mercury 2 performează la un nivel similar cu Claude 4.5 Haiku pe Terminal-Bench Hard și obține 70% la IFBench (Instruction Following), depășind gpt-oss-120B, GPT-5.1 Codex mini și GPT-5 nano
Contextul Inception Labs:
Aceasta este a doua versiune a Inception Labs. Fondatorii au fost anterior profesori de la Stanford, UCLA și Cornell și au contribuit la cercetare și tehnologii AI precum Flash Attention, Decision Transformers și Direct Preference Optimization (DPO).
Vezi mai jos pentru analize suplimentare.

11,29K
Limită superioară
Clasament
Favorite
