Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Onafhankelijke analyse van AI-modellen en hostingproviders - kies het beste model en de beste API-provider voor uw use-case
Alibaba heeft zijn Qwen3.5 modelfamilie uitgebreid met 3 nieuwe modellen - het 27B model is een uitblinker, met een score van 42 op de Artificial Analysis Intelligence Index en het evenaart open gewichten modellen die 8-25x zijn grootte
@Alibaba_Qwen heeft de Qwen3.5 familie uitgebreid met drie nieuwe modellen naast de 397B vlaggenschip die eerder deze maand is uitgebracht: de Qwen3.5 27B (Dense, score 42 op de Intelligence Index), Qwen3.5 122B A10B (MoE, 42), en Qwen3.5 35B A3B (MoE, 37). De twee MoE (Mixture-of-Experts) modellen activeren slechts een fractie van de totale parameters per forward pass (10B van 122B en ~3B van 35B respectievelijk). De Intelligence Index is onze synthese-metric die 10 evaluaties omvat die algemene redenering, agenttaken, codering en wetenschappelijke redenering dekt.
Alle modellen zijn gelicentieerd onder Apache 2.0, ondersteunen van nature 262K context en keren terug naar de verenigde denken/niet-denken hybride architectuur van de originele Qwen3, nadat Alibaba was overgestapt naar gescheiden Instruct en Reasoning checkpoints met de Qwen3 2507 updates.
Belangrijke benchmarkresultaten voor de redeneringsvarianten:
➤ Qwen3.5 27B scoort 42 op de Intelligence Index en is het meest intelligente model onder de 230B. Het dichtstbijzijnde model van vergelijkbare grootte is GLM-4.7-Flash (31B totaal, 3B actief) dat 30 scoort. Open gewichten modellen van equivalente intelligentie zijn 8-25x groter in termen van totale parameters: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42), en GLM-4.7 (357B, 42). In FP8 precisie kost het ~27GB om de modelgewichten op te slaan, terwijl je in 4-bit kwantisatie laptopkwaliteit hardware kunt gebruiken met 16GB+ RAM
➤ Qwen3.5 27B scoort 1205 op GDPval-AA (Agentic Real-World Work Tasks), wat het naast grotere modellen plaatst. Ter context, MiniMax-M2.5 scoort 1206, GLM-4.7 (Reasoning) scoort 1200, en DeepSeek V3.2 (Reasoning) scoort 1194. Dit is bijzonder opmerkelijk voor een model met 27B parameters en suggereert sterke agentcapaciteit voor zijn grootte. GDPval-AA test modellen op real-world taken in 44 beroepen en 9 belangrijke industrieën
➤ AA-Omniscience blijft een relatieve zwakte binnen de Qwen3.5 familie, voornamelijk gedreven door lagere nauwkeurigheid in plaats van hallucinatietarief. Qwen3.5 27B scoort -42 op AA-Omniscience, vergelijkbaar met MiniMax-M2.5 (-40) maar achter DeepSeek V3.2 (-21) en GLM-4.7 (-35). Hoewel het hallucinatietarief van Qwen3.5 27B (80%) lager is dan dat van peers (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), is de nauwkeurigheid ook lager met 21% versus 34% voor DeepSeek V3.2 en 29% voor GLM-4.7. Dit is waarschijnlijk een gevolg van de modelgrootte - we hebben over het algemeen waargenomen dat modellen met meer totale parameters beter presteren op nauwkeurigheid in AA-Omniscience, aangezien bredere kennisherinnering profiteert van grotere parameteraantallen
➤ Qwen3.5 27B is even intelligent als Qwen3.5 122B A10B. De 122B A10B is een Mixture-of-Experts model dat slechts 10B van zijn 122B totale parameters per forward pass activeert. Het 27B model leidt in GDPval-AA (1205 Elo versus 1145 Elo) en iets op TerminalBench (+1.5 p.p.), terwijl het 122B model leidt op SciCode (+2.5 p.p.), HLE (+1.2 p.p.), en een lager hallucinatietarief heeft (Omniscience -40 versus -42)
➤ Qwen3.5 35B A3B (Reasoning, 37) is het meest intelligente model met ~3B actieve parameters, 7 punten voor op GLM-4.7-Flash (30). Andere modellen in deze ~3B actieve categorie zijn Qwen3 Coder Next (80B totaal, 28), Qwen3 Next 80B A3B (27), en NVIDIA Nemotron 3 Nano 30B A3B (24)
➤ Qwen3.5 27B gebruikte 98M outputtokens om de Intelligence Index te draaien, wat ~$299 kost via de Alibaba Cloud API. Dit is opmerkelijk hoog tokenverbruik vergeleken met modellen van vergelijkbare intelligentie: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M), en zelfs het grotere Qwen3.5 397B (86M).
Andere informatie:
➤ Contextvenster: 262K tokens (uitbreidbaar tot 1M via YaRN)
➤ Licentie: Apache 2.0
➤ API-prijzen (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 per 1M input/output tokens

3,54K
Kling 3.0 1080p (Pro) neemt de #1 plek in Text naar Video in zowel de met Audio als zonder Audio ranglijsten in de Artificial Analysis Video Arena, en overtreft Grok Imagine, Runway Gen-4.5, en Veo 3.1!
In Image naar Video staat Kling 3.0 1080p (Pro) op #4 in de met Audio ranglijst en #6 in zonder Audio, achter Grok Imagine en PixVerse V5.6.
Kling 3.0 is de nieuwste release van @Kling_ai, en vertegenwoordigt een grote sprong ten opzichte van hun Kling 2.6 modellen. Het model komt in 1080p (Pro) en 720p (Standaard) kwaliteitsniveaus, en ondersteunt generaties tot 15 seconden evenals native audiogeneratie.
Kling heeft ook Kling 3.0 Omni uitgebracht, een multimodaal model dat verder gaat dan videoproductie en ondersteuning biedt voor beeld- en video-invoer, video-editing, en videoproductie in één verenigd model. Kling 3.0 Omni 1080p (Pro) en Omni 720p (Standaard) presteren ook sterk, met Omni 1080p (Pro) op #2 in Text naar Video met Audio en #4 in zonder Audio.
Kling 3.0 is beschikbaar via de Kling AI-app en via API op @fal. Kling 3.0 1080p (Pro) kost ~$13/min zonder audio en ~$20/min met audio, terwijl 720p (Standaard) respectievelijk ~$10/min en ~$15/min kost. Zonder audio is 1080p (Pro) vergelijkbaar met Veo 3.1 voor $12/min, hoewel het een aanzienlijke premie is ten opzichte van Kling 2.5 Turbo en Grok Imagine voor $4.20/min.
Zie hieronder voor vergelijkingen tussen Kling 3.0 1080p (Pro) en andere toonaangevende modellen in onze Artificial Analysis Video Arena 🧵

133
Inception Labs heeft Mercury 2 gelanceerd, hun volgende generatie productieklare Diffusion LLM. Mercury 2 behaalt >1.000 output tokens/s met aanzienlijke verbeteringen in intelligentie
@_inception_ai's Diffusion LLMs (“dLLMs”) gebruiken een andere architectuur in vergelijking met autoregressieve LLMs. Het generatieproces van de Diffusion LLM begint met ruis en verfijnt iteratief de output met behulp van een transformer model dat meerdere tokens parallel kan aanpassen. Dit maakt parallelisatie van de output token generatie mogelijk, waardoor snellere outputsnelheden worden bereikt omdat veel output tokens tegelijkertijd worden gegenereerd.
Belangrijke punten:
➤ Onder vergelijkbare modellen in grootte/prijsklasse presteert Mercury 2 competitief in intelligentie versus outputsnelheid. Hoewel het niet de hoogste intelligentie heeft, is de outputsnelheid meer dan 3X die van het snelste model in deze klasse (benchmarks gebaseerd op eerste partij eindpunten of de mediaan van aanbieders die het model bedienen waar een eerste partij eindpunt niet beschikbaar is)
➤ Belangrijke sterke punten zijn agentic coding & terminal gebruik en instructie opvolging. Mercury 2 presteert op een vergelijkbaar niveau als Claude 4.5 Haiku op Terminal-Bench Hard en scoort 70% op IFBench (Instructie Volgen), waarmee het gpt-oss-120B, GPT-5.1 Codex mini, en GPT-5 nano overtreft.
Achtergrond van Inception Labs:
Dit is de tweede release van Inception Labs. De oprichters waren eerder professoren aan Stanford, UCLA en Cornell en hebben bijgedragen aan AI-onderzoek en -technologieën, waaronder Flash Attention, Decision Transformers en Direct Preference Optimization (DPO).
Zie hieronder voor verdere analyse.

11,29K
Boven
Positie
Favorieten
