Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Uavhengig analyse av AI-modeller og vertsleverandører - velg den beste modellen og API-leverandøren for ditt bruksområde
Alibaba har utvidet sin Qwen3.5-modellfamilie med 3 nye modeller – 27B-modellen skiller seg ut, med 42 poeng på Artificial Analysis Intelligence Index og matcher åpne vektmodeller 8-25 ganger sin størrelse
@Alibaba_Qwen har utvidet Qwen3.5-familien med tre nye modeller i tillegg til flaggskipet 397B som ble lansert tidligere denne måneden: Qwen3.5 27B (Dense, med 42 på Intelligence Index), Qwen3.5 122B A10B (MoE, 42), og Qwen3.5 35B A3B (MoE, 37). De to MoE (Mixture-of-Experts)-modellene aktiverer bare en brøkdel av de totale parameterne per fremoverpass (henholdsvis 10B av 122B og ~3B av 35B). Intelligensindeksen er vår syntese-metrikk som inkluderer 10 evalueringer som dekker generell resonnering, agentiske oppgaver, koding og vitenskapelig resonnement.
Alle modellene er Apache 2.0-lisensierte, støtter 262K-kontekst nativt, og går tilbake til den enhetlige tenkning/ikke-tenkende hybridarkitekturen fra den opprinnelige Qwen3, etter at Alibaba gikk over til separate Instruct- og Reasoning-sjekkpunkter med Qwen3 2507-oppdateringene.
Viktige benchmarkingresultater for resonnementvariantene:
➤ Qwen3.5 27B scorer 42 på Intelligence Index og er den mest intelligente modellen under 230B. Den nærmeste modellen av lignende størrelse er GLM-4.7-Flash (31B totalt, 3B aktiv) som scorer 30. Åpne vektmodeller med ekvivalent intelligens er 8–25 ganger større når det gjelder totale parametere: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) og GLM-4.7 (357B, 42). I FP8 Precision tar det ~27GB å lagre modellvektene, mens du i 4-bits kvantisering kan bruke maskinvare av laptopkvalitet med 16GB+ RAM
➤ Qwen3.5 27B scorer 1205 på GDPval-AA (Agentic Real-World Work Tasks), noe som plasserer den sammen med større modeller. For kontekst scorer MiniMax-M2.5 1206, GLM-4.7 (Resonnering) 1200, og DeepSeek V3.2 (Resonnement) 1194. Dette er spesielt bemerkelsesverdig for en 27B-parametermodell og antyder sterk agentisk kapasitet for sin størrelse. GDPval-AA tester modeller på virkelige oppgaver på tvers av 44 yrker og 9 store industrier
➤ AA-Omniscience forblir en relativ svakhet i Qwen3.5-familien, drevet hovedsakelig av lavere nøyaktighet snarere enn hallusinasjonsrate. Qwen3.5 27B scorer -42 på AA-Omniscience, sammenlignbart med MiniMax-M2.5 (-40), men bak DeepSeek V3.2 (-21) og GLM-4.7 (-35). Selv om hallusinasjonsraten til Qwen3.5 27B (80 %) er lavere enn jevnaldrende (GLM-4,7 90 %, MiniMax 89 %, DeepSeek 82 %), er også nøyaktigheten lavere med 21 % mot 34 % for DeepSeek V3.2 og 29 % for GLM-4,7. Dette er sannsynligvis en konsekvens av modellstørrelsen – vi har generelt observert at modeller med flere totale parametere presterer bedre på nøyaktighet i AA-Omniscience, ettersom bredere kunnskapsgjenkalling drar nytte av større parametertall
➤ Qwen3.5 27B er tilsvarende intelligent som Qwen3.5 122B A10B. 122B A10B er en Mixture-of-Experts-modell som kun aktiverer 10B av sine 122B totale parametere per fremoverpass. 27B-modellen leder i GDPval-AA (1205 Elo mot 1145 Elo) og litt på TerminalBench (+1,5 p.p.), mens 122B-modellen leder på SciCode (+2,5 p.p.), HLE (+1,2 p.p.), og har lavere hallusinasjonsrate (Omniscience -40 vs -42)
➤ Qwen3.5 35B A3B (Reasoning, 37) er den mest intelligente modellen med ~3B aktive parametere, 7 poeng foran GLM-4.7-Flash (30). Andre modeller i denne ~3B aktive kategorien inkluderer Qwen3 Coder Next (80B totalt, 28), Qwen3 Next 80B A3B (27), og NVIDIA Nemotron 3 Nano 30B A3B (24)
➤ Qwen3.5 27B brukte 98 millioner utdatatokens for å kjøre Intelligence Index, som kostet ~$299 via Alibaba Cloud API. Dette er bemerkelsesverdig høy tokenbruk sammenlignet med modeller med lignende intelligens: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M), og til og med den større Qwen3.5 397B (86M).
Annen informasjon:
➤ Kontekstvindu: 262K tokens (kan utvides til 1M via YaRN)
➤ Lisens: Apache 2.0
➤ API-pris (Alibaba Cloud): 397B: $0,60/$3,60, 122B: $0,40/$3,20, 27B: $0,30/$2,40, 35B A3B: $0,25/$2,00 per 1M input/output-tokens

3,59K
Kling 3.0 1080p (Pro) tar #1-plassen i tekst-til-video på både With Audio og Without Audio-topplister i Artificial Analysis Video Arena, og overgår Grok Imagine, Runway Gen-4.5 og Veo 3.1!
Fra bilde til video plasserer Kling 3.0 1080p (Pro) #4 på With Audio-topplisten og #6 i No Audio, bak Grok Imagine og PixVerse v5.6.
Kling 3.0 er den nyeste utgivelsen fra @Kling_ai, og representerer et stort sprang fra deres Kling 2.6-modeller. Modellen kommer i 1080p (Pro) og 720p (Standard) kvalitetsnivåer, og støtter opptil 15-sekunders generasjoner samt native lydgenerering.
Kling har også lansert Kling 3.0 Omni, en multimodal modell som strekker seg utover videogenerering for å støtte bilde- og videoinnganger, videoredigering og videogenerering i én samlet modell. Kling 3.0 Omni 1080p (Pro) og Omni 720p (Standard) presterer også sterkt, med Omni 1080p (Pro) som plasserer #2 i tekst-til-video med lyd og #4 i ingen lyd.
Kling 3.0 er tilgjengelig via Kling AI-appen og via API på @fal. Kling 3.0 1080p (Pro) koster ~$13/min uten lyd og ~$20/min med lyd, mens 720p (Standard) koster henholdsvis ~$10/min og ~$15/min. Uten lyd er 1080p (Pro) sammenlignbart med Veo 3.1 til $12/min, men en betydelig premie over Kling 2.5 Turbo og Grok Imagine til $4,20/min.
Se nedenfor for sammenligninger mellom Kling 3.0 1080p (Pro) og andre ledende modeller i vår Artificial Analysis Video Arena 🧵

172
Inception Labs har lansert Mercury 2, deres neste generasjons produksjonsklare Diffusion LLM. Mercury 2 oppnår >1 000 output tokens/s med betydelige økninger i intelligens
@_inception_ai Diffusion LLM-er ("dLLM") bruker en annen arkitektur sammenlignet med autoregressive LLM-er. Diffusion LLM-genereringsprosessen starter med støy og raffinerer iterativt utgangen ved hjelp av en transformatormodell som kan modifisere flere tokens parallelt. Dette tillater parallellisering av generering av utgangstoken, noe som gir raskere utgangshastigheter fordi mange utdatatokens genereres samtidig.
Viktige punkter:
➤ Blant modeller i sammenlignbar størrelse/prisklasse presterer Mercury 2 konkurransedyktig når det gjelder intelligens kontra utgangshastighet. Selv om den ikke har ledende intelligens, er utgangshastigheten mer enn tre ganger den neste raskeste modellen i denne klassen (benchmarks basert på førstepartsendepunkter eller medianen av leverandører som betjener modellen der en førstepartsendepunkt ikke er tilgjengelig)
➤ Viktige styrker inkluderer agentisk koding og terminal bruk og instruksjonsoppfølging. Mercury 2 presterer på omtrent samme nivå som Claude 4.5 Haiku på Terminal-Bench Hard og scorer 70 % på IFBench (Instruction Following), og overgår gpt-oss-120B, GPT-5.1 Codex mini og GPT-5 nano
Bakgrunn for Inception Labs:
Dette er den andre utgivelsen fra Inception Labs. Grunnleggerne var tidligere professorer ved Stanford, UCLA og Cornell, og har bidratt til AI-forskning og teknologier, inkludert Flash Attention, Decision Transformers og Direct Preference Optimization (DPO).
Se nedenfor for videre analyse.

11,33K
Topp
Rangering
Favoritter
