Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Nezávislá analýza modelů AI a poskytovatelů hostingu - vyberte si nejlepší model a poskytovatele API pro váš případ použití
Alibaba rozšířila svou modelovou rodinu Qwen3.5 o 3 nové modely – model 27B vyniká s 42. bodem v Indexu umělé analýzy inteligence a odpovídá otevřeným modelům 8–25x větší velikosti
@Alibaba_Qwen rozšířil rodinu Qwen3.5 o tři nové modely vedle vlajkové lodi 397B, která byla uvedena začátkem tohoto měsíce: Qwen3.5 27B (Dense, skóre 42 v indexu inteligence), Qwen3.5 122B A10B (MoE, 42) a Qwen3.5 35B A3B (MoE, 37). Oba modely MoE (Mixture-of-Expert) aktivují pouze zlomek celkových parametrů na jeden průchod vpřed (10B z 122B a ~3B z 35B). Index inteligence je naše syntetická metrika, která zahrnuje 10 hodnocení pokrývajících obecné uvažování, agentické úkoly, programování a vědecké uvažování.
Všechny modely jsou licencovány na Apache 2.0, nativně podporují 262K kontext a vracejí se k hybridní architektuře sjednoceného myšlení/nemyšlení z původního Qwen3, poté co Alibaba přešla na samostatné kontrolní body Instruct a Reasoning s aktualizacemi Qwen3 2507.
Klíčové výsledky benchmarkingu pro varianty uvažování:
➤ Qwen3.5 27B dosahuje 42 bodů na Indexu inteligence a je nejinteligentnějším modelem pod 230B. Nejbližší model podobné velikosti je GLM-4.7-Flash (celkem 31B, 3B aktivní), který dosahuje skóre 30. Modely s otevřenými váhami ekvivalentní inteligence jsou 8–25krát větší z hlediska celkových parametrů: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) a GLM-4.7 (357B, 42). V FP8 precision trvá uložení hmotností modelu ~27GB, zatímco ve 4bitové kvantizaci můžete použít hardware v kvalitě notebooku s 16GB+ RAM
➤ Qwen3.5 27B dosahuje skóre 1205 na GDPval-AA (Agentic Real-World Work Tasks), což jej řadí vedle větších modelů. Pro kontext, MiniMax-M2.5 skóre 1206, GLM-4.7 (Uvažování) 1200 a DeepSeek V3.2 (Uvažování) 1194. To je zvláště pozoruhodné u modelu s 27B parametry a naznačuje silnou agentickou schopnost vzhledem k jeho velikosti. GDPval-AA testuje modely na reálných úkolech napříč 44 profesemi a 9 hlavními odvětvími
➤ AA-Vševědoucnost zůstává relativní slabinou v celé rodině Qwen3.5, způsobenou především nižší přesností, nikoli halucinací. Qwen3.5 27B dosahuje skóre -42 na AA-Omniscience, což je srovnatelné s MiniMax-M2.5 (-40), ale za DeepSeek V3.2 (-21) a GLM-4.7 (-35). Ačkoli míra halucinací Qwen3.5 27B (80 %) je nižší než u konkurentů (GLM-4.7 90 %, MiniMax 89 %, DeepSeek 82 %), její přesnost je také nižší, 21 % oproti 34 % u DeepSeek V3.2 a 29 % u GLM-4.7. To je pravděpodobně důsledek velikosti modelu – obecně jsme pozorovali, že modely s více celkovými parametry dosahují lepších výsledků přesnosti v AA-Omniscience, protože širší paměť znalostí těží z většího počtu parametrů
➤ Qwen3.5 27B je ekvivalentně inteligentní Qwen3.5 122B A10B. Model 122B A10B je model směsi expertů, který aktivuje pouze 10B ze svých celkových parametrů 122B na jeden průchod vpřed. Model 27B vede v GDPval-AA (1205 Elo vs 1145 Elo) a mírně za TerminalBench (+1,5 p.p.), zatímco model 122B vede ve SciCode (+2.5 p.p.), HLE (+1.2 p.p.) a má nižší míru halucinací (Omniscience -40 vs -42)
➤ Qwen3.5 35B A3B (Uvažování, 37) je nejinteligentnější model s ~3B aktivními parametry, o 7 bodů před GLM-4.7-Flash (30). Mezi další modely v této ~3B aktivní kategorii patří Qwen3 Coder Next (celkem 80B, 28), Qwen3 Next 80B A3B (27) a NVIDIA Nemotron 3 Nano 30B A3B (24)
➤ Qwen3.5 27B použilo 98 milionů výstupních tokenů k provozu Intelligence Indexu, což stálo ~$299 přes Alibaba Cloud API. To je výrazně vysoké využití tokenů ve srovnání s modely s podobnou inteligencí: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) a dokonce i větší Qwen3.5 397B (86M).
Další informace:
➤ Kontextové okno: 262K tokenů (rozšiřitelné na 1M přes YaRN)
➤ Licence: Apache 2.0
➤ Ceny API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 za 1M vstupní/výstupní tokeny

3,54K
Kling 3.0 1080p (Pro) obsadil #1 místo v žebříčcích Text to Video jak v With Audio, tak Without Audio v oblasti umělé analýzy videa, čímž překonal Grok Imagine, Runway Gen-4.5 a Veo 3.1!
Ve formátu Image to Video se Kling 3.0 1080p (Pro) umisťuje na #4 v žebříčku With Audio a na #6 v No Audio, za Grok Imagine a PixVerse V5.6.
Kling 3.0 je nejnovější vydání od @Kling_ai, což představuje velký skok oproti jejich modelům Kling 2.6. Model je dostupný v úrovních 1080p (Pro) a 720p (Standard) a podporuje až 15sekundové generace i nativní generování zvuku.
Kling také vydal Kling 3.0 Omni, multimodální model, který přesahuje generování videa a podporuje obrazové a video vstupy, střih videa a generování videa v jednom jednotném modelu. Kling 3.0 Omni 1080p (Pro) a Omni 720p (Standard) také podávají silné výkony, přičemž Omni 1080p (Pro) umístil #2 v Text to Video s audio a #4 v No Audio.
Kling 3.0 je dostupný prostřednictvím aplikace Kling AI a přes API na @fal. Kling 3.0 1080p (Pro) stojí ~$13/min bez audia a ~$20/min s audio, zatímco 720p (Standard) stojí ~$10/min a ~$15/min. Bez zvuku je 1080p (Pro) srovnatelné s Veo 3.1 za 12 dolarů/min, i když s výraznou výhodou oproti Kling 2.5 Turbo a Grok Imagine za 4,20 $/min.
Níže naleznete srovnání mezi Kling 3.0 1080p (Pro) a dalšími předními modely v naší oblasti Artificial Analysis Video Arena 🧵

130
Inception Labs uvedla na trh Mercury 2, svou novou generaci produkčně připraveného Diffusion LLM. Mercury 2 dosahuje >1 000 výstupních tokenů/s s výrazným nárůstem inteligence
Difuzní LLM ("dLLM") od @_inception_ai používají odlišnou architekturu než LLM založené na autoregresi. Proces generování LLM v Diffusion začíná šumem a iterativně upravuje výstup pomocí transformátorového modelu, který může paralelně upravovat více tokenů. To umožňuje paralelizaci generování výstupních tokenů, což umožňuje rychlejší výstupní rychlosti, protože mnoho výstupních tokenů je generováno současně.
Hlavní poznatky:
➤ Mezi modely srovnatelné velikosti a cenové třídy si Mercury 2 vede konkurenceschopně v poměru inteligence versus rychlosti výstupu. I když nemá špičkovou inteligenci, jeho výstupní rychlost je více než třikrát rychlejší oproti dalšímu nejrychlejšímu modelu v této kategorii (benchmarky založené na koncových bodech první strany nebo mediánu poskytovatelů obsluhujících model, kde není dostupný koncový bod první strany)
➤ Klíčové silné stránky zahrnují agentické kódování, použití terminálu a sledování instrukcí. Mercury 2 dosahuje podobných výsledků jako Claude 4.5 Haiku na Terminal-Bench Hard a dosahuje 70 % na IFBench (Instruction Following), překonává GPT-OSS-120B, GPT-5.1 Codex mini a GPT-5 nano
Pozadí Inception Labs:
Toto je druhé vydání od Inception Labs. Zakladatelé byli dříve profesoři ze Stanfordu, UCLA a Cornell a přispěli k výzkumu a technologiím AI včetně Flash Attention, Decision Transformers a Direct Preference Optimization (DPO).
Další analýzu naleznete níže.

11,29K
Top
Hodnocení
Oblíbené
