Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Niezależna analiza modeli AI i dostawców usług hostingowych - wybierz najlepszego dostawcę modelu i API dla swojego przypadku użycia
Alibaba rozszerzył swoją rodzinę modeli Qwen3.5 o 3 nowe modele - model 27B wyróżnia się, zdobywając 42 punkty w Indeksie Analizy Sztucznej Inteligencji i dorównując modelom o otwartych wagach, które są 8-25 razy większe
@Alibaba_Qwen rozszerzył rodzinę Qwen3.5 o trzy nowe modele obok flagowego modelu 397B wydanego na początku tego miesiąca: Qwen3.5 27B (gęsty, zdobywający 42 punkty w Indeksie Inteligencji), Qwen3.5 122B A10B (MoE, 42) oraz Qwen3.5 35B A3B (MoE, 37). Dwa modele MoE (Mixture-of-Experts) aktywują tylko część całkowitych parametrów na jeden przebieg (10B z 122B i ~3B z 35B odpowiednio). Indeks Inteligencji to nasza metryka syntezująca, obejmująca 10 ocen dotyczących ogólnego rozumowania, zadań agentowych, kodowania i rozumowania naukowego.
Wszystkie modele są licencjonowane na podstawie Apache 2.0, natywnie obsługują 262K kontekstu i wracają do zjednoczonej architektury myślenia/niemyslenia hybrydowego z oryginalnego Qwen3, po tym jak Alibaba przeszedł do oddzielnych punktów kontrolnych Instruct i Reasoning z aktualizacjami Qwen3 2507.
Kluczowe wyniki benchmarków dla wariantów rozumowania:
➤ Qwen3.5 27B zdobywa 42 punkty w Indeksie Inteligencji i jest najinteligentniejszym modelem poniżej 230B. Najbliższy model o podobnej wielkości to GLM-4.7-Flash (31B całkowite, 3B aktywne), który zdobywa 30 punktów. Modele o otwartych wagach o równoważnej inteligencji są 8-25 razy większe pod względem całkowitych parametrów: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) i GLM-4.7 (357B, 42). W precyzji FP8 zajmuje ~27GB, aby przechować wagi modelu, podczas gdy w kwantyzacji 4-bitowej można używać sprzętu o jakości laptopa z 16GB+ RAM
➤ Qwen3.5 27B zdobywa 1205 punktów w GDPval-AA (Agentowe Zrealizowane Prace w Świecie), co stawia go obok większych modeli. Dla kontekstu, MiniMax-M2.5 zdobywa 1206, GLM-4.7 (Rozumowanie) zdobywa 1200, a DeepSeek V3.2 (Rozumowanie) zdobywa 1194. To jest szczególnie godne uwagi dla modelu o 27B parametrach i sugeruje silne zdolności agentowe jak na jego rozmiar. Testy GDPval-AA oceniają modele w rzeczywistych zadaniach w 44 zawodach i 9 głównych branżach
➤ AA-Omniscience pozostaje względną słabością w całej rodzinie Qwen3.5, napędzaną głównie przez niższą dokładność, a nie wskaźnik halucynacji. Qwen3.5 27B zdobywa -42 w AA-Omniscience, porównywalnie z MiniMax-M2.5 (-40), ale za DeepSeek V3.2 (-21) i GLM-4.7 (-35). Chociaż wskaźnik halucynacji Qwen3.5 27B (80%) jest niższy niż u rówieśników (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), jego dokładność jest również niższa na poziomie 21% w porównaniu do 34% dla DeepSeek V3.2 i 29% dla GLM-4.7. To prawdopodobnie jest konsekwencją rozmiaru modelu - ogólnie zaobserwowaliśmy, że modele z większą liczbą całkowitych parametrów lepiej radzą sobie z dokładnością w AA-Omniscience, ponieważ szersze przypomnienie wiedzy korzysta z większej liczby parametrów
➤ Qwen3.5 27B jest równoważnie inteligentny jak Qwen3.5 122B A10B. 122B A10B to model Mixture-of-Experts, który aktywuje tylko 10B ze swoich 122B całkowitych parametrów na jeden przebieg. Model 27B prowadzi w GDPval-AA (1205 Elo vs 1145 Elo) i nieznacznie w TerminalBench (+1.5 p.p.), podczas gdy model 122B prowadzi w SciCode (+2.5 p.p.), HLE (+1.2 p.p.) i ma niższy wskaźnik halucynacji (Omniscience -40 vs -42)
➤ Qwen3.5 35B A3B (Rozumowanie, 37) jest najinteligentniejszym modelem z ~3B aktywnych parametrów, 7 punktów przed GLM-4.7-Flash (30). Inne modele w tej kategorii ~3B aktywnych to Qwen3 Coder Next (80B całkowite, 28), Qwen3 Next 80B A3B (27) oraz NVIDIA Nemotron 3 Nano 30B A3B (24)
➤ Qwen3.5 27B użył 98M tokenów wyjściowych do uruchomienia Indeksu Inteligencji, kosztując ~$299 za pośrednictwem API Alibaba Cloud. To jest zauważalnie wysokie zużycie tokenów w porównaniu do modeli o podobnej inteligencji: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M), a nawet większy Qwen3.5 397B (86M).
Inne informacje:
➤ Okno kontekstowe: 262K tokenów (rozszerzalne do 1M za pomocą YaRN)
➤ Licencja: Apache 2.0
➤ Ceny API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 za 1M tokenów wejściowych/wyjściowych

3,61K
Kling 3.0 1080p (Pro) zajmuje 1. miejsce w kategorii Tekst na Wideo zarówno w rankingu z Dźwiękiem, jak i Bez Dźwięku w Arenie Wideo Analizy Sztucznej, wyprzedzając Grok Imagine, Runway Gen-4.5 i Veo 3.1!
W kategorii Obraz na Wideo, Kling 3.0 1080p (Pro) zajmuje 4. miejsce w rankingu z Dźwiękiem i 6. miejsce w Bez Dźwięku, ustępując Grok Imagine i PixVerse V5.6.
Kling 3.0 to najnowsza wersja od @Kling_ai, reprezentująca znaczący skok w porównaniu do ich modeli Kling 2.6. Model dostępny jest w jakościach 1080p (Pro) i 720p (Standard) i obsługuje generacje do 15 sekund oraz natywną generację dźwięku.
Kling wydał również Kling 3.0 Omni, model multimodalny, który wykracza poza generację wideo, wspierając wejścia obrazowe i wideo, edycję wideo oraz generację wideo w jednym zintegrowanym modelu. Kling 3.0 Omni 1080p (Pro) i Omni 720p (Standard) również osiągają dobre wyniki, przy czym Omni 1080p (Pro) zajmuje 2. miejsce w kategorii Tekst na Wideo z Dźwiękiem i 4. miejsce w Bez Dźwięku.
Kling 3.0 jest dostępny za pośrednictwem aplikacji Kling AI oraz przez API na @fal. Kling 3.0 1080p (Pro) kosztuje około 13 USD/min bez dźwięku i około 20 USD/min z dźwiękiem, podczas gdy 720p (Standard) kosztuje odpowiednio około 10 USD/min i 15 USD/min. Bez dźwięku, 1080p (Pro) jest porównywalne z Veo 3.1, które kosztuje 12 USD/min, chociaż jest znacznie droższe od Kling 2.5 Turbo i Grok Imagine, które kosztują 4.20 USD/min.
Zobacz poniżej porównania między Kling 3.0 1080p (Pro) a innymi wiodącymi modelami w naszej Arenie Wideo Analizy Sztucznej 🧵

178
Inception Labs uruchomiło Mercury 2, swoją gotową do produkcji, nowej generacji Diffusion LLM. Mercury 2 osiąga >1,000 tokenów wyjściowych/s z znacznymi zyskami w inteligencji
dLLM-y Inception Labs („dLLMs”) używają innej architektury w porównaniu do LLM-ów opartych na autoregresji. Proces generacji Diffusion LLM zaczyna się od szumów i iteracyjnie udoskonala wyjście za pomocą modelu transformera, który może modyfikować wiele tokenów równolegle. Umożliwia to równoległe generowanie tokenów wyjściowych, co pozwala na szybsze prędkości wyjścia, ponieważ wiele tokenów wyjściowych jest generowanych jednocześnie.
Kluczowe wnioski:
➤ Wśród modeli o porównywalnej wielkości/klasie cenowej, Mercury 2 wypada konkurencyjnie pod względem inteligencji w porównaniu do prędkości wyjścia. Chociaż nie ma wiodącej inteligencji, jego prędkość wyjścia jest ponad 3 razy szybsza niż w przypadku następnego najszybszego modelu w tej klasie (benchmarki oparte na punktach końcowych pierwszej strony lub medianie dostawców obsługujących model, gdzie punkt końcowy pierwszej strony nie jest dostępny)
➤ Kluczowe mocne strony to agentowe kodowanie i użycie terminala oraz przestrzeganie instrukcji. Mercury 2 osiąga podobny poziom do Claude 4.5 Haiku w Terminal-Bench Hard i zdobywa 70% w IFBench (Instruction Following), przewyższając gpt-oss-120B, GPT-5.1 Codex mini i GPT-5 nano
Tło Inception Labs:
To druga wersja od Inception Labs. Założyciele byli wcześniej profesorami na Stanfordzie, UCLA i Cornell i przyczynili się do badań i technologii AI, w tym Flash Attention, Decision Transformers i Direct Preference Optimization (DPO).
Zobacz poniżej dalszą analizę.

11,34K
Najlepsze
Ranking
Ulubione
