Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Unabhängige Analyse von KI-Modellen und Hosting-Providern - wählen Sie das beste Modell und den besten API-Anbieter für Ihren Anwendungsfall
Alibaba hat seine Qwen3.5-Modellfamilie mit 3 neuen Modellen erweitert - das 27B-Modell sticht hervor und erzielt 42 im Artificial Analysis Intelligence Index und erreicht die offenen Gewichtungsmodelle, die 8-25x so groß sind.
@Alibaba_Qwen hat die Qwen3.5-Familie mit drei neuen Modellen neben dem 397B-Flaggschiff, das Anfang dieses Monats veröffentlicht wurde, erweitert: das Qwen3.5 27B (Dense, erzielt 42 im Intelligence Index), Qwen3.5 122B A10B (MoE, 42) und Qwen3.5 35B A3B (MoE, 37). Die beiden MoE (Mixture-of-Experts)-Modelle aktivieren nur einen Bruchteil der gesamten Parameter pro Vorwärtsdurchlauf (10B von 122B und ~3B von 35B). Der Intelligence Index ist unser Synthesemaß, das 10 Bewertungen umfasst, die allgemeines Denken, agentische Aufgaben, Programmierung und wissenschaftliches Denken abdecken.
Alle Modelle sind unter der Apache 2.0-Lizenz lizenziert, unterstützen nativ 262K Kontext und kehren zur einheitlichen Denk-/Nicht-Denk-Hybridarchitektur des ursprünglichen Qwen3 zurück, nachdem Alibaba mit den Qwen3 2507-Updates zu separaten Instruct- und Reasoning-Checkpoints gewechselt ist.
Wichtige Benchmark-Ergebnisse für die Denkvarianten:
➤ Qwen3.5 27B erzielt 42 im Intelligence Index und ist das intelligenteste Modell unter 230B. Das nächstgelegene Modell ähnlicher Größe ist GLM-4.7-Flash (31B insgesamt, 3B aktiv), das 30 erzielt. Offene Gewichtungsmodelle mit vergleichbarer Intelligenz sind 8-25x größer in Bezug auf die Gesamtparameter: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) und GLM-4.7 (357B, 42). In FP8-Präzision benötigt es ~27GB, um die Modellgewichte zu speichern, während Sie bei 4-Bit-Quantisierung Hardware in Laptop-Qualität mit 16GB+ RAM verwenden können.
➤ Qwen3.5 27B erzielt 1205 im GDPval-AA (Agentic Real-World Work Tasks) und platziert sich neben größeren Modellen. Zum Kontext: MiniMax-M2.5 erzielt 1206, GLM-4.7 (Reasoning) erzielt 1200 und DeepSeek V3.2 (Reasoning) erzielt 1194. Dies ist besonders bemerkenswert für ein Modell mit 27B Parametern und deutet auf starke agentische Fähigkeiten für seine Größe hin. GDPval-AA testet Modelle in realen Aufgaben über 44 Berufe und 9 Hauptindustrien.
➤ AA-Omniscience bleibt eine relative Schwäche in der Qwen3.5-Familie, die hauptsächlich durch geringere Genauigkeit und nicht durch die Halluzinationsrate bedingt ist. Qwen3.5 27B erzielt -42 in AA-Omniscience, vergleichbar mit MiniMax-M2.5 (-40), aber hinter DeepSeek V3.2 (-21) und GLM-4.7 (-35). Obwohl die Halluzinationsrate von Qwen3.5 27B (80%) niedriger ist als die der Mitbewerber (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), ist die Genauigkeit mit 21% im Vergleich zu 34% für DeepSeek V3.2 und 29% für GLM-4.7 ebenfalls niedriger. Dies ist wahrscheinlich eine Folge der Modellgröße - wir haben allgemein beobachtet, dass Modelle mit mehr Gesamtparametern in der Genauigkeit bei AA-Omniscience besser abschneiden, da das breitere Wissen von größeren Parameterzahlen profitiert.
➤ Qwen3.5 27B ist gleich intelligent wie Qwen3.5 122B A10B. Das 122B A10B ist ein Mixture-of-Experts-Modell, das nur 10B seiner insgesamt 122B Parametern pro Vorwärtsdurchlauf aktiviert. Das 27B-Modell führt in GDPval-AA (1205 Elo vs 1145 Elo) und leicht bei TerminalBench (+1,5 p.p.), während das 122B-Modell bei SciCode (+2,5 p.p.), HLE (+1,2 p.p.) führt und eine niedrigere Halluzinationsrate hat (Omniscience -40 vs -42).
➤ Qwen3.5 35B A3B (Reasoning, 37) ist das intelligenteste Modell mit ~3B aktiven Parametern, 7 Punkte vor GLM-4.7-Flash (30). Andere Modelle in dieser ~3B aktiven Kategorie sind Qwen3 Coder Next (80B insgesamt, 28), Qwen3 Next 80B A3B (27) und NVIDIA Nemotron 3 Nano 30B A3B (24).
➤ Qwen3.5 27B verwendete 98M Ausgabetoken, um den Intelligence Index auszuführen, was ~$299 über die Alibaba Cloud API kostet. Dies ist im Vergleich zu Modellen mit ähnlicher Intelligenz bemerkenswert hoch: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) und sogar das größere Qwen3.5 397B (86M).
Weitere Informationen:
➤ Kontextfenster: 262K Tokens (erweiterbar auf 1M über YaRN)
➤ Lizenz: Apache 2.0
➤ API-Preise (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 pro 1M Eingabe-/Ausgabetokens

3,55K
Kling 3.0 1080p (Pro) belegt den 1. Platz in Text zu Video auf beiden Ranglisten mit Audio und ohne Audio in der Artificial Analysis Video Arena und übertrifft Grok Imagine, Runway Gen-4.5 und Veo 3.1!
Im Bereich Bild zu Video belegt Kling 3.0 1080p (Pro) den 4. Platz in der Rangliste mit Audio und den 6. Platz ohne Audio, hinter Grok Imagine und PixVerse V5.6.
Kling 3.0 ist die neueste Veröffentlichung von @Kling_ai und stellt einen großen Fortschritt gegenüber ihren Kling 2.6 Modellen dar. Das Modell ist in den Qualitätsstufen 1080p (Pro) und 720p (Standard) erhältlich und unterstützt Generationen von bis zu 15 Sekunden sowie native Audio-Generierung.
Kling hat auch Kling 3.0 Omni veröffentlicht, ein multimodales Modell, das über die Video-Generierung hinausgeht und Bild- und Videoeingaben, Video-Bearbeitung und Video-Generierung in einem einzigen einheitlichen Modell unterstützt. Kling 3.0 Omni 1080p (Pro) und Omni 720p (Standard) schneiden ebenfalls stark ab, wobei Omni 1080p (Pro) den 2. Platz in Text zu Video mit Audio und den 4. Platz ohne Audio belegt.
Kling 3.0 ist über die Kling AI App und über die API auf @fal verfügbar. Kling 3.0 1080p (Pro) kostet ~$13/min ohne Audio und ~$20/min mit Audio, während 720p (Standard) bei ~$10/min und ~$15/min liegt. Ohne Audio ist 1080p (Pro) vergleichbar mit Veo 3.1 zu $12/min, obwohl es einen erheblichen Aufpreis gegenüber Kling 2.5 Turbo und Grok Imagine zu $4.20/min hat.
Siehe unten für Vergleiche zwischen Kling 3.0 1080p (Pro) und anderen führenden Modellen in unserer Artificial Analysis Video Arena 🧵

138
Inception Labs hat Mercury 2, ihr produktionsbereites Diffusion LLM der nächsten Generation, gestartet. Mercury 2 erreicht >1.000 Ausgabetokens/s mit erheblichen Fortschritten in der Intelligenz
Die Diffusion LLMs („dLLMs“) von @_inception_ai verwenden eine andere Architektur im Vergleich zu autoregressiven LLMs. Der Generierungsprozess des Diffusion LLM beginnt mit Rauschen und verfeinert iterativ die Ausgabe mithilfe eines Transformer-Modells, das mehrere Tokens parallel modifizieren kann. Dies ermöglicht die Parallelisierung der Generierung von Ausgabetokens, was schnellere Ausgabegeschwindigkeiten ermöglicht, da viele Ausgabetokens gleichzeitig generiert werden.
Wichtige Erkenntnisse:
➤ Unter vergleichbaren Modellen der gleichen Größe/Preisklasse schneidet Mercury 2 in Bezug auf Intelligenz im Vergleich zur Ausgabegeschwindigkeit wettbewerbsfähig ab. Während es nicht die führende Intelligenz hat, ist seine Ausgabegeschwindigkeit mehr als 3X schneller als das nächstschnellste Modell in dieser Klasse (Benchmarks basierend auf First-Party-Endpunkten oder dem Median der Anbieter, die das Modell bereitstellen, wenn kein First-Party-Endpunkt verfügbar ist)
➤ Zu den wichtigsten Stärken gehören agentisches Codieren & Terminalnutzung sowie das Befolgen von Anweisungen. Mercury 2 schneidet auf dem Terminal-Bench Hard auf ähnlichem Niveau wie Claude 4.5 Haiku ab und erzielt 70 % auf IFBench (Instruction Following), was gpt-oss-120B, GPT-5.1 Codex mini und GPT-5 nano übertrifft.
Hintergrund von Inception Labs:
Dies ist die zweite Veröffentlichung von Inception Labs. Die Gründer waren zuvor Professoren an Stanford, UCLA und Cornell und haben zur KI-Forschung und -Technologien beigetragen, darunter Flash Attention, Decision Transformers und Direct Preference Optimization (DPO).
Siehe unten für weitere Analysen.

11,3K
Top
Ranking
Favoriten
