Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Analyse indépendante des modèles d’IA et des fournisseurs d’hébergement - choisissez le meilleur modèle et le meilleur fournisseur d’API pour votre cas d’utilisation
Alibaba a élargi sa famille de modèles Qwen3.5 avec 3 nouveaux modèles - le modèle 27B se distingue, obtenant un score de 42 sur l'Indice d'Analyse de l'Intelligence Artificielle et égalant des modèles à poids ouverts de 8 à 25 fois sa taille
@Alibaba_Qwen a élargi la famille Qwen3.5 avec trois nouveaux modèles aux côtés du modèle phare 397B lancé plus tôt ce mois-ci : le Qwen3.5 27B (Dense, obtenant un score de 42 sur l'Indice d'Intelligence), le Qwen3.5 122B A10B (MoE, 42) et le Qwen3.5 35B A3B (MoE, 37). Les deux modèles MoE (Mixture-of-Experts) n'activent qu'une fraction des paramètres totaux par passage avant (10B de 122B et ~3B de 35B respectivement). L'Indice d'Intelligence est notre métrique de synthèse incorporant 10 évaluations couvrant le raisonnement général, les tâches agentiques, le codage et le raisonnement scientifique.
Tous les modèles sont sous licence Apache 2.0, prennent en charge nativement 262K de contexte et reviennent à l'architecture hybride de pensée/non-pensée unifiée de l'original Qwen3, après qu'Alibaba soit passé à des points de contrôle séparés pour l'Instruction et le Raisonnement avec les mises à jour Qwen3 2507.
Principaux résultats de benchmarking pour les variantes de raisonnement :
➤ Le Qwen3.5 27B obtient un score de 42 sur l'Indice d'Intelligence et est le modèle le plus intelligent sous 230B. Le modèle le plus proche de taille similaire est GLM-4.7-Flash (31B au total, 3B actifs) qui obtient un score de 30. Les modèles à poids ouverts d'intelligence équivalente sont 8 à 25 fois plus grands en termes de paramètres totaux : MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) et GLM-4.7 (357B, 42). En précision FP8, il faut ~27 Go pour stocker les poids du modèle, tandis qu'en quantification 4 bits, vous pouvez utiliser du matériel de qualité ordinateur portable avec 16 Go+ de RAM
➤ Le Qwen3.5 27B obtient un score de 1205 sur GDPval-AA (Tâches de Travail Réelles Agentiques), le plaçant aux côtés de modèles plus grands. Pour le contexte, MiniMax-M2.5 obtient 1206, GLM-4.7 (Raisonnement) obtient 1200, et DeepSeek V3.2 (Raisonnement) obtient 1194. Cela est particulièrement notable pour un modèle de 27B de paramètres et suggère une forte capacité agentique pour sa taille. GDPval-AA teste les modèles sur des tâches réelles à travers 44 professions et 9 grandes industries
➤ AA-Omniscience reste une faiblesse relative à travers la famille Qwen3.5, principalement due à une précision inférieure plutôt qu'à un taux d'hallucination. Le Qwen3.5 27B obtient -42 sur AA-Omniscience, comparable à MiniMax-M2.5 (-40) mais derrière DeepSeek V3.2 (-21) et GLM-4.7 (-35). Bien que le taux d'hallucination du Qwen3.5 27B (80%) soit inférieur à celui des pairs (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), sa précision est également inférieure à 21% contre 34% pour DeepSeek V3.2 et 29% pour GLM-4.7. Cela est probablement une conséquence de la taille du modèle - nous avons généralement observé que les modèles avec plus de paramètres totaux obtiennent de meilleurs résultats en précision dans AA-Omniscience, car un rappel de connaissances plus large bénéficie de comptes de paramètres plus importants
➤ Le Qwen3.5 27B est équivalemment intelligent au Qwen3.5 122B A10B. Le 122B A10B est un modèle Mixture-of-Experts qui n'active que 10B de ses 122B de paramètres totaux par passage avant. Le modèle 27B mène en GDPval-AA (1205 Elo contre 1145 Elo) et légèrement sur TerminalBench (+1,5 p.p.), tandis que le modèle 122B mène sur SciCode (+2,5 p.p.), HLE (+1,2 p.p.), et a un taux d'hallucination plus bas (Omniscience -40 contre -42)
➤ Le Qwen3.5 35B A3B (Raisonnement, 37) est le modèle le plus intelligent avec ~3B de paramètres actifs, 7 points devant GLM-4.7-Flash (30). D'autres modèles dans cette catégorie d'environ 3B actifs incluent Qwen3 Coder Next (80B au total, 28), Qwen3 Next 80B A3B (27), et NVIDIA Nemotron 3 Nano 30B A3B (24)
➤ Le Qwen3.5 27B a utilisé 98M de tokens de sortie pour exécuter l'Indice d'Intelligence, coûtant environ 299 $ via l'API Alibaba Cloud. Cela est remarquablement élevé en termes d'utilisation de tokens par rapport aux modèles d'intelligence similaire : MiniMax-M2.5 (56M), DeepSeek V3.2 (61M), et même le plus grand Qwen3.5 397B (86M).
Autres informations :
➤ Fenêtre de contexte : 262K tokens (extensible à 1M via YaRN)
➤ Licence : Apache 2.0
➤ Tarification API (Alibaba Cloud) : 397B : 0,60 $ / 3,60 $, 122B : 0,40 $ / 3,20 $, 27B : 0,30 $ / 2,40 $, 35B A3B : 0,25 $ / 2,00 $ par 1M de tokens d'entrée/sortie

3,58K
Kling 3.0 1080p (Pro) prend la première place dans le classement Text to Video, tant avec audio qu sans audio, dans l'Arène Vidéo d'Analyse Artificielle, surpassant Grok Imagine, Runway Gen-4.5 et Veo 3.1 !
Dans le classement Image to Video, Kling 3.0 1080p (Pro) se classe #4 dans le classement Avec Audio et #6 dans Sans Audio, derrière Grok Imagine et PixVerse V5.6.
Kling 3.0 est la dernière version de @Kling_ai, représentant un bond majeur par rapport à leurs modèles Kling 2.6. Le modèle est disponible en qualité 1080p (Pro) et 720p (Standard), et prend en charge des générations allant jusqu'à 15 secondes ainsi que la génération audio native.
Kling a également lancé Kling 3.0 Omni, un modèle multimodal qui va au-delà de la génération vidéo pour prendre en charge les entrées d'images et de vidéos, le montage vidéo et la génération vidéo dans un modèle unifié. Kling 3.0 Omni 1080p (Pro) et Omni 720p (Standard) se comportent également très bien, avec Omni 1080p (Pro) se classant #2 dans Text to Video Avec Audio et #4 dans Sans Audio.
Kling 3.0 est disponible via l'application Kling AI et via API sur @fal. Kling 3.0 1080p (Pro) coûte environ 13 $/min sans audio et environ 20 $/min avec audio, tandis que 720p (Standard) est à environ 10 $/min et 15 $/min respectivement. Sans audio, 1080p (Pro) est comparable à Veo 3.1 à 12 $/min, bien qu'il soit significativement plus cher que Kling 2.5 Turbo et Grok Imagine à 4,20 $/min.
Voir ci-dessous pour des comparaisons entre Kling 3.0 1080p (Pro) et d'autres modèles leaders dans notre Arène Vidéo d'Analyse Artificielle 🧵

159
Inception Labs a lancé Mercury 2, leur LLM de diffusion prêt pour la production de nouvelle génération. Mercury 2 atteint >1 000 tokens de sortie/s avec des gains significatifs en intelligence
Les LLM de diffusion d'@_inception_ai (“dLLMs”) utilisent une architecture différente par rapport aux LLM basés sur l'autoregression. Le processus de génération de LLM de diffusion commence par du bruit et affine itérativement la sortie en utilisant un modèle de transformateur qui peut modifier plusieurs tokens en parallèle. Cela permet la parallélisation de la génération de tokens de sortie, permettant des vitesses de sortie plus rapides car de nombreux tokens de sortie sont générés en même temps.
Points clés à retenir :
➤ Parmi les modèles de taille/prix comparable, Mercury 2 se classe de manière compétitive en intelligence par rapport à la vitesse de sortie. Bien qu'il n'ait pas l'intelligence de pointe, sa vitesse de sortie est plus de 3 fois celle du modèle le plus rapide de cette classe (benchmarks basés sur des points de terminaison de première partie ou la médiane des fournisseurs servant le modèle où un point de terminaison de première partie n'est pas disponible)
➤ Les forces clés incluent le codage agentique et l'utilisation terminale ainsi que le suivi des instructions. Mercury 2 performe à un niveau similaire à Claude 4.5 Haiku sur Terminal-Bench Hard et obtient 70 % sur IFBench (Instruction Following), surpassant gpt-oss-120B, GPT-5.1 Codex mini et GPT-5 nano
Contexte d'Inception Labs :
C'est la deuxième sortie d'Inception Labs. Les fondateurs étaient auparavant professeurs à Stanford, UCLA et Cornell et ont contribué à la recherche et aux technologies en IA, y compris Flash Attention, Decision Transformers et Direct Preference Optimization (DPO).
Voir ci-dessous pour une analyse plus approfondie.

11,32K
Meilleurs
Classement
Favoris
