Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Artificial Analysis

Análisis independiente de modelos de IA y proveedores de alojamiento: elija el mejor modelo y proveedor de API para su caso de uso

Alibaba ha ampliado su familia de modelos Qwen3.5 con 3 nuevos modelos: el modelo 27B destaca, obteniendo 42 puntos en el Índice de Inteligencia de Análisis Artificial y modelos de peso abierto igualados entre 8 y 25 veces su tamaño @Alibaba_Qwen ha ampliado la familia Qwen3.5 con tres nuevos modelos junto al buque insignia 397B lanzado a principios de este mes: el Qwen3.5 27B (Dense, con 42 puntos en el Índice de Inteligencia), Qwen3.5 122B A10B (MoE, 42) y Qwen3.5 35B A3B (MoE, 37). Los dos modelos MoE (Mezcla de Expertos) solo activan una fracción del total de parámetros por pasada hacia adelante (10B de 122B y ~3B de 35B respectivamente). El Índice de Inteligencia es nuestra métrica de síntesis que incorpora 10 evaluaciones que abarcan razonamiento general, tareas agentiales, codificación y razonamiento científico. Todos los modelos tienen licencia Apache 2.0, soportan de forma nativa el contexto 262K y vuelven a la arquitectura híbrida de pensamiento/no pensamiento unificado del Qwen3 original, después de que Alibaba pasara a puntos de control separados de Instrucción y Razonamiento con las actualizaciones Qwen3 2507. Resultados clave de comparación para las variantes de razonamiento: ➤ Qwen3.5 27B obtiene una puntuación de 42 en el Índice de Inteligencia y es el modelo más inteligente por debajo de 230B. El modelo más cercano de tamaño similar es el GLM-4.7-Flash (31B totales, 3B activos) que obtiene 30. Los modelos de pesos abiertos de inteligencia equivalente son 8-25 veces mayores en términos de parámetros totales: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) y GLM-4.7 (357B, 42). En precisión FP8 se necesitan ~27GB para almacenar los pesos de los modelos, mientras que en cuantización de 4 bits puedes usar hardware de calidad portátil con 16GB+ de RAM ➤ Qwen3.5 27B obtiene una puntuación de 1205 en GDPval-AA (Tareas de Trabajo Real-Realista Agente), situándolo junto a modelos más grandes. Para contextualizar, MiniMax-M2.5 obtiene 1206, GLM-4.7 (Razonamiento) 1200 y DeepSeek V3.2 (Razonamiento) 1194. Esto es especialmente notable para un modelo de 27B parámetros y sugiere una fuerte capacidad agente para su tamaño. GDPval-AA prueba modelos sobre tareas del mundo real en 44 ocupaciones y 9 industrias principales ➤ AA-Omnisciencia sigue siendo una debilidad relativa en la familia Qwen3.5, impulsada principalmente por una menor precisión más que por la tasa de alucinaciones. Qwen3.5 27B obtiene -42 en AA-Omnisciencia, comparable a MiniMax-M2.5 (-40) pero por detrás de DeepSeek V3.2 (-21) y GLM-4.7 (-35). Aunque la tasa de alucinaciones de Qwen3.5 27B (80%) es inferior a la de sus pares (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), su precisión también es menor, con un 21% frente al 34% de DeepSeek V3.2 y 29% de GLM-4.7. Esto probablemente sea consecuencia del tamaño del modelo: generalmente hemos observado que los modelos con más parámetros totales rinden mejor en precisión en AA-Omnisciencia, ya que el recuerdo de conocimiento más amplio se beneficia de un mayor número de parámetros ➤ Qwen3.5 27B es equivalentemente inteligente a Qwen3.5 122B A10B. El 122B A10B es un modelo Mix-of-Experts que solo activa 10B de sus 122B parámetros totales por pasada hacia adelante. El modelo 27B lidera en GDPval-AA (1205 Elo frente a 1145 Elo) y ligeramente en TerminalBench (+1,5 p.p.), mientras que el modelo 122B lidera en SciCode (+2,5 p.p.), HLE (+1,2 p.p.) y tiene una tasa de alucinaciones más baja (Omniscience -40 frente a -42) ➤ Qwen3.5 35B A3B (Reasoning, 37) es el modelo más inteligente con ~3B parámetros activos, 7 puntos por delante de GLM-4.7-Flash (30). Otros modelos en esta categoría activa ~3B incluyen Qwen3 Coder Next (80B totales, 28), Qwen3 Next 80B A3B (27) y NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B utilizó 98 millones de tokens de salida para ejecutar el Índice de Inteligencia, con un coste de ~$299 vía Alibaba Cloud API. Esto es un uso notablemente alto de tokens en comparación con modelos con inteligencia similar: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) e incluso el más grande Qwen3.5 397B (86M). Otra información: ➤ Ventana de contexto: 262K tokens (extendible a 1M vía YaRN) ➤ Licencia: Apache 2.0 ➤ Precios de la API (Alibaba Cloud): 397B: 0,60$/$3,60, 122B: $0,40/$3,20, 27B: $0,30/$2,40, 35B. A3B: $0,25/$2,00 por cada 1M de tokens de entrada/salida

Populares

Ranking

Favoritas