Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Análisis independiente de modelos de IA y proveedores de alojamiento: elija el mejor modelo y proveedor de API para su caso de uso
Alibaba ha ampliado su familia de modelos Qwen3.5 con 3 nuevos modelos: el modelo 27B destaca, obteniendo 42 puntos en el Índice de Inteligencia de Análisis Artificial y modelos de peso abierto igualados entre 8 y 25 veces su tamaño
@Alibaba_Qwen ha ampliado la familia Qwen3.5 con tres nuevos modelos junto al buque insignia 397B lanzado a principios de este mes: el Qwen3.5 27B (Dense, con 42 puntos en el Índice de Inteligencia), Qwen3.5 122B A10B (MoE, 42) y Qwen3.5 35B A3B (MoE, 37). Los dos modelos MoE (Mezcla de Expertos) solo activan una fracción del total de parámetros por pasada hacia adelante (10B de 122B y ~3B de 35B respectivamente). El Índice de Inteligencia es nuestra métrica de síntesis que incorpora 10 evaluaciones que abarcan razonamiento general, tareas agentiales, codificación y razonamiento científico.
Todos los modelos tienen licencia Apache 2.0, soportan de forma nativa el contexto 262K y vuelven a la arquitectura híbrida de pensamiento/no pensamiento unificado del Qwen3 original, después de que Alibaba pasara a puntos de control separados de Instrucción y Razonamiento con las actualizaciones Qwen3 2507.
Resultados clave de comparación para las variantes de razonamiento:
➤ Qwen3.5 27B obtiene una puntuación de 42 en el Índice de Inteligencia y es el modelo más inteligente por debajo de 230B. El modelo más cercano de tamaño similar es el GLM-4.7-Flash (31B totales, 3B activos) que obtiene 30. Los modelos de pesos abiertos de inteligencia equivalente son 8-25 veces mayores en términos de parámetros totales: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) y GLM-4.7 (357B, 42). En precisión FP8 se necesitan ~27GB para almacenar los pesos de los modelos, mientras que en cuantización de 4 bits puedes usar hardware de calidad portátil con 16GB+ de RAM
➤ Qwen3.5 27B obtiene una puntuación de 1205 en GDPval-AA (Tareas de Trabajo Real-Realista Agente), situándolo junto a modelos más grandes. Para contextualizar, MiniMax-M2.5 obtiene 1206, GLM-4.7 (Razonamiento) 1200 y DeepSeek V3.2 (Razonamiento) 1194. Esto es especialmente notable para un modelo de 27B parámetros y sugiere una fuerte capacidad agente para su tamaño. GDPval-AA prueba modelos sobre tareas del mundo real en 44 ocupaciones y 9 industrias principales
➤ AA-Omnisciencia sigue siendo una debilidad relativa en la familia Qwen3.5, impulsada principalmente por una menor precisión más que por la tasa de alucinaciones. Qwen3.5 27B obtiene -42 en AA-Omnisciencia, comparable a MiniMax-M2.5 (-40) pero por detrás de DeepSeek V3.2 (-21) y GLM-4.7 (-35). Aunque la tasa de alucinaciones de Qwen3.5 27B (80%) es inferior a la de sus pares (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), su precisión también es menor, con un 21% frente al 34% de DeepSeek V3.2 y 29% de GLM-4.7. Esto probablemente sea consecuencia del tamaño del modelo: generalmente hemos observado que los modelos con más parámetros totales rinden mejor en precisión en AA-Omnisciencia, ya que el recuerdo de conocimiento más amplio se beneficia de un mayor número de parámetros
➤ Qwen3.5 27B es equivalentemente inteligente a Qwen3.5 122B A10B. El 122B A10B es un modelo Mix-of-Experts que solo activa 10B de sus 122B parámetros totales por pasada hacia adelante. El modelo 27B lidera en GDPval-AA (1205 Elo frente a 1145 Elo) y ligeramente en TerminalBench (+1,5 p.p.), mientras que el modelo 122B lidera en SciCode (+2,5 p.p.), HLE (+1,2 p.p.) y tiene una tasa de alucinaciones más baja (Omniscience -40 frente a -42)
➤ Qwen3.5 35B A3B (Reasoning, 37) es el modelo más inteligente con ~3B parámetros activos, 7 puntos por delante de GLM-4.7-Flash (30). Otros modelos en esta categoría activa ~3B incluyen Qwen3 Coder Next (80B totales, 28), Qwen3 Next 80B A3B (27) y NVIDIA Nemotron 3 Nano 30B A3B (24)
➤ Qwen3.5 27B utilizó 98 millones de tokens de salida para ejecutar el Índice de Inteligencia, con un coste de ~$299 vía Alibaba Cloud API. Esto es un uso notablemente alto de tokens en comparación con modelos con inteligencia similar: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) e incluso el más grande Qwen3.5 397B (86M).
Otra información:
➤ Ventana de contexto: 262K tokens (extendible a 1M vía YaRN)
➤ Licencia: Apache 2.0
➤ Precios de la API (Alibaba Cloud): 397B: 0,60$/$3,60, 122B: $0,40/$3,20, 27B: $0,30/$2,40, 35B. A3B: $0,25/$2,00 por cada 1M de tokens de entrada/salida

3.58K
Kling 3.0 1080p (Pro) ocupa el puesto #1 en Texto a Vídeo tanto en las tablas de clasificación con Audio como sin Audio en el ámbito de Análisis Artificial de Vídeo, superando a Grok Imagine, Runway Gen-4.5 y Veo 3.1.
En Image to Video, Kling 3.0 1080p (Pro) ocupa el puesto #4 en la clasificación de With Audio y el #6 en No Audio, por detrás de Grok Imagine y PixVerse V5.6.
Kling 3.0 es la última versión de @Kling_ai, representando un gran salto respecto a sus modelos Kling 2.6. El modelo está disponible en niveles de calidad 1080p (Pro) y 720p (Estándar), y soporta generaciones de hasta 15 segundos así como generación nativa de audio.
Kling también ha lanzado Kling 3.0 Omni, un modelo multimodal que va más allá de la generación de vídeo para soportar entradas de imagen y vídeo, edición de vídeo y generación de vídeo en un único modelo unificado. Kling 3.0 Omni 1080p (Pro) y Omni 720p (Estándar) también rinden muy bien, con Omni 1080p (Pro) ocupando el puesto #2 en Texto a vídeo con audio y #4 en Sin audio.
Kling 3.0 está disponible a través de la aplicación Kling AI y mediante API en @fal. Kling 3.0 1080p (Pro) cuesta ~13$/min sin audio y ~$20/min con audio, mientras que 720p (Estándar) cuesta ~$10/min y ~$15/min respectivamente. Sin audio, 1080p (Pro) es comparable a Veo 3.1 por 12 $/min, aunque es un precio significativo sobre Kling 2.5 Turbo y Grok Imagine por 4,20 $/min.
Consulta a continuación comparaciones entre Kling 3.0 1080p (Pro) y otros modelos líderes en nuestro Ámbito 🧵 de Vídeo de Análisis Artificial

163
Inception Labs ha lanzado Mercury 2, su LLM de difusión de próxima generación listo para producción. Mercury 2 alcanza >1.000 tokens de salida/s con ganancias significativas en inteligencia
Los LLMs de difusión ("dLLMs") de @_inception_ai utilizan una arquitectura diferente en comparación con los LLMs basados en autoregresiva. El proceso de generación de LLM de difusión comienza con ruido y refina iterativamente la salida usando un modelo de transformador que puede modificar múltiples tokens en paralelo. Esto permite la paralelización de la generación de tokens de salida, lo que permite velocidades de salida más rápidas porque se generan muchos tokens de salida al mismo tiempo.
Puntos clave:
➤ Entre modelos de tamaño y precio comparables, el Mercury 2 rinde de forma competitiva en inteligencia frente a velocidad de salida. Aunque no cuenta con inteligencia líder, su velocidad de salida es más de 3 veces superior al siguiente modelo más rápido de esta clase (benchmarks basados en endpoints de primera mano o en la mediana de proveedores que sirven al modelo donde no hay un endpoint de primera parte disponible)
➤ Las fortalezas clave incluyen codificación agente, uso terminal y seguimiento de instrucciones. Mercury 2 rinde a un nivel similar al Claude 4.5 Haiku en Terminal-Bench Hard y obtiene un 70% en IFBench (Instruction Following), superando gpt-oss-120B, GPT-5.1 Codex mini y GPT-5 nano
Antecedentes de Inception Labs:
Este es el segundo comunicado de Inception Labs. Los fundadores fueron anteriormente profesores de Stanford, UCLA y Cornell, y han contribuido a la investigación y tecnologías en IA, incluyendo Flash Attention, Decision Transformers y Direct Preference Optimization (DPO).
Consulta más abajo para un análisis más detallado.

11.32K
Populares
Ranking
Favoritas
