Taalas ejecuta Llama 3 8B a 16.000 tokens por segundo por usuario. Eso supone casi un orden de magnitud de aumento incluso comparado con sistemas basados en SRAM como Cerebras. Idea clave: cada chip está especializado para un modelo dado. El chip es el modelo. La demo del chat es bastante impresionante: