Taalas roda Llama 3 8B a 16k tokens por segundo por usuário. Isso é quase uma ordem de magnitude de aumento, mesmo comparado a sistemas baseados em SRAM, como o Cerebras. Ideia-chave: cada chip é especializado para um determinado modelo. O chip é o modelo. A demo no chat é bem insana: