Taalas fait fonctionner Llama 3 8B à 16k tokens par seconde par utilisateur. C'est presque un ordre de grandeur d'augmentation même par rapport aux systèmes basés sur SRAM comme Cerebras. Idée clé : chaque puce est spécialisée pour un modèle donné. La puce est le modèle. La démo de chat est assez folle :