Taalas spouští Llama 3 8B s 16k tokeny za sekundu na uživatele. To je téměř řádový nárůst i ve srovnání se systémy založenými na SRAM, jako je Cerebras. Klíčová myšlenka: každý čip je specializovaný na daný model. Čip je model. Demo chatu je docela divoké: