CUDA Agent to pierwszy znany model wytrenowany za pomocą RL, który przewyższa Claude Opus 4.5 (i Gemini 3 Pro) w generowaniu rdzeni CUDA! CUDA Agent od ByteDance wykorzystuje **agentowe uczenie przez wzmocnienie**, aby wytrenować model, który automatycznie generuje wysokowydajne rdzenie CUDA, nagradzając bezpośrednio rzeczywistą prędkością profilowania GPU — odrywając się od konwencjonalnych podejść. Kluczowe dane benchmarkowe na KernelBench: - Proste/średnie rdzenie (Poziom-1/2): **100%** szybsze niż torch.compile - Złożone rdzenie (Poziom-3): **92%** szybsza stawka - Ogólnie: **96.8%** szybsza stawka w porównaniu do torch.compile, z ~2.11× geometrycznym przyspieszeniem średnim - Przewyższa najsilniejsze modele własnościowe, takie jak Claude Opus 4.5 i Gemini 3 Pro, o około **40%** w najtrudniejszych zadaniach Poziomu-3 (gdzie te modele tylko pokonują torch.compile ~66–69% czasu) Prawdziwym sufitem dla sprzętu AI nie jest sam krzem — to zdolność do "**odblokowywania oprogramowania + optymalizacji w zamkniętej pętli**". Łącząc to z równoczesnym przełomem Apple ANE: - Apple M4 ANE: **6.6 TFLOPS/W** (~80× bardziej wydajne niż A100), z setkami milionów urządzeń w stanie bezczynności; wąskim gardłem są zamknięte API Apple + warstwy abstrakcji (CoreML ukrywa 2–4× rzeczywistą przepustowość) - GPU NVIDIA: agenci RL uczą się "**ekstremalnej optymalizacji pod realnym sprzętem**", udowadniając, że wyuczone strategie mogą zniszczyć statyczne zasady/kompilatory Moat wydajności gigantów sprzętowych (Apple/NVIDIA) jest **podwójnie zabijany przez AI**: inżynieria wsteczna rozbija zamknięte API (przekształcając bezczynne chipy w farmy obliczeniowe), podczas gdy RL wyciska każdą ostatnią kroplę z istniejących GPU. W przyszłości prawdziwym wąskim gardłem nie będzie sprzęt obliczeniowy — to kto pierwszy opanuje "**sprzętowy feedback + autonomiczną optymalizację uczenia**" w zamkniętej pętli. Łącząc taktyki miękkie i twarde, kto odwróci wydajność istniejących urządzeń 2×, 10× lub więcej, może stopniowo zdemontować mury gigantów. Ten złożony wzrost tworzy prędkości wykraczające poza ludzką intuicję: od 10× → 100× → 1,000× w ciągu kilku lat. Era **szkolenia na urządzeniu** (strona ANE) + **ekstremalnego wnioskowania w chmurze/na krawędzi** (strona CUDA Agent) przyspiesza szybko. AI może teraz "**samooptymalizować się**" blisko teoretycznych szczytów. Niewykorzystany potencjał w setkach milionów bezczynnych urządzeń Apple + ogromnych kartach NVIDIA jest zbiorowo otwierany przez niezależnych hakerów, firmy i badaczy.