CUDA Agent is het eerste bekende RL-getrainde model dat Claude Opus 4.5 (en Gemini 3 Pro) overtreft in het genereren van CUDA-kernels! De CUDA Agent van ByteDance gebruikt **agentic reinforcement learning** om een model te trainen dat automatisch high-performance CUDA-kernels genereert, waarbij direct wordt beloond met echte GPU-profileringssnelheid—en zich losmaakt van conventionele benaderingen. Belangrijke benchmarkgegevens op KernelBench: - Eenvoudige/middelgrote kernels (Level-1/2): **100%** sneller dan torch.compile - Complexe kernels (Level-3): **92%** snellere snelheid - Totaal: **96,8%** snellere snelheid ten opzichte van torch.compile, met ~2,11× geometrische gemiddelde versnelling - Overtreft de sterkste propriëtaire modellen zoals Claude Opus 4.5 en Gemini 3 Pro met ongeveer **40%** op de moeilijkste Level-3 taken (waar die modellen torch.compile slechts ~66–69% van de tijd verslaan) Het echte plafond voor AI-hardware is niet de silicium zelf—het is de "**software unlocking + optimization closed loop**" capaciteit. Door dit te combineren met de gelijktijdige doorbraak van Apple ANE: - Apple M4 ANE: **6,6 TFLOPS/W** (~80× efficiënter dan A100), met honderden miljoenen apparaten die stilzitten; de bottleneck zijn Apple's gesloten API's + abstractielaag (CoreML verbergt 2–4× echte doorvoer) - NVIDIA GPU's: RL-agenten leren "**extreme optimalisatie onder echte hardwarefeedback**," wat bewijst dat geleerde strategieën statische regels/compilers kunnen verpletteren De prestatiehindernissen van hardwaregiganten (Apple/NVIDIA) worden **dubbelgedood door AI**: reverse engineering verplettert gesloten API's (verandert inactieve chips in rekenboerderijen), terwijl RL elke laatste druppel uit bestaande GPU's perst. In de toekomst zal het echte knelpunt niet de rekenhardware zijn—het is wie als eerste de "**hardware-native feedback + autonome leeroptimalisatie**" gesloten lus beheerst. Door zachte en harde tactieken te combineren, kan degene die de prestaties van bestaande apparaten 2×, 10× of meer omdraait, geleidelijk de muren van de giganten afbreken. Deze samengestelde groei creëert snelheden die verder gaan dan menselijke intuïtie: van 10× → 100× → 1.000× binnen een paar jaar. Het tijdperk van **on-device training** (ANE-kant) + **cloud/edge extreme inference** (CUDA Agent-kant) versnelt snel. AI kan nu "**zelf-optimaliseren**" dicht bij theoretische pieken. Het onbenutte potentieel in honderden miljoenen inactieve Apple-apparaten + enorme NVIDIA-kaarten wordt collectief geopend door onafhankelijke hackers, bedrijven en onderzoekers.