CUDA Agent är den första kända RL-tränade modellen som överträffar Claude Opus 4.5 (och Gemini 3 Pro) i CUDA-kärngenerering! ByteDances CUDA-agent använder **agentisk förstärkningsinlärning** för att träna en modell som automatiskt genererar högpresterande CUDA-kärnor, vilket belönar direkt med verklig GPU-profileringshastighet – vilket bryter med konventionella metoder. Viktiga benchmarkdata på KernelBench: - Enkla/medelstora kärnor (Nivå-1/2): **100%** snabbare än torch.compile - Komplexa kärnor (nivå 3): **92%** snabbare hastighet - Totalt: **96,8%** snabbare hastighet jämfört med torch.compile, med ~2,11× geometrisk medelhastighet - Överträffar de starkaste proprietära modellerna som Claude Opus 4.5 och Gemini 3 Pro med cirka **40 %** på de svåraste Level-3-uppgifterna (där dessa modeller bara slår torch.compile ~66–69 % av gångerna) Det verkliga taket för AI-hårdvara är inte kiselet i sig—det är "**mjukvaruupplåsning + optimering sluten loop**"-förmågan. Kombinerat detta med det samtidiga genombrottet i Apple ANE: - Apple M4 ANE: **6,6 TFLOPS/W** (~80× mer effektiv än A100), med hundratals miljoner enheter vilande; flaskhalsen är Apples slutna API:er + abstraktionslager (CoreML döljer 2–4× verklig genomströmning) - NVIDIA GPU:er: RL-agenter lär sig "**extrem optimering under verklig hårdvarufeedback**", vilket bevisar att inlärda strategier kan krossa statiska regler/kompilatorer Prestandafördelarna hos hårdvarujättarna (Apple/NVIDIA) blir **dubbeldödade av AI**: reverse engineering krossar slutna API:er (och förvandlar lediga chip till datorfarmar), medan RL pressar ut varje sista droppe från befintliga GPU:er. I framtiden kommer den verkliga flaskhalsen inte att vara datorhårdvaran – det är vem som först behärskar den slutna loopen "**hårdvaru-native feedback + autonom inlärningsoptimering**". Genom att kombinera mjuka och hårda taktiker kan den som vänder på befintlig enhetsprestanda 2×, 10× eller mer successivt riva ner jättarnas väggar. Denna sammansatta tillväxt skapar hastigheter bortom människans intuition: från 10× → 100× → 1 000× inom några år. Eran av **on-device-träning** (ANE-sidan) + **cloud/edge extreme inference** (CUDA-agentsidan) accelererar snabbt. AI kan nu "**självoptimera**" nära teoretiska toppar. Den outnyttjade potentialen i hundratals miljoner inaktiva Apple-enheter + massiva NVIDIA-kort öppnas kollektivt av oberoende hackare, företag och forskare.