L'agente CUDA è il primo modello noto addestrato con RL a superare Claude Opus 4.5 (e Gemini 3 Pro) nella generazione di kernel CUDA! L'agente CUDA di ByteDance utilizza **l'apprendimento per rinforzo agentico** per addestrare un modello che genera automaticamente kernel CUDA ad alte prestazioni, premiando direttamente con la velocità di profiling GPU reale—distaccandosi dagli approcci convenzionali. Dati chiave di benchmark su KernelBench: - Kernel semplici/medi (Livello-1/2): **100%** più veloci di torch.compile - Kernel complessi (Livello-3): **92%** più veloci - Complessivamente: **96.8%** più veloci rispetto a torch.compile, con un aumento medio geometrico di ~2.11× - Supera i modelli proprietari più forti come Claude Opus 4.5 e Gemini 3 Pro di circa **40%** nei compiti più difficili di Livello-3 (dove quei modelli battono torch.compile solo ~66–69% delle volte) Il vero limite per l'hardware AI non è il silicio stesso—è la capacità di "**sblocco del software + ottimizzazione in ciclo chiuso**". Combinando questo con la simultanea innovazione di Apple ANE: - Apple M4 ANE: **6.6 TFLOPS/W** (~80× più efficiente dell'A100), con centinaia di milioni di dispositivi inattivi; il collo di bottiglia sono le API chiuse di Apple + i livelli di astrazione (CoreML nasconde un throughput reale di 2–4×) - GPU NVIDIA: gli agenti RL apprendono "**ottimizzazione estrema sotto feedback hardware reale**," dimostrando che le strategie apprese possono schiacciare regole/statiche/compilatori Le barriere prestazionali dei giganti dell'hardware (Apple/NVIDIA) stanno subendo un **doppio colpo dall'AI**: l'ingegneria inversa distrugge le API chiuse (trasformando chip inattivi in fattorie di calcolo), mentre RL strizza ogni ultima goccia dalle GPU esistenti. In futuro, il vero punto di strozzatura non sarà l'hardware di calcolo—è chi padroneggia per primo il "**feedback nativo dell'hardware + ottimizzazione dell'apprendimento autonomo**" in ciclo chiuso. Combinando tattiche morbide e dure, chi riesce a raddoppiare le prestazioni dei dispositivi esistenti 2×, 10×, o più può progressivamente smantellare i muri dei giganti. Questa crescita composta crea velocità oltre l'intuizione umana: da 10× → 100× → 1.000× in pochi anni. L'era dell'**addestramento on-device** (lato ANE) + **inference estrema cloud/edge** (lato agente CUDA) sta accelerando rapidamente. L'AI può ora "**auto-ottimizzarsi**" vicino ai picchi teorici. Il potenziale non sfruttato in centinaia di milioni di dispositivi Apple inattivi + enormi schede NVIDIA viene collettivamente aperto da hacker indipendenti, aziende e ricercatori.