L'Agent CUDA est le premier modèle connu entraîné par RL à surpasser Claude Opus 4.5 (et Gemini 3 Pro) dans la génération de noyaux CUDA ! L'Agent CUDA de ByteDance utilise l'**apprentissage par renforcement agentique** pour entraîner un modèle qui génère automatiquement des noyaux CUDA haute performance, récompensant directement avec la vitesse de profilage GPU réelle—s'éloignant des approches conventionnelles. Données de référence clés sur KernelBench : - Noyaux simples/moyens (Niveau-1/2) : **100 %** plus rapides que torch.compile - Noyaux complexes (Niveau-3) : taux **92 %** plus rapide - Global : taux **96,8 %** plus rapide par rapport à torch.compile, avec un gain de vitesse géométrique d'environ ~2,11× - Surpasse les modèles propriétaires les plus puissants comme Claude Opus 4.5 et Gemini 3 Pro d'environ **40 %** sur les tâches les plus difficiles de Niveau-3 (où ces modèles ne battent torch.compile que ~66–69 % du temps) Le véritable plafond pour le matériel AI n'est pas le silicium lui-même—c'est la capacité de "**déverrouillage logiciel + boucle de rétroaction d'optimisation**". En combinant cela avec la percée simultanée de l'ANE d'Apple : - Apple M4 ANE : **6,6 TFLOPS/W** (~80× plus efficace que A100), avec des centaines de millions d'appareils inactifs ; le goulot d'étranglement est les API fermées d'Apple + les couches d'abstraction (CoreML cache un débit réel de 2 à 4×) - GPU NVIDIA : les agents RL apprennent "**l'optimisation extrême sous retour d'information matériel réel**," prouvant que les stratégies apprises peuvent écraser les règles/compilateurs statiques Les fossés de performance des géants du matériel (Apple/NVIDIA) sont **doublement tués par l'IA** : l'ingénierie inverse fracasse les API fermées (transformant les puces inactives en fermes de calcul), tandis que RL extrait chaque dernière goutte des GPU existants. À l'avenir, le véritable point de blocage ne sera pas le matériel de calcul—c'est qui maîtrisera le "**retour d'information natif au matériel + optimisation d'apprentissage autonome**" en premier. En combinant des tactiques douces et dures, quiconque double la performance des appareils existants 2×, 10×, ou plus peut progressivement démanteler les murs des géants. Cette croissance composée crée des vitesses au-delà de l'intuition humaine : de 10× → 100× → 1 000× en quelques années. L'ère de l'**entraînement sur appareil** (côté ANE) + de l'**inférence extrême cloud/edge** (côté Agent CUDA) s'accélère rapidement. L'IA peut désormais "**s'auto-optimiser**" près des sommets théoriques. Le potentiel inexploité dans des centaines de millions d'appareils Apple inactifs + d'énormes cartes NVIDIA est collectivement ouvert par des hackers indépendants, des entreprises et des chercheurs.