Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
L'Agent CUDA est le premier modèle connu entraîné par RL à surpasser Claude Opus 4.5 (et Gemini 3 Pro) dans la génération de noyaux CUDA !
L'Agent CUDA de ByteDance utilise l'**apprentissage par renforcement agentique** pour entraîner un modèle qui génère automatiquement des noyaux CUDA haute performance, récompensant directement avec la vitesse de profilage GPU réelle—s'éloignant des approches conventionnelles.
Données de référence clés sur KernelBench :
- Noyaux simples/moyens (Niveau-1/2) : **100 %** plus rapides que torch.compile
- Noyaux complexes (Niveau-3) : taux **92 %** plus rapide
- Global : taux **96,8 %** plus rapide par rapport à torch.compile, avec un gain de vitesse géométrique d'environ ~2,11×
- Surpasse les modèles propriétaires les plus puissants comme Claude Opus 4.5 et Gemini 3 Pro d'environ **40 %** sur les tâches les plus difficiles de Niveau-3 (où ces modèles ne battent torch.compile que ~66–69 % du temps)
Le véritable plafond pour le matériel AI n'est pas le silicium lui-même—c'est la capacité de "**déverrouillage logiciel + boucle de rétroaction d'optimisation**".
En combinant cela avec la percée simultanée de l'ANE d'Apple :
- Apple M4 ANE : **6,6 TFLOPS/W** (~80× plus efficace que A100), avec des centaines de millions d'appareils inactifs ; le goulot d'étranglement est les API fermées d'Apple + les couches d'abstraction (CoreML cache un débit réel de 2 à 4×)
- GPU NVIDIA : les agents RL apprennent "**l'optimisation extrême sous retour d'information matériel réel**," prouvant que les stratégies apprises peuvent écraser les règles/compilateurs statiques
Les fossés de performance des géants du matériel (Apple/NVIDIA) sont **doublement tués par l'IA** : l'ingénierie inverse fracasse les API fermées (transformant les puces inactives en fermes de calcul), tandis que RL extrait chaque dernière goutte des GPU existants.
À l'avenir, le véritable point de blocage ne sera pas le matériel de calcul—c'est qui maîtrisera le "**retour d'information natif au matériel + optimisation d'apprentissage autonome**" en premier. En combinant des tactiques douces et dures, quiconque double la performance des appareils existants 2×, 10×, ou plus peut progressivement démanteler les murs des géants. Cette croissance composée crée des vitesses au-delà de l'intuition humaine : de 10× → 100× → 1 000× en quelques années.
L'ère de l'**entraînement sur appareil** (côté ANE) + de l'**inférence extrême cloud/edge** (côté Agent CUDA) s'accélère rapidement. L'IA peut désormais "**s'auto-optimiser**" près des sommets théoriques. Le potentiel inexploité dans des centaines de millions d'appareils Apple inactifs + d'énormes cartes NVIDIA est collectivement ouvert par des hackers indépendants, des entreprises et des chercheurs.


Meilleurs
Classement
Favoris
