¡CUDA Agent es el primer modelo conocido entrenado con RL que supera a Claude Opus 4.5 (y Gemini 3 Pro) en la generación de núcleos CUDA! El CUDA Agent de ByteDance utiliza **aprendizaje por refuerzo agentivo** para entrenar un modelo que genera automáticamente núcleos CUDA de alto rendimiento, recompensando directamente con la velocidad de perfilado real de GPU, rompiendo con los enfoques convencionales. Datos clave de referencia en KernelBench: - Núcleos simples/medios (Nivel-1/2): **100%** más rápidos que torch.compile - Núcleos complejos (Nivel-3): tasa de **92%** más rápida - En general: tasa de **96.8%** más rápida en comparación con torch.compile, con un aumento de velocidad de media geométrica de ~2.11× - Supera a los modelos propietarios más fuertes como Claude Opus 4.5 y Gemini 3 Pro en aproximadamente **40%** en las tareas más difíciles de Nivel-3 (donde esos modelos solo superan a torch.compile ~66–69% del tiempo) El verdadero límite para el hardware de IA no es el silicio en sí—es la capacidad de "**desbloqueo de software + bucle cerrado de optimización**". Combinando esto con el avance simultáneo de Apple ANE: - Apple M4 ANE: **6.6 TFLOPS/W** (~80× más eficiente que A100), con cientos de millones de dispositivos inactivos; el cuello de botella son las APIs cerradas de Apple + capas de abstracción (CoreML oculta un rendimiento real de 2–4×) - GPUs de NVIDIA: los agentes de RL aprenden "**optimización extrema bajo retroalimentación de hardware real**", demostrando que las estrategias aprendidas pueden aplastar reglas/compiladores estáticos Los fosos de rendimiento de los gigantes del hardware (Apple/NVIDIA) están siendo **doblemente asesinados por la IA**: la ingeniería inversa destroza las APIs cerradas (convirtiendo chips inactivos en granjas de computación), mientras que RL exprime hasta la última gota de las GPUs existentes. En el futuro, el verdadero punto de estrangulamiento no será el hardware de computación—será quién domine primero el "**feedback nativo de hardware + optimización de aprendizaje autónomo**" en un bucle cerrado. Al combinar tácticas suaves y duras, quien logre duplicar, decuplicar o más el rendimiento de los dispositivos existentes puede desmantelar progresivamente los muros de los gigantes. Este crecimiento compuesto crea velocidades más allá de la intuición humana: de 10× → 100× → 1,000× en unos pocos años. La era del **entrenamiento en el dispositivo** (lado ANE) + **inferencia extrema en la nube/borde** (lado CUDA Agent) se está acelerando rápidamente. La IA ahora puede "**auto-optimizarse**" cerca de los picos teóricos. El potencial no explotado en cientos de millones de dispositivos Apple inactivos + enormes tarjetas NVIDIA está siendo colectivamente abierto por hackers independientes, empresas e investigadores.