Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
El Agente CUDA es el primer modelo conocido entrenado en RL que supera a Claude Opus 4.5 (y Gemini 3 Pro) en la generación del kernel CUDA.
El agente CUDA de ByteDance utiliza **aprendizaje por refuerzo agentivo** para entrenar un modelo que genera automáticamente núcleos CUDA de alto rendimiento, recompensando directamente con una velocidad real de perfilado de GPU, rompiendo con los enfoques convencionales.
Datos clave de benchmarks en KernelBench:
- Kernels simples/medianos (Nivel-1/2): **100%** más rápidos que torch.compile
- Núcleos complejos (Nivel-3): **92%** más rápido
- En general: **96,8%** más rápido que torch.compile, con una media geométrica de aceleración de ~2,11×
- Supera a los modelos propietarios más potentes como Claude Opus 4.5 y Gemini 3 Pro por aproximadamente un **40%** en las tareas de nivel 3 más difíciles (donde esos modelos solo superan a torch.compile ~66–69% de las veces)
El verdadero techo para el hardware de IA no es el silicio en sí, sino la capacidad de "**desbloqueo de software + optimización en bucle cerrado**".
Combinando esto con el avance simultáneo de Apple ANE:
- Apple M4 ANE: **6,6 TFLOPS/W** (~80× más eficiente que el A100), con cientos de millones de dispositivos inactivos; el cuello de botella son las APIs cerradas + capas de abstracción de Apple (CoreML oculta entre 2 y 4× rendimiento real)
- GPUs NVIDIA: los agentes RL aprenden "**optimización extrema bajo retroalimentación real de hardware**", demostrando que las estrategias aprendidas pueden aplastar reglas/compiladores estáticos
Los fosos de rendimiento de los gigantes del hardware (Apple/NVIDIA) están siendo **doblemente destruidos por la IA**: la ingeniería inversa destroza APIs cerradas (convirtiendo chips inactivos en granjas de cálculo), mientras que RL exprime hasta la última gota de las GPUs existentes.
En el futuro, el verdadero punto de estrangulamiento no será el hardware de computación, sino quién domine primero el lazo cerrado de "**feedback nativo de hardware + optimización autónoma del aprendizaje**". Combinando tácticas blandas y duras, quien cambie el rendimiento existente de los dispositivos 2×, 10× o más puede desmontar progresivamente los muros de los gigantes. Este crecimiento compuesto genera velocidades más allá de la intuición humana: del 10× → 100× → 1.000× en pocos años.
La era del **entrenamiento en el dispositivo** (lado ANE) + **inferencia extrema en la nube/borde** (lado del agente CUDA) se está acelerando rápidamente. La IA ahora puede "**auto-optimizarse**" cerca de los picos teóricos. El potencial inexplorado de cientos de millones de dispositivos Apple inactivos + enormes tarjetas NVIDIA está siendo abierto colectivamente por hackers independientes, empresas e investigadores.


Populares
Ranking
Favoritas
