O CUDA Agent é o primeiro modelo treinado em RL conhecido a superar o Claude Opus 4.5 (e o Gemini 3 Pro) na geração do kernel CUDA! O CUDA Agent da ByteDance usa **aprendizado por reforço agentivo** para treinar um modelo que gera automaticamente kernels CUDA de alto desempenho, recompensando diretamente com velocidade real de perfilamento da GPU — rompendo com abordagens convencionais. Dados principais de benchmark no KernelBench: - Kernels simples/médios (Level-1/2): **100%** mais rápido que torch.compile - Núcleos complexos (Nível 3): **92%** taxa mais rápida - No geral: **96,8%** taxa mais rápida que torch.compile, com velocidade média geométrica de ~2,11× - Supera os modelos proprietários mais fortes como Claude Opus 4.5 e Gemini 3 Pro por cerca de **40%** nas tarefas mais difíceis de Level-3 (onde esses modelos só superam o torch.compile ~66–69% das vezes) O verdadeiro teto para hardware de IA não é o silício em si—é a capacidade de "**desbloqueio de software + otimização**" em circuito fechado. Combinando isso com o avanço simultâneo do Apple ANE: - Apple M4 ANE: **6,6 TFLOPS/W** (~80× mais eficiente que o A100), com centenas de milhões de dispositivos parados; o gargalo são as APIs fechadas + camadas de abstração da Apple (CoreML esconde 2–4× taxa real de transferência) - GPUs NVIDIA: Agentes RL aprendem "**otimização extrema sob feedback real de hardware**", provando que estratégias aprendidas podem esmagar regras/compiladores estáticos Os fossos de desempenho dos gigantes do hardware (Apple/NVIDIA) estão sendo **duplamente destruídos pela IA**: a engenharia reversa destrói APIs fechadas (transformando chips ociosos em fazendas de computação), enquanto a RL espreme até o último drop das GPUs existentes. No futuro, o verdadeiro ponto de estrangulamento não será o hardware de computação — é quem domina primeiro o ciclo fechado do "**feedback nativo de hardware + otimização de aprendizagem autônoma**". Ao combinar táticas suaves e duras, quem derrubar o desempenho dos dispositivos existentes em 2×, 10× ou mais pode desmontar progressivamente as paredes dos gigantes. Esse crescimento composto cria velocidades além da intuição humana: de 10× → 100× → 1.000× em poucos anos. A era do **treinamento no dispositivo** (lado ANE) + **inferência extrema em nuvem/borda** (lado do agente CUDA) está acelerando rapidamente. A IA agora pode "**auto-otimizar**" perto de picos teóricos. O potencial inexplorado em centenas de milhões de dispositivos Apple ociosos + enormes placas NVIDIA está sendo coletivamente aberto por hackers independentes, empresas e pesquisadores.