O CUDA Agent é o primeiro modelo conhecido treinado por RL a superar o Claude Opus 4.5 (e o Gemini 3 Pro) na geração de kernels CUDA! O CUDA Agent da ByteDance utiliza **aprendizagem por reforço agentic** para treinar um modelo que gera automaticamente kernels CUDA de alto desempenho, recompensando diretamente com a velocidade real de perfilamento de GPU—rompendo com as abordagens convencionais. Dados de benchmark chave no KernelBench: - Kernels simples/médios (Nível-1/2): **100%** mais rápidos que torch.compile - Kernels complexos (Nível-3): taxa **92%** mais rápida - No geral: taxa **96.8%** mais rápida em comparação com torch.compile, com um aumento médio geométrico de ~2.11× - Supera os modelos proprietários mais fortes como Claude Opus 4.5 e Gemini 3 Pro em cerca de **40%** nas tarefas mais difíceis de Nível-3 (onde esses modelos apenas superam o torch.compile ~66–69% do tempo) O verdadeiro teto para o hardware de IA não é o silício em si—é a capacidade de "**desbloqueio de software + loop fechado de otimização**". Combinando isso com a quebra simultânea do Apple ANE: - Apple M4 ANE: **6.6 TFLOPS/W** (~80× mais eficiente que A100), com centenas de milhões de dispositivos inativos; o gargalo são as APIs fechadas da Apple + camadas de abstração (CoreML oculta 2–4× o throughput real) - GPUs NVIDIA: agentes de RL aprendem "**otimização extrema sob feedback de hardware real**," provando que estratégias aprendidas podem esmagar regras/compiladores estáticos Os fossos de desempenho dos gigantes do hardware (Apple/NVIDIA) estão sendo **duplamente eliminados pela IA**: a engenharia reversa destrói APIs fechadas (transformando chips inativos em fazendas de computação), enquanto o RL extrai até a última gota dos GPUs existentes. No futuro, o verdadeiro ponto de estrangulamento não será o hardware de computação—será quem dominar o "**feedback nativo de hardware + otimização de aprendizagem autônoma**" primeiro. Combinando táticas suaves e duras, quem dobrar o desempenho dos dispositivos existentes 2×, 10×, ou mais pode progressivamente desmantelar os muros dos gigantes. Este crescimento composto cria velocidades além da intuição humana: de 10× → 100× → 1,000× em poucos anos. A era do **treinamento em dispositivo** (lado ANE) + **inferencia extrema em nuvem/borda** (lado CUDA Agent) está acelerando rapidamente. A IA agora pode "**auto-otimizar**" perto dos picos teóricos. O potencial não explorado em centenas de milhões de dispositivos Apple inativos + enormes placas NVIDIA está sendo coletivamente aberto por hackers independentes, empresas e pesquisadores.