CUDA Agent adalah model terlatih RL pertama yang diketahui untuk melampaui Claude Opus 4.5 (dan Gemini 3 Pro) dalam generasi kernel CUDA! Agen CUDA ByteDance menggunakan **pembelajaran penguatan agen** untuk melatih model yang secara otomatis menghasilkan kernel CUDA berkinerja tinggi, menghargai langsung dengan kecepatan profil GPU nyata—melepaskan diri dari pendekatan konvensional. Data tolok ukur utama di KernelBench: - Kernel sederhana/sedang (Level-1/2): **100%** lebih cepat dari torch.compile - Kernel kompleks (Level-3): **92%** tingkat lebih cepat - Secara keseluruhan: **96,8%** tingkat lebih cepat vs torch.compile, dengan ~2,11× kecepatan rata-rata geometris - Mengungguli model berpemilik terkuat seperti Claude Opus 4.5 dan Gemini 3 Pro sekitar **40%** pada tugas Level-3 tersulit (di mana model-model tersebut hanya mengalahkan torch.compile ~66–69% dari waktu) Langit-langit sebenarnya untuk perangkat keras AI bukanlah silikon itu sendiri—melainkan kemampuan "**membuka kunci perangkat lunak + pengoptimalan loop tertutup**". Menggabungkan ini dengan terobosan Apple ANE secara simultan: - Apple M4 ANE: **6,6 TFLOPS/W** (~80× lebih efisien daripada A100), dengan ratusan juta perangkat yang diam; kemacetan adalah API tertutup Apple + lapisan abstraksi (CoreML menyembunyikan 2–4× throughput nyata) - GPU NVIDIA: Agen RL mempelajari "pengoptimalan ekstrem di bawah umpan balik perangkat keras nyata**," membuktikan strategi yang dipelajari dapat menghancurkan aturan/kompiler statis Parit kinerja raksasa perangkat keras (Apple/NVIDIA) **dibunuh dua kali oleh AI**: rekayasa balik menghancurkan API tertutup (mengubah chip menganggur menjadi ladang komputasi), sementara RL memeras setiap tetes terakhir dari GPU yang ada. Di masa depan, titik tersedak sebenarnya bukanlah perangkat keras komputasi—melainkan siapa yang menguasai loop tertutup "**umpan balik asli perangkat keras + pengoptimalan pembelajaran otonom**" terlebih dahulu. Dengan menggabungkan taktik lunak dan keras, siapa pun yang membalikkan kinerja perangkat yang ada 2×, 10×, atau lebih dapat secara progresif membongkar dinding raksasa. Pertumbuhan senyawa ini menciptakan kecepatan di luar intuisi manusia: dari 10× → 100× → 1.000× dalam beberapa tahun. Era **pelatihan di perangkat** (sisi ANE) + **inferensi ekstrem cloud/edge** (sisi Agen CUDA) semakin cepat. AI sekarang dapat "mengoptimalkan diri sendiri**" mendekati puncak teoretis. Potensi yang belum dimanfaatkan di ratusan juta perangkat Apple yang menganggur + kartu NVIDIA besar secara kolektif ditendang terbuka oleh peretas, perusahaan, dan peneliti independen.