CUDA-Agent是第一個已知的RL訓練模型,在CUDA內核生成中超越了Claude Opus-4.6和Gemini 3 Pro! CUDA Agent 用 agentic RL 訓練模型自動生成高性能 CUDA 內核,直接用真實 GPU profiling 速度作為獎勵信號,打破常規 看看如下數據: KernelBench 基準:簡單/中等內核100%比 torch.compile 更快,複雜內核92%更快率 整體 96.8%更快率 vs torch.compile,遠超 Claude Opus 4.5/Gemini 3 Pro(約 40%) AI 硬件的真正天花板是"軟件解鎖 + 優化閉環"的能力,而不單單是芯片本身。 結合同時發生的蘋果Ane事件:蘋果Apple M4 ANE:6.6 TFLOPS/W(≈A100 的 80 倍),數億臺設備閒置,瓶頸是封閉 API + 抽象層(CoreML屏蔽2–4倍吞吐) NVIDIA GPU:RL Agent 學到"硬件真實反饋下的極致優化",證明學出來的策略能打敗靜態規則 硬件(蘋果/英偉達)的性能護城河正被AI“逆向工程 + RL優化”雙殺——前者砸開封閉API讓閒置芯片變算力農場,後者用強化學習榨乾現有GPU每一滴性能。未來卡脖子的不是算力硬件,而是誰先掌握“硬件原生反饋 + 自主學習優化”的閉環,軟硬兼施,誰能讓現有設備性能翻倍、就可以一步步砸開巨頭的圍牆。這種複合式增長會創造出人類直覺難以輕易感知的速度:幾年內就能從 10 倍擴展到 100 倍 → 1,000 倍 on-device 訓練(ANE 側)+ 雲端/邊緣極致推理(CUDA Agent 側)時代加速到來,AI自己就能“自優化”到接近理論峰值。數億閒置蘋果設備 + 海量NVIDIA卡的潛力,正被獨立/公司黑客/研究者集體踹開大門。