CUDA-Agent是第一个已知的RL训练模型,在CUDA内核生成中超越了Claude Opus-4.6和Gemini 3 Pro! CUDA Agent 用 agentic RL 训练模型自动生成高性能 CUDA 内核,直接用真实 GPU profiling 速度作为奖励信号,打破常规 看看如下数据: KernelBench 基准:简单/中等内核100%比 torch.compile 更快,复杂内核92%更快率 整体 96.8%更快率 vs torch.compile,远超 Claude Opus 4.5/Gemini 3 Pro(约 40%) AI 硬件的真正天花板是"软件解锁 + 优化闭环"的能力,而不单单是芯片本身。 结合同时发生的苹果Ane事件:苹果Apple M4 ANE:6.6 TFLOPS/W(≈A100 的 80 倍),数亿台设备闲置,瓶颈是封闭 API + 抽象层(CoreML屏蔽2–4倍吞吐) NVIDIA GPU:RL Agent 学到"硬件真实反馈下的极致优化",证明学出来的策略能打败静态规则 硬件(苹果/英伟达)的性能护城河正被AI“逆向工程 + RL优化”双杀——前者砸开封闭API让闲置芯片变算力农场,后者用强化学习榨干现有GPU每一滴性能。未来卡脖子的不是算力硬件,而是谁先掌握“硬件原生反馈 + 自主学习优化”的闭环,软硬兼施,谁能让现有设备性能翻倍、就可以一步步砸开巨头的围墙。这种复合式增长会创造出人类直觉难以轻易感知的速度:几年内就能从 10 倍扩展到 100 倍 → 1,000 倍 on-device 训练(ANE 侧)+ 云端/边缘极致推理(CUDA Agent 侧)时代加速到来,AI自己就能“自优化”到接近理论峰值。数亿闲置苹果设备 + 海量NVIDIA卡的潜力,正被独立/公司黑客/研究者集体踹开大门。