CUDA Agent 是第一个已知的通过强化学习训练的模型,超越了 Claude Opus 4.5(和 Gemini 3 Pro)在 CUDA 内核生成方面的表现! 字节跳动的 CUDA Agent 使用 **代理强化学习** 来训练一个自动生成高性能 CUDA 内核的模型,直接通过真实的 GPU 性能分析速度进行奖励——打破了传统方法的束缚。 KernelBench 上的关键基准数据: - 简单/中等内核(Level-1/2):比 torch.compile **快 100%** - 复杂内核(Level-3):**快 92%** - 总体:与 torch.compile 相比,**快 96.8%**,几何平均加速约为 ~2.11× - 在最困难的 Level-3 任务中,超越了最强的专有模型,如 Claude Opus 4.5 和 Gemini 3 Pro,约 **快 40%**(这些模型仅在 ~66–69% 的时间内击败 torch.compile) AI 硬件的真正上限不是硅本身——而是 "**软件解锁 + 优化闭环**" 的能力。 将此与同时发生的 Apple ANE 突破结合: - Apple M4 ANE:**6.6 TFLOPS/W**(比 A100 效率高 ~80×),数亿设备处于闲置状态;瓶颈在于 Apple 的封闭 API + 抽象层(CoreML 隐藏了 2–4× 的真实吞吐量) - NVIDIA GPU:RL 代理学习 "**在真实硬件反馈下的极端优化**,证明学习的策略可以击败静态规则/编译器 硬件巨头(Apple/NVIDIA)的性能护城河正被 **AI 双重击杀**:逆向工程打破了封闭的 API(将闲置芯片转变为计算农场),而 RL 则榨取现有 GPU 的每一滴性能。 未来,真正的瓶颈将不是计算硬件——而是谁首先掌握 "**硬件本地反馈 + 自主学习优化**" 的闭环。通过结合软硬策略,谁能将现有设备性能翻倍、十倍或更多,就能逐步拆除巨头的壁垒。这种复合增长创造了超越人类直觉的速度:从 10× → 100× → 1,000× 在几年内实现。 **设备内训练**(ANE 方面) + **云/边缘极端推理**(CUDA Agent 方面)的时代正在快速加速。AI 现在可以 "**自我优化**" 接近理论峰值。数亿闲置的 Apple 设备 + 大量的 NVIDIA 显卡中未开发的潜力正被独立黑客、公司和研究人员共同打开。