一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

CUDA Agent 是第一个已知的通过强化学习训练的模型，超越了 Claude Opus 4.5（和 Gemini 3 Pro）在 CUDA 内核生成方面的表现！字节跳动的 CUDA Agent 使用 **代理强化学习** 来训练一个自动生成高性能 CUDA 内核的模型，直接通过真实的 GPU 性能分析速度进行奖励——打破了传统方法的束缚。 KernelBench 上的关键基准数据： - 简单/中等内核（Level-1/2）：比 torch.compile **快 100%** - 复杂内核（Level-3）：**快 92%** - 总体：与 torch.compile 相比，**快 96.8%**，几何平均加速约为 ~2.11× - 在最困难的 Level-3 任务中，超越了最强的专有模型，如 Claude Opus 4.5 和 Gemini 3 Pro，约 **快 40%**（这些模型仅在 ~66–69% 的时间内击败 torch.compile） AI 硬件的真正上限不是硅本身——而是 "**软件解锁 + 优化闭环**" 的能力。将此与同时发生的 Apple ANE 突破结合： - Apple M4 ANE：**6.6 TFLOPS/W**（比 A100 效率高 ~80×），数亿设备处于闲置状态；瓶颈在于 Apple 的封闭 API + 抽象层（CoreML 隐藏了 2–4× 的真实吞吐量） - NVIDIA GPU：RL 代理学习 "**在真实硬件反馈下的极端优化**，证明学习的策略可以击败静态规则/编译器硬件巨头（Apple/NVIDIA）的性能护城河正被 **AI 双重击杀**：逆向工程打破了封闭的 API（将闲置芯片转变为计算农场），而 RL 则榨取现有 GPU 的每一滴性能。未来，真正的瓶颈将不是计算硬件——而是谁首先掌握 "**硬件本地反馈 + 自主学习优化**" 的闭环。通过结合软硬策略，谁能将现有设备性能翻倍、十倍或更多，就能逐步拆除巨头的壁垒。这种复合增长创造了超越人类直觉的速度：从 10× → 100× → 1,000× 在几年内实现。 **设备内训练**（ANE 方面） + **云/边缘极端推理**（CUDA Agent 方面）的时代正在快速加速。AI 现在可以 "**自我优化**" 接近理论峰值。数亿闲置的 Apple 设备 + 大量的 NVIDIA 显卡中未开发的潜力正被独立黑客、公司和研究人员共同打开。