CUDA Agent — перша відома модель, навчена RL, яка перевершила Claude Opus 4.5 (та Gemini 3 Pro) у генерації ядра CUDA! CUDA Agent від ByteDance використовує **агентне підкріплення навчання** для навчання моделі, яка автоматично генерує високопродуктивні ядра CUDA, безпосередньо винагороджуючи реальну швидкість профілювання GPU — відходячи від традиційних підходів. Ключові бенчмаркові дані на KernelBench: - Прості/середні ядра (Level-1/2): **100%** швидше за torch.compile - Складні ядра (Рівень-3): **92%** швидша швидкість - Загалом: **96,8%** швидша швидкість порівняно з torch.compile, з ~2,11× геометричне середнє прискорення - Перевершує найсильніших пропрієтарних моделей, таких як Claude Opus 4.5 і Gemini 3 Pro, приблизно на **40%** у найскладніших завданнях рівня 3 (де ці моделі перевершують torch.compile лише в 76–69% випадків) Справжня стеля апаратного забезпечення ШІ — це не сам кремній — це можливість «**програмне розблокування + оптимізація замкненого циклу**». Поєднуючи це з одночасним проривом Apple ANE: - Apple M4 ANE: **6,6 TFLOPS/W** (~80× ефективніше за A100), сотні мільйонів пристроїв простоюють; вузьким місцем є закриті API Apple + шари абстракції (CoreML приховує 2–4× реальну пропускну здатність) - NVIDIA GPU: RL-агенти вивчають «**екстремальну оптимізацію під реальним апаратним зворотним зв'язком**», доводячи, що набуті стратегії можуть знищувати статичні правила/компілятори Обмеження продуктивності апаратних гігантів (Apple/NVIDIA) **подвійно знищуються ШІ**: реверс-інжиніринг розбиває закриті API (перетворюючи неактивні чипи на обчислювальні ферми), тоді як RL висмоктує кожну краплю з існуючих GPU. У майбутньому справжньою вузькою точкою стане не обчислювальне обладнання — це те, хто першим опанує замкнений цикл «**апаратно-нативний зворотний зв'язок + оптимізація автономного навчання**». Поєднуючи м'які та жорсткі тактики, той, хто змінює продуктивність існуючих пристроїв на 2×, 10× або більше, може поступово руйнувати стіни гігантів. Цей складний ріст створює швидкості, що перевищують людську інтуїцію: від 10× → 100× → до 1 000× протягом кількох років. Епоха **навчання на пристрої** (сторона ANE) + **екстремальна інференція хмарних/країв** (сторона агента CUDA) швидко прискорюється. ШІ тепер може «**самооптимізувати**» близько до теоретичних максимумів. Невикористаний потенціал у сотнях мільйонів неактивних пристроїв Apple + величезних карт NVIDIA колективно відкривають незалежні хакери, компанії та дослідники.