Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

CUDA Agent — это первая известная модель, обученная с помощью RL, которая превзошла Claude Opus 4.5 (и Gemini 3 Pro) в генерации CUDA-ядр! CUDA Agent от ByteDance использует **агентное обучение с подкреплением**, чтобы обучить модель, которая автоматически генерирует высокопроизводительные CUDA-ядра, напрямую вознаграждая за реальную скорость профилирования GPU — отрываясь от традиционных подходов. Ключевые данные по бенчмаркам на KernelBench: - Простые/средние ядра (Уровень-1/2): **на 100%** быстрее, чем torch.compile - Сложные ядра (Уровень-3): **на 92%** быстрее - В целом: **на 96.8%** быстрее по сравнению с torch.compile, с ~2.11× геометрическим средним ускорением - Превосходит самые сильные проприетарные модели, такие как Claude Opus 4.5 и Gemini 3 Pro, примерно на **40%** в самых сложных задачах Уровня-3 (где эти модели лишь на ~66–69% времени обгоняют torch.compile) Истинный потолок для аппаратного обеспечения ИИ — это не сам кремний, а способность "**разблокировки программного обеспечения + оптимизации замкнутого цикла**". Сочетая это с одновременным прорывом Apple ANE: - Apple M4 ANE: **6.6 TFLOPS/W** (~80× более эффективно, чем A100), с сотнями миллионов устройств, находящихся в режиме ожидания; узкое место — закрытые API Apple + абстрактные уровни (CoreML скрывает 2–4× реальную пропускную способность) - Графические процессоры NVIDIA: агенты RL учатся "**экстремальной оптимизации на основе реальной обратной связи от оборудования**", доказывая, что изученные стратегии могут сокрушить статические правила/компиляторы Производственные преграды аппаратных гигантов (Apple/NVIDIA) **двойным ударом убиваются ИИ**: реверс-инжиниринг разбивает закрытые API (превращая бездействующие чипы в вычислительные фермы), в то время как RL выжимает каждую последнюю каплю из существующих GPU. В будущем настоящей узкой точкой не будет вычислительное оборудование — это тот, кто первым овладеет "**обратной связью, характерной для оборудования + автономной оптимизацией обучения**" в замкнутом цикле. Сочетая мягкие и жесткие тактики, кто бы ни удвоил, утроил или более производительность существующих устройств, сможет постепенно разрушить стены гигантов. Этот сложный рост создает скорости, выходящие за пределы человеческой интуиции: от 10× → 100× → 1,000× в течение нескольких лет. Эра **обучения на устройстве** (сторона ANE) + **экстремального вывода в облаке/на краю** (сторона CUDA Agent) быстро ускоряется. ИИ теперь может "**самооптимизироваться**" близко к теоретическим пикам. Неиспользованный потенциал в сотнях миллионов бездействующих устройств Apple + массивных картах NVIDIA коллективно открывается независимыми хакерами, компаниями и исследователями.

Топ

Рейтинг

Избранное