CUDA Agentは、Claude Opus 4.5(およびGemini 3 Pro)をCUDAカーネル生成で上回った、既知の初のRL学習モデルです! ByteDanceのCUDAエージェントは、**エージェント強化学習**を用いて、高性能なCUDAカーネルを自動的に生成するモデルを訓練し、実際のGPUプロファイリング速度を直接報酬として与えます。これは従来の手法から脱却しています。 KernelBenchの主要なベンチマークデータ: - シンプル/中型カーネル(レベル1/2):torch.compileより100%**高速 - 複素カーネル(レベル3):**92%**高速化 - 総合:**96.8%** torch.compileより高速化、幾何平均速度は~2.11 × - 最も難しいレベル3タスクにおいて、Claude Opus 4.5やGemini 3 Proのような最強モデルを約**40%*上回る性能(これらのモデルはtorch.compileを約66〜69%の確率で上回る)を上回る AIハードウェアの真の天井はシリコンそのものではなく、「**ソフトウェアのアンロック+最適化のクローズドループ**」機能にあります。 これに加えて、同時にApple ANEのブレイクスルーも行われました: - Apple M4 ANE:**6 TFLOPS/W**(~80×A100より効率的)、数億台のデバイスがアイドル状態;ボトルネックはAppleのクローズドAPI+抽象化レイヤー(CoreMLは2〜4×実際のスループットを隠しています) - NVIDIA GPU:RLエージェントは「**実際のハードウェアフィードバックの下で極限の最適化**」を学び、学習した戦略が静的ルールやコンパイラを粉砕できることを証明しました ハードウェア大手(Apple/NVIDIA)のパフォーマンスの堀は、AIによって**二重に殺されつつあります。リバースエンジニアリングはクローズドAPIを破壊し(アイドルチップをコンピュートファームに変え)、RLは既存GPUから最後の一滴まで搾り取っています。 将来的には、本当のボトルネックは計算ハードウェアではなく、「**ハードウェアネイティブフィードバック+自律学習最適化**」を最初にマスターする者です。ソフト戦術とハード戦術を組み合わせることで、既存のデバイス性能を2×、10×以上ひっくり返す者は、段階的に巨人の壁を壊していくことができる。この複合的成長は、人間の直感を超えた速度を生み出す。数年のうちに10× →100× →1,000×へと。 **デバイス上トレーニング**(ANE側)+**クラウド/エッジの極端推論**(CUDAエージェント側)の時代は急速に加速しています。AIは理論的なピークに近い形で「**自己最適化*」できるようになりました。数億台のアイドル端末+巨大なNVIDIAカードの未開発の可能性が、独立したハッカー、企業、研究者によって一斉に開かれています。