トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
CUDA Agentは、Claude Opus 4.5(およびGemini 3 Pro)をCUDAカーネル生成で上回った、既知の初のRL学習モデルです!
ByteDanceのCUDAエージェントは、**エージェント強化学習**を用いて、高性能なCUDAカーネルを自動的に生成するモデルを訓練し、実際のGPUプロファイリング速度を直接報酬として与えます。これは従来の手法から脱却しています。
KernelBenchの主要なベンチマークデータ:
- シンプル/中型カーネル(レベル1/2):torch.compileより100%**高速
- 複素カーネル(レベル3):**92%**高速化
- 総合:**96.8%** torch.compileより高速化、幾何平均速度は~2.11 ×
- 最も難しいレベル3タスクにおいて、Claude Opus 4.5やGemini 3 Proのような最強モデルを約**40%*上回る性能(これらのモデルはtorch.compileを約66〜69%の確率で上回る)を上回る
AIハードウェアの真の天井はシリコンそのものではなく、「**ソフトウェアのアンロック+最適化のクローズドループ**」機能にあります。
これに加えて、同時にApple ANEのブレイクスルーも行われました:
- Apple M4 ANE:**6 TFLOPS/W**(~80×A100より効率的)、数億台のデバイスがアイドル状態;ボトルネックはAppleのクローズドAPI+抽象化レイヤー(CoreMLは2〜4×実際のスループットを隠しています)
- NVIDIA GPU:RLエージェントは「**実際のハードウェアフィードバックの下で極限の最適化**」を学び、学習した戦略が静的ルールやコンパイラを粉砕できることを証明しました
ハードウェア大手(Apple/NVIDIA)のパフォーマンスの堀は、AIによって**二重に殺されつつあります。リバースエンジニアリングはクローズドAPIを破壊し(アイドルチップをコンピュートファームに変え)、RLは既存GPUから最後の一滴まで搾り取っています。
将来的には、本当のボトルネックは計算ハードウェアではなく、「**ハードウェアネイティブフィードバック+自律学習最適化**」を最初にマスターする者です。ソフト戦術とハード戦術を組み合わせることで、既存のデバイス性能を2×、10×以上ひっくり返す者は、段階的に巨人の壁を壊していくことができる。この複合的成長は、人間の直感を超えた速度を生み出す。数年のうちに10× →100× →1,000×へと。
**デバイス上トレーニング**(ANE側)+**クラウド/エッジの極端推論**(CUDAエージェント側)の時代は急速に加速しています。AIは理論的なピークに近い形で「**自己最適化*」できるようになりました。数億台のアイドル端末+巨大なNVIDIAカードの未開発の可能性が、独立したハッカー、企業、研究者によって一斉に開かれています。


トップ
ランキング
お気に入り
