Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
CUDA Agent là mô hình đầu tiên được đào tạo bằng RL vượt qua Claude Opus 4.5 (và Gemini 3 Pro) trong việc tạo ra CUDA kernel!
CUDA Agent của ByteDance sử dụng **học tăng cường tác động** để đào tạo một mô hình tự động tạo ra các CUDA kernel hiệu suất cao, thưởng trực tiếp bằng tốc độ phân tích GPU thực—phá vỡ các phương pháp truyền thống.
Dữ liệu benchmark chính trên KernelBench:
- Các kernel đơn giản/trung bình (Cấp-1/2): **100%** nhanh hơn so với torch.compile
- Các kernel phức tạp (Cấp-3): tỷ lệ nhanh hơn **92%**
- Tổng thể: tỷ lệ nhanh hơn **96.8%** so với torch.compile, với ~2.11× tốc độ trung bình hình học
- Vượt trội hơn các mô hình độc quyền mạnh nhất như Claude Opus 4.5 và Gemini 3 Pro khoảng **40%** trong các nhiệm vụ Cấp-3 khó nhất (nơi mà các mô hình đó chỉ đánh bại torch.compile ~66–69% thời gian)
Trần thực sự cho phần cứng AI không phải là silicon—mà là khả năng "**mở khóa phần mềm + tối ưu hóa vòng khép kín**".
Kết hợp điều này với đột phá đồng thời của Apple ANE:
- Apple M4 ANE: **6.6 TFLOPS/W** (~80× hiệu quả hơn A100), với hàng trăm triệu thiết bị đang ngồi không; nút thắt là các API đóng của Apple + các lớp trừu tượng (CoreML ẩn đi 2–4× thông lượng thực)
- GPU NVIDIA: các tác nhân RL học "**tối ưu hóa cực đoan dưới phản hồi phần cứng thực**," chứng minh rằng các chiến lược đã học có thể nghiền nát các quy tắc/biên dịch tĩnh
Các rào cản hiệu suất của các ông lớn phần cứng (Apple/NVIDIA) đang bị **giết chết kép bởi AI**: kỹ thuật đảo ngược phá vỡ các API đóng (biến các chip không hoạt động thành các trang trại tính toán), trong khi RL vắt kiệt từng giọt cuối cùng từ các GPU hiện có.
Trong tương lai, điểm nghẽn thực sự sẽ không phải là phần cứng tính toán—mà là ai sẽ làm chủ "**phản hồi gốc phần cứng + tối ưu hóa học tự động**" vòng khép kín đầu tiên. Bằng cách kết hợp các chiến thuật mềm và cứng, bất kỳ ai lật ngược hiệu suất thiết bị hiện có 2×, 10×, hoặc hơn có thể dần dần phá vỡ các bức tường của các ông lớn. Sự tăng trưởng hợp chất này tạo ra tốc độ vượt xa trực giác của con người: từ 10× → 100× → 1,000× trong vài năm tới.
Thời đại của **đào tạo trên thiết bị** (bên ANE) + **suy diễn cực đoan đám mây/biên** (bên CUDA Agent) đang tăng tốc nhanh chóng. AI giờ đây có thể "**tự tối ưu hóa**" gần với các đỉnh lý thuyết. Tiềm năng chưa được khai thác trong hàng trăm triệu thiết bị Apple không hoạt động + các thẻ NVIDIA khổng lồ đang được mở ra một cách tập thể bởi các hacker độc lập, công ty và nhà nghiên cứu.


Hàng đầu
Thứ hạng
Yêu thích
