Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Saya memiliki pemikiran yang sama jadi saya telah memainkannya di nanochat. Misalnya ini adalah 8 agen (4 claude, 4 codex), dengan masing-masing 1 GPU menjalankan eksperimen nanochat (mencoba menghapus softcap logit tanpa regresi). TLDR adalah tidak berfungsi dan berantakan... Tapi masih sangat indah untuk dilihat :)
Saya mencoba beberapa pengaturan: 8 peneliti solo independen, 1 kepala ilmuwan yang memberikan pekerjaan kepada 8 peneliti junior, dll. Setiap program penelitian adalah cabang git, setiap ilmuwan mencabang ke dalam cabang fitur, pohon kerja git untuk isolasi, file sederhana untuk komunikasi, lewati Docker/VM untuk kesederhanaan atm (saya menemukan bahwa instruksi sudah cukup untuk mencegah gangguan). Organisasi penelitian berjalan dalam kisi jendela sesi interaktif (seperti Teams) sehingga cantik untuk dilihat, melihat pekerjaan masing-masing, dan "mengambil alih" jika diperlukan, yaitu tidak ada -p.
Tapi ok alasan itu tidak berhasil sejauh ini adalah karena ide-ide agen cukup buruk di luar kotak, bahkan pada kecerdasan tertinggi. Mereka tidak berpikir dengan hati-hati meskipun desain eksperimen, mereka menjalankan variasi yang sedikit tidak masuk akal, mereka tidak membuat garis dasar yang kuat dan membuang hal-hal dengan benar, mereka tidak mengontrol runtime atau kegagalan dengan hati-hati. (Hanya sebagai contoh, seorang agen kemarin "menemukan" bahwa meningkatkan ukuran jaringan tersembunyi meningkatkan kehilangan validasi, yang merupakan hasil yang benar-benar palsu mengingat bahwa jaringan yang lebih besar akan memiliki kehilangan validasi yang lebih rendah dalam rezim data tak terbatas, tetapi kemudian juga berlatih lebih lama, tidak jelas mengapa saya harus datang untuk menunjukkannya). Mereka sangat pandai dalam mengimplementasikan ide yang dicakupan dengan baik dan dijelaskan tetapi mereka tidak menghasilkannya secara kreatif.
Tetapi tujuannya adalah bahwa Anda sekarang memprogram organisasi (misalnya "organisasi penelitian") dan agennya masing-masing, jadi "kode sumber" adalah kumpulan petunjuk, keterampilan, alat, dll. dan proses yang membentuknya. Misalnya, standup harian di pagi hari sekarang menjadi bagian dari "kode organisasi". Dan mengoptimalkan prapelatihan nanochat hanyalah salah satu dari banyak tugas (hampir seperti eval). Kemudian - diberi tugas sewenang-wenang, seberapa cepat organisasi penelitian Anda menghasilkan kemajuan di dalamnya?
Teratas
Peringkat
Favorit
