Am avut aceeași idee, așa că m-am jucat cu asta în nanochat. De exemplu, aici sunt 8 agenți (4 claude, 4 codex), fiecare cu câte 1 GPU care rulează experimente nanochat (încercând să șterg softcap logit fără regresie). Pe scurt, nu funcționează și e un haos... Dar tot este foarte frumos de privit :) Am încercat câteva configurații: 8 cercetători independenți solo, 1 cercetător șef care dădea muncă la 8 cercetători juniori, etc. Fiecare program de cercetare este o ramură git, fiecare om de știință o bifurcează într-o ramură de funcționalitate, arbori de lucru git pentru izolare, fișiere simple pentru comunicații, sărind peste Docker/VM-uri pentru simplitate momentan (consider că instrucțiunile sunt suficiente pentru a preveni interferențele). Organizația de cercetare rulează în grile de ferestre tmux cu sesiuni interactive (ca Teams), astfel încât să fie frumos de privit, de văzut munca lor individuală și de "preluat" dacă e nevoie, adică fără -p. Dar, ok, motivul pentru care nu funcționează până acum este că ideile agenților sunt destul de proaste din start, chiar și la cel mai mare nivel de inteligență. Nu gândesc cu atenție designul experimentelor, folosesc variații puțin absurde, nu creează baze puternice și nu ablează corect lucrurile, nu controlează cu grijă durata de execuție sau eșecurile. (Ca exemplu, un agent a "descoperit" ieri că mărirea dimensiunii ascunse a rețelei crește pierderea de validare, ceea ce este un rezultat total fals având în vedere că o rețea mai mare va avea o pierdere de validare mai mică în regimul infinit de date, dar apoi antrenează mult mai mult timp, nu este clar de ce a trebuit să vin să subliniez asta). Sunt foarte buni la implementarea oricărei idei bine conturate și descrise, dar nu le generează creativ. Dar scopul este ca acum să programezi o organizație (de exemplu, o "organizație de cercetare") și agenții săi individuali, astfel încât "codul sursă" este colecția de prompturi, abilități, unelte etc. și procese care îl compun. De exemplu, un stand up zilnic dimineața face acum parte din "codul organizației". Și optimizarea preantrenării nanochat este doar una dintre multele sarcini (aproape ca o evaluare). Atunci – având o sarcină arbitrară, cât de repede organizația ta de cercetare generează progrese în această privință?