Měl jsem stejnou myšlenku, tak jsem si s tím hrál v nanochatu. Například tady je 8 agentů (4 claude, 4 codex), každý s 1 GPU, která provádí nanochat experimenty (snaží se smazat logit softcap bez regrese). Stručně řečeno, nefunguje to a je to chaos... Ale pořád je to velmi hezké na pohled :) Zkoušel jsem několik nastavení: 8 nezávislých samostatných výzkumníků, 1 hlavní vědec zadávající práci 8 mladším výzkumníkům atd. Každý výzkumný program je větev gitu, každý vědec ho rozděluje na větev funkcí, git worktrees pro izolaci, jednoduché soubory pro komunikaci, přeskočte Docker/VM pro jednoduchost (instrukce mi stačí, aby zabránily rušení). Research org běží v tmux okenních mřížkách interaktivních sezení (jako Teams), takže je hezké se na ně dívat, vidět jejich individuální práci a případně "převzít", tedy bez -p. Ale důvod, proč to zatím nefunguje, je ten, že nápady agentů jsou prostě dost špatné mimo zaběhnuté koleje, i když jsou v nejvyšší inteligenci. Nepřemýšlejí pečlivě o návrhu experimentů, používají trochu nesmyslné variace, nevytvářejí silné základy a správně neablatují věci, nekontrolují pečlivě čas běhu nebo propadáky. (Jen jako příklad, agent včera "objevil", že zvětšení skryté velikosti sítě zlepšuje validační ztrátu, což je zcela nesmyslný výsledek, protože větší síť má nižší validační ztrátu v režimu nekonečných dat, ale zároveň trénuje mnohem déle, není jasné, proč jsem to musel zmínit). Jsou velmi dobří v realizaci jakéhokoliv dobře promyšleného a popsaného nápadu, ale kreativně ho nevytvářejí. Ale cílem je, že nyní programujete organizaci (například "výzkumnou organizaci") a její jednotlivé agenty, takže "zdrojový kód" je soubor promptů, dovedností, nástrojů atd. a procesů, které ho tvoří. Například denní standup ráno je nyní součástí "organizačního kódu". A optimalizace nanochat předškolení je jen jedním z mnoha úkolů (skoro jako hodnocení). Pak – při libovolném úkolu, jak rychle vaše výzkumná organizace generuje pokrok v něm?