Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Miałem tę samą myśl, więc bawiłem się tym w nanochat. Na przykład, oto 8 agentów (4 claude, 4 codex), z 1 GPU każdy, prowadzących eksperymenty w nanochat (próbując usunąć logit softcap bez regresji). TLDR jest taki, że to nie działa i jest bałagan... ale wciąż bardzo ładnie się na to patrzy :) Próbowałem kilku konfiguracji: 8 niezależnych badaczy, 1 główny naukowiec zlecający pracę 8 młodszym badaczom itd. Każdy program badawczy to gałąź git, każdy naukowiec fork'uje ją do gałęzi funkcjonalnej, git worktrees dla izolacji, proste pliki do komunikacji, pomijam Docker/VMy dla uproszczenia na razie (uważam, że instrukcje są wystarczające, aby zapobiec zakłóceniom). Organizacja badawcza działa w siatkach okien tmux z interaktywnymi sesjami (jak Teams), aby ładnie to wyglądało, można zobaczyć ich indywidualną pracę i "przejąć" jeśli zajdzie taka potrzeba, tzn. bez -p. Ale ok, powód, dla którego to na razie nie działa, to fakt, że pomysły agentów są po prostu kiepskie od samego początku, nawet przy najwyższej inteligencji. Nie myślą starannie o projektowaniu eksperymentów, przeprowadzają trochę nonsensowne wariacje, nie tworzą silnych bazowych linii i nie ablatują rzeczy poprawnie, nie kontrolują starannie czasu działania ani flops. (na przykład, jeden agent wczoraj "odkrył", że zwiększenie rozmiaru ukrytego sieci poprawia stratę walidacyjną, co jest całkowicie fałszywym wynikiem, biorąc pod uwagę, że większa sieć będzie miała niższą stratę walidacyjną w nieskończonym reżimie danych, ale potem również trenuje znacznie dłużej, nie jest jasne, dlaczego musiałem to wskazać). Są bardzo dobre w implementacji dowolnego dobrze zdefiniowanego i opisanego pomysłu, ale nie generują ich kreatywnie. Ale celem jest to, że teraz programujesz organizację (np. "organizację badawczą") i jej poszczególne agenty, więc "kod źródłowy" to zbiór podpowiedzi, umiejętności, narzędzi itd. oraz procesów, które ją tworzą. Na przykład, codzienny standup rano jest teraz częścią "kodu organizacji". A optymalizacja wstępnego szkolenia nanochat to tylko jedno z wielu zadań (prawie jak ocena). A więc - biorąc pod uwagę dowolne zadanie, jak szybko twoja organizacja badawcza generuje postęp w tym zakresie?

Najlepsze

Ranking

Ulubione