DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Ich hatte denselben Gedanken, also habe ich damit in nanochat experimentiert. Zum Beispiel hier sind 8 Agenten (4 Claude, 4 Codex), jeder mit 1 GPU, die nanochat-Experimente durchführen (versuchen, den Logit-Softcap ohne Regression zu löschen). Die Zusammenfassung ist, dass es nicht funktioniert und es ein Chaos ist... aber es sieht immer noch sehr schön aus :) Ich habe ein paar Setups ausprobiert: 8 unabhängige Solo-Forscher, 1 Chefwissenschaftler, der 8 Junior-Forschern Aufgaben gibt, usw. Jedes Forschungsprogramm ist ein Git-Branch, jeder Wissenschaftler forked es in einen Feature-Branch, Git-Arbeitsbäume für Isolation, einfache Dateien für die Kommunikation, Docker/VMs vorerst aus Einfachheitsgründen überspringen (ich finde, dass Anweisungen ausreichen, um Interferenzen zu verhindern). Die Forschungsorganisation läuft in tmux-Fenster-Gittern interaktiver Sitzungen (wie Teams), sodass es schön anzusehen ist, ihre individuellen Arbeiten zu sehen und "übernehmen" zu können, wenn nötig, d.h. kein -p. Aber okay, der Grund, warum es bisher nicht funktioniert, ist, dass die Ideen der Agenten einfach von Anfang an ziemlich schlecht sind, selbst bei höchster Intelligenz. Sie denken nicht sorgfältig über das Experimentdesign nach, sie führen ein bisschen unsinnige Variationen durch, sie erstellen keine starken Baselines und blenden die Dinge nicht richtig ab, sie kontrollieren nicht sorgfältig für Laufzeit oder Flops. (Nur als Beispiel, ein Agent hat gestern "entdeckt", dass die Erhöhung der versteckten Größe des Netzwerks den Validierungsverlust verbessert, was ein völlig spurious Ergebnis ist, da ein größeres Netzwerk im unendlichen Datenregime einen niedrigeren Validierungsverlust haben wird, aber dann trainiert es auch viel länger, es ist unklar, warum ich darauf hinweisen musste). Sie sind sehr gut darin, jede gegebene gut definierte und beschriebene Idee umzusetzen, aber sie generieren sie nicht kreativ. Aber das Ziel ist, dass Sie jetzt eine Organisation (z.B. eine "Forschungsorganisation") und ihre einzelnen Agenten programmieren, sodass der "Quellcode" die Sammlung von Eingabeaufforderungen, Fähigkeiten, Werkzeugen usw. und Prozessen ist, die sie ausmachen. Zum Beispiel ist ein tägliches Standup am Morgen jetzt Teil des "Org-Codes". Und die Optimierung des nanochat-Vortrainings ist nur eine der vielen Aufgaben (fast wie eine Bewertung). Dann - gegeben eine beliebige Aufgabe, wie schnell generiert Ihre Forschungsorganisation Fortschritte darauf?

Top

Ranking

Favoriten