DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Tuve el mismo pensamiento, así que he estado experimentando con ello en nanochat. Por ejemplo, aquí hay 8 agentes (4 claude, 4 codex), cada uno con 1 GPU ejecutando experimentos de nanochat (intentando eliminar el softcap de logit sin regresión). El resumen es que no funciona y es un desastre... pero sigue siendo muy bonito de ver :) Probé algunas configuraciones: 8 investigadores independientes, 1 científico jefe dando trabajo a 8 investigadores junior, etc. Cada programa de investigación es una rama de git, cada científico la bifurca en una rama de características, git worktrees para aislamiento, archivos simples para comunicaciones, omitir Docker/VMs por simplicidad por ahora (encuentro que las instrucciones son suficientes para prevenir interferencias). La organización de investigación se ejecuta en cuadrículas de ventanas tmux de sesiones interactivas (como Teams) para que sea bonito de ver, ver su trabajo individual y "tomar el control" si es necesario, es decir, sin -p. Pero bien, la razón por la que no funciona hasta ahora es que las ideas de los agentes son simplemente bastante malas desde el principio, incluso con la mayor inteligencia. No piensan cuidadosamente en el diseño del experimento, ejecutan variaciones un poco sin sentido, no crean bases sólidas y no ablationan las cosas correctamente, no controlan cuidadosamente el tiempo de ejecución o los flops. (solo como ejemplo, un agente ayer "descubrió" que aumentar el tamaño oculto de la red mejora la pérdida de validación, lo cual es un resultado totalmente espurio dado que una red más grande tendrá una menor pérdida de validación en el régimen de datos infinitos, pero luego también entrena durante mucho más tiempo, no está claro por qué tuve que intervenir para señalar eso). Son muy buenos implementando cualquier idea bien definida y descrita, pero no generan creativamente. Pero el objetivo es que ahora estás programando una organización (por ejemplo, una "organización de investigación") y sus agentes individuales, así que el "código fuente" es la colección de prompts, habilidades, herramientas, etc. y procesos que la componen. Por ejemplo, una reunión diaria por la mañana ahora es parte del "código de la organización". Y optimizar el preentrenamiento de nanochat es solo una de las muchas tareas (casi como una evaluación). Entonces, dado un tarea arbitraria, ¿qué tan rápido genera progreso tu organización de investigación en ella?

Parte superior

Clasificación

Favoritos