Tôi đã có cùng một suy nghĩ nên tôi đã chơi với nó trong nanochat. Ví dụ, đây là 8 tác nhân (4 claude, 4 codex), mỗi cái có 1 GPU chạy các thí nghiệm nanochat (cố gắng xóa logit softcap mà không bị hồi quy). Tóm lại là nó không hoạt động và thật lộn xộn... nhưng vẫn rất đẹp để nhìn :) Tôi đã thử một vài thiết lập: 8 nhà nghiên cứu độc lập, 1 nhà khoa học trưởng giao việc cho 8 nhà nghiên cứu trẻ, v.v. Mỗi chương trình nghiên cứu là một nhánh git, mỗi nhà khoa học phân nhánh nó thành một nhánh tính năng, git worktrees để cách ly, các tệp đơn giản cho giao tiếp, bỏ qua Docker/VMs để đơn giản hóa tạm thời (tôi thấy rằng hướng dẫn là đủ để ngăn chặn sự can thiệp). Tổ chức nghiên cứu chạy trong các cửa sổ tmux của các phiên tương tác (như Teams) để nó đẹp mắt, thấy được công việc cá nhân của họ, và "tiếp quản" nếu cần, tức là không có -p. Nhưng lý do mà nó không hoạt động cho đến nay là ý tưởng của các tác nhân thực sự rất tệ ngay từ đầu, ngay cả khi có trí tuệ cao nhất. Họ không suy nghĩ cẩn thận về thiết kế thí nghiệm, họ chạy một số biến thể không hợp lý, họ không tạo ra các cơ sở mạnh mẽ và không loại bỏ các yếu tố một cách hợp lý, họ không kiểm soát cẩn thận thời gian chạy hoặc flops. (chỉ là một ví dụ, một tác nhân hôm qua "khám phá" rằng việc tăng kích thước ẩn của mạng cải thiện tổn thất xác thực, điều này là một kết quả hoàn toàn giả tạo vì một mạng lớn hơn sẽ có tổn thất xác thực thấp hơn trong chế độ dữ liệu vô hạn, nhưng sau đó nó cũng đào tạo lâu hơn, không rõ tại sao tôi phải vào để chỉ ra điều đó). Họ rất giỏi trong việc thực hiện bất kỳ ý tưởng nào được xác định rõ ràng và mô tả nhưng họ không sáng tạo để tạo ra chúng. Nhưng mục tiêu là bạn đang lập trình một tổ chức (ví dụ, một "tổ chức nghiên cứu") và các tác nhân cá nhân của nó, vì vậy "mã nguồn" là tập hợp các lời nhắc, kỹ năng, công cụ, v.v. và các quy trình tạo nên nó. Ví dụ, một cuộc họp hàng ngày vào buổi sáng giờ đây là một phần của "mã tổ chức". Và tối ưu hóa việc tiền huấn luyện nanochat chỉ là một trong nhiều nhiệm vụ (gần như như một đánh giá). Sau đó - với một nhiệm vụ tùy ý, tổ chức nghiên cứu của bạn tạo ra tiến bộ trên đó nhanh như thế nào?