Mamy fundamentalny problem z tym, jak oceniamy AI w nauce. Obecne benchmarki testują izolowane zdolności - Czy AI potrafi analizować dane? Generować hipotezy? Projektować eksperymenty? Ale tak nie działa prawdziwe badanie 🧵
Właśnie opublikowaliśmy preprint proponujący nowy sposób oceny naukowców AI jako współpilotów badań, a nie izolowanych wykonawców zadań. Wnioski kierują naszą przebudową BioAgents w najlepsze na świecie agenty naukowe. Przeczytaj artykuł na @arxiv:
Główny problem, który postanowiliśmy rozwiązać: obecne benchmarki AI dla nauki nie odzwierciedlają rzeczywistych procesów pracy badaczy biomedycznych. Przykład: postdoktorant analizuje dane genetyczne w poniedziałek, udoskonala hipotezy we wtorek, dostosowuje protokoły w czwartek na podstawie zrewidowanych budżetów, a następnie integruje wszystko w propozycji w przyszłym tygodniu. Obecne benchmarki testują osobno: * Jakość analizy danych ✓ * Ważność hipotez ✓ * Projektowanie protokołów ✓ Ale żaden z nich nie ocenia, czy AI zapamiętało hipotezę z wtorku przy projektowaniu eksperymentów w czwartek, ani czy ograniczenie budżetowe z czwartku miało wpływ na propozycję z poniedziałku.
W przeglądzie ponad 3200 przefiltrowanych prac zidentyfikowaliśmy 5 wymiarów oceny: * Tradycyjne metryki wydajności * Rozumowanie wieloetapowe i planowanie eksperymentalne * Bezpieczeństwo i wykrywanie błędów * Synteza wiedzy * Przepływy pracy wspomagane narzędziami To, co wielokrotnie zauważyliśmy jako brak: jak te wymiary współdziałają w rzeczywistych cyklach R&D i projektowaniu eksperymentów. AI może osiągnąć doskonałe wyniki w każdym teście - a mimo to mieć trudności jako partner badawczy. @ilyasut poruszył podobny temat niedawno w podcaście @dwarkesh_sp, zauważając, jak dzisiejsze modele AI nie potrafią uogólniać w bardziej skomplikowanych zadaniach jako agenci kodowania:
Te wzorce awarii nie są tylko teoretyczne. Recursion Pharmaceuticals przeprowadza 2,2 miliona eksperymentów z wykorzystaniem AI co tydzień, a rynki automatyzacji laboratoriów rosną o 7–8% rocznie. Wdrożenie AI w badaniach o wysokiej stawce wymaga rygorystycznych kontroli pod kątem ważności naukowej, powtarzalności i bezpieczeństwa.
Proponujemy rozszerzenie z czysto benchmarków zdolności na uwzględnienie również benchmarków przepływu pracy. Cztery wymiary mają znacznie większe znaczenie niż jakikolwiek pojedynczy wynik zadania: 1. Jakość dialogu - Czy zadaje pytania wyjaśniające przed podjęciem decyzji? 2. Orkiestracja przepływu pracy - Czy późniejsze etapy odzwierciedlają wcześniejsze ograniczenia? 3. Ciągłość sesji - Czy pamięta kontekst przez kilka dni? 4. Doświadczenie badacza - Czy odpowiednio kalibruje zaufanie?
Wskaźniki wydajności pracy mają na celu testowanie AI w sposób, w jaki robi to prawdziwa nauka. Z niekompletnymi danymi, zmieniającymi się budżetami, sprzecznymi wynikami, opiniami PI i niespodziewanymi niepowodzeniami. Czy AI się dostosowuje, czy też zapada w sztywność i halucynacje? Tylko to pierwsze jest prawdziwym partnerem badawczym.
Ostatecznie: Systemy osiągające wysokie wyniki w izolowanych zadaniach mogą zawodzić jako współpracownicy badawczy. Czas rozszerzyć benchmarki, aby odpowiadały rzeczywistemu sposobowi pracy naukowców: iteracyjnie, konwersacyjnie, z uwzględnieniem ograniczeń, obejmując wiele sesji. Przyszłość AI w nauce na tym polega.
7,63K