Avem o problemă fundamentală în modul în care evaluăm IA pentru știință. Benchmark-urile actuale testează capabilități izolate - Poate AI-ul să analizeze datele? Să genereze ipoteze? Experimente de proiectare? Dar așa nu funcționează 🧵 cercetarea reală
Tocmai am publicat un preprint propunând o nouă modalitate de a evalua oamenii de știință AI ca co-piloți de cercetare, nu ca executori izolați de sarcini. Aceste învățături ghidează reconstrucția BioAgenților în cei mai buni agenți științifici din lume. Citește articolul despre @arxiv:
Problema principală pe care ne-am propus-o să o rezolvăm: benchmark-urile actuale ale AI pentru știință nu reușesc să surprindă fluxurile de lucru reale ale cercetătorilor biomedicali. Exemplu: un postdoc analizează datele genetice luni, rafinează ipotezele marți, adaptează protocoalele joi pe baza bugetelor revizuite, apoi integrează totul într-o propunere săptămâna viitoare. Reperele actuale testează separat: * Calitatea analizei datelor ✓ * Valabilitatea ipotezei ✓ * Proiectarea protocolului ✓ Dar niciunul nu evaluează dacă AI-ul și-a amintit ipoteza de marți când a proiectat experimentele de joi sau dacă constrângerea bugetară de joi s-a aplicat și la propunerea de luni.
La 3.200+ lucrări analizate, revizuirea noastră a identificat 5 dimensiuni de evaluare: * Metrici tradiționale de performanță * Raționament în mai mulți pași și planificare experimentală * Siguranță și detectare a erorilor * Sinteza cunoștințelor * Fluxuri de lucru augmentate cu unelte Ce am constatat în mod repetat lipsă: modul în care aceste dimensiuni funcționează în combinație în timpul ciclurilor reale de cercetare și dezvoltare și în designul experimental. Un AI poate excela la fiecare benchmark – și totuși poate avea dificultăți ca partener de cercetare. @ilyasut ridicat recent un punct similar în podcastul @dwarkesh_sp, observând cum modelele AI de astăzi nu se generalizează pentru sarcini mai complicate, cum ar fi agenții de programare:
Aceste tipare de eșec nu sunt doar teoretice. Recursion Pharmaceuticals derulează săptămânal 2,2 milioane de experimente ghidate de AI, iar piețele de automatizare în laborator cresc cu 7–8% anual. Depășirea IA în cercetarea cu miză mare necesită verificări riguroase pentru validitatea științifică, reproductibilitatea și siguranța.
Propunem extinderea de la benchmark-urile de capacitate pur pentru a include și benchmark-uri de workflow. Patru dimensiuni contează mult mai mult decât orice scor individual al sarcinii: 1. Calitatea dialogului - Pune întrebări clarificătoare înainte de a se angaja? 2. Orchestrarea fluxului de lucru - Reflectă etapele ulterioare constrângerile anterioare? 3. Continuitatea sesiunii - Își amintește contextul pe parcursul zilelor? 4. Experiența cercetătorului - Calibrează corect încrederea?
Reperele de workflow urmăresc să testeze AI-ul la fel ca știința reală. Cu date incomplete, bugete în schimbare, rezultate contradictorii, feedback de la PI și eșecuri neașteptate. AI-ul se adaptează sau se prăbușește în rigiditate și halucinații? Doar primul este un adevărat partener de cercetare.
Concluzia: Sistemele care obțin scoruri mari la sarcini izolate pot eșua ca co-piloți de cercetare. Este timpul să extindem benchmark-urile pentru a se potrivi cu modul în care oamenii de știință lucrează de fapt: iterativ, conversațional, conștient de constrângeri, pe mai multe sesiuni. Viitorul AI pentru știință depinde de asta.
7,62K