Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Avem o problemă fundamentală în modul în care evaluăm IA pentru știință.
Benchmark-urile actuale testează capabilități izolate - Poate AI-ul să analizeze datele? Să genereze ipoteze? Experimente de proiectare?
Dar așa nu funcționează 🧵 cercetarea reală

Tocmai am publicat un preprint propunând o nouă modalitate de a evalua oamenii de știință AI ca co-piloți de cercetare, nu ca executori izolați de sarcini.
Aceste învățături ghidează reconstrucția BioAgenților în cei mai buni agenți științifici din lume.
Citește articolul despre @arxiv:

Problema principală pe care ne-am propus-o să o rezolvăm: benchmark-urile actuale ale AI pentru știință nu reușesc să surprindă fluxurile de lucru reale ale cercetătorilor biomedicali.
Exemplu: un postdoc analizează datele genetice luni, rafinează ipotezele marți, adaptează protocoalele joi pe baza bugetelor revizuite, apoi integrează totul într-o propunere săptămâna viitoare.
Reperele actuale testează separat:
* Calitatea analizei datelor ✓
* Valabilitatea ipotezei ✓
* Proiectarea protocolului ✓
Dar niciunul nu evaluează dacă AI-ul și-a amintit ipoteza de marți când a proiectat experimentele de joi sau dacă constrângerea bugetară de joi s-a aplicat și la propunerea de luni.

La 3.200+ lucrări analizate, revizuirea noastră a identificat 5 dimensiuni de evaluare:
* Metrici tradiționale de performanță
* Raționament în mai mulți pași și planificare experimentală
* Siguranță și detectare a erorilor
* Sinteza cunoștințelor
* Fluxuri de lucru augmentate cu unelte
Ce am constatat în mod repetat lipsă: modul în care aceste dimensiuni funcționează în combinație în timpul ciclurilor reale de cercetare și dezvoltare și în designul experimental.
Un AI poate excela la fiecare benchmark – și totuși poate avea dificultăți ca partener de cercetare.
@ilyasut ridicat recent un punct similar în podcastul @dwarkesh_sp, observând cum modelele AI de astăzi nu se generalizează pentru sarcini mai complicate, cum ar fi agenții de programare:
Aceste tipare de eșec nu sunt doar teoretice.
Recursion Pharmaceuticals derulează săptămânal 2,2 milioane de experimente ghidate de AI, iar piețele de automatizare în laborator cresc cu 7–8% anual.
Depășirea IA în cercetarea cu miză mare necesită verificări riguroase pentru validitatea științifică, reproductibilitatea și siguranța.
Propunem extinderea de la benchmark-urile de capacitate pur pentru a include și benchmark-uri de workflow.
Patru dimensiuni contează mult mai mult decât orice scor individual al sarcinii:
1. Calitatea dialogului - Pune întrebări clarificătoare înainte de a se angaja?
2. Orchestrarea fluxului de lucru - Reflectă etapele ulterioare constrângerile anterioare?
3. Continuitatea sesiunii - Își amintește contextul pe parcursul zilelor?
4. Experiența cercetătorului - Calibrează corect încrederea?
Reperele de workflow urmăresc să testeze AI-ul la fel ca știința reală.
Cu date incomplete, bugete în schimbare, rezultate contradictorii, feedback de la PI și eșecuri neașteptate.
AI-ul se adaptează sau se prăbușește în rigiditate și halucinații?
Doar primul este un adevărat partener de cercetare.

Concluzia: Sistemele care obțin scoruri mari la sarcini izolate pot eșua ca co-piloți de cercetare.
Este timpul să extindem benchmark-urile pentru a se potrivi cu modul în care oamenii de știință lucrează de fapt: iterativ, conversațional, conștient de constrângeri, pe mai multe sesiuni.
Viitorul AI pentru știință depinde de asta.
7,62K
Limită superioară
Clasament
Favorite
