We hebben een fundamenteel probleem met hoe we AI voor wetenschap evalueren. Huidige benchmarks testen geïsoleerde capaciteiten - Kan de AI gegevens analyseren? Hypotheses genereren? Experimenten ontwerpen? Maar zo werkt echt onderzoek niet 🧵
We hebben zojuist een preprint gepubliceerd waarin we een nieuwe manier voorstellen om AI-wetenschappers te evalueren als onderzoeksco-piloten in plaats van geïsoleerde taakuitvoerders. De lessen leiden onze herbouw van BioAgents tot de beste wetenschappelijke agenten ter wereld. Lees het artikel op @arxiv:
Het belangrijkste probleem dat we willen oplossen: de huidige AI voor wetenschappelijke benchmarks slaagt er niet in de werkprocessen van biomedische onderzoekers vast te leggen. Voorbeeld: een postdoc analyseert genetische gegevens op maandag, verfijnt hypothesen op dinsdag, past protocollen aan op donderdag op basis van herziene budgetten, en integreert alles in een voorstel volgende week. Huidige benchmarks testen afzonderlijk: * Kwaliteit van data-analyse ✓ * Geldigheid van hypothesen ✓ * Ontwerp van protocollen ✓ Maar geen van hen beoordeelt of de AI de hypothese van dinsdag herinnerde bij het ontwerpen van de experimenten van donderdag, of dat de budgetbeperkingen van donderdag doorwerkten naar het voorstel van maandag.
Bij meer dan 3.200 gescreende artikelen heeft onze review 5 evaluatiedimensies geïdentificeerd: * Traditionele prestatiemetrics * Multi-step redenering & experimentele planning * Veiligheid & foutdetectie * Kennis-synthese * Tool-augmenteerbare workflows Wat we herhaaldelijk missen: hoe deze dimensies in combinatie werken tijdens echte R&D-cycli en experimenteel ontwerp. Een AI kan elke benchmark behalen - en toch moeite hebben als onderzoeksgenoot. @ilyasut bracht onlangs een vergelijkbaar punt naar voren in de @dwarkesh_sp podcast, waarbij hij opmerkte hoe de AI-modellen van vandaag niet in staat zijn om te generaliseren voor meer gecompliceerde taken als coderingsagenten:
Deze faalpatronen zijn niet alleen theoretisch. Recursion Pharmaceuticals voert wekelijks 2,2 miljoen AI-gestuurde experimenten uit, en de markten voor laboratoriumautomatisering groeien jaarlijks met 7–8%. Het inzetten van AI in onderzoek met hoge inzet vereist strenge controles op wetenschappelijke validiteit, reproduceerbaarheid en veiligheid.
We stellen voor om uit te breiden van puur capaciteitsbenchmarks naar ook workflowbenchmarks. Vier dimensies zijn veel belangrijker dan welke enkele taakscore dan ook: 1. Dialoogkwaliteit - Stelt het verduidelijkende vragen voordat het zich vastlegt? 2. Workflow-orkestratie - Reflecteren latere fasen eerdere beperkingen? 3. Sessieduurzaamheid - Herinnert het context over meerdere dagen? 4. Onderzoekerservaring - Kalibreert het vertrouwen op de juiste manier?
Workflow benchmarks zijn bedoeld om AI te stress-testen zoals echte wetenschap dat doet. Met onvolledige gegevens, verschuivende budgetten, tegenstrijdige resultaten, feedback van PI en onverwachte mislukkingen. Past de AI zich aan, of valt het terug in rigiditeit en hallucinaties? Slechts het eerste is een echte onderzoekspartner.
Conclusie: Systemen die hoog scoren op geïsoleerde taken kunnen falen als onderzoeksco-piloten. Het is tijd om benchmarks uit te breiden zodat ze overeenkomen met hoe wetenschappers daadwerkelijk werken: iteratief, converserend, bewust van beperkingen, en over meerdere sessies heen. De toekomst van AI voor Wetenschap hangt ervan af.
7,63K