Vi har et grunnleggende problem med hvordan vi evaluerer AI for vitenskap. Nåværende benchmarks tester isolerte kapasiteter – Kan AI-en analysere data? Generere hypoteser? Designeksperimenter? Men slik fungerer 🧵 ikke ekte forskning
Vi har nettopp publisert en preprint som foreslår en ny måte å evaluere AI-forskere på som forskningsmedpiloter i stedet for isolerte oppgaveutøvere. Lærdommene styrer vår ombygging av BioAgents til verdens beste vitenskapelige agenter. Les artikkelen på @arxiv:
Hovedproblemet vi satte oss fore å løse: nåværende AI for vitenskapelige referansepunkter klarer ikke å fange opp de faktiske arbeidsflytene til biomedisinske forskere. Eksempel: en postdoktor analyserer genetiske data mandag, forbedrer hypoteser tirsdag, tilpasser protokoller torsdag basert på reviderte budsjetter, og integrerer deretter alt i et forslag neste uke. Nåværende referanseverdier tester separat: * Dataanalysekvalitet ✓ * Hypotesegyldighet ✓ * Protokolldesign ✓ Men ingen vurderer om AI-en husket tirsdagens hypotese da de designet torsdagens eksperimenter, eller om torsdagens budsjettbegrensning også gjaldt mandagens forslag.
På tvers av 3 200+ artikler som ble screenet, identifiserte vår gjennomgang 5 evalueringsdimensjoner: * Tradisjonelle ytelsesmålinger * Flertrinns resonnement og eksperimentell planlegging * Sikkerhets- og feildeteksjon * Kunnskapssyntese * Verktøyforsterkede arbeidsflyter Det vi gjentatte ganger fant manglet: hvordan disse dimensjonene fungerer i kombinasjon under reelle FoU-sykluser og eksperimentell design. En AI kan toppe alle standarder – og likevel slite som forskningspartner. @ilyasut tok nylig opp et lignende poeng på @dwarkesh_sp-podcasten, og observerte hvordan dagens AI-modeller ikke generaliserer for mer kompliserte oppgaver som kodingsagenter:
Disse feilmønstrene er ikke bare teoretiske. Recursion Pharmaceuticals gjennomfører 2,2 millioner AI-ledede eksperimenter ukentlig, og markedene for laboratorieautomatisering vokser med 7–8 % årlig. Å depoye AI i forskning med høye innsatser krever grundige kontroller av vitenskapelig gyldighet, reproduserbarhet og sikkerhet.
Vi foreslår å utvide fra rene kapasitetsbenchmarks til også å inkludere arbeidsflytbenchmarks. Fire dimensjoner betyr langt mer enn noen enkelt oppgavescore: 1. Dialogkvalitet – Stiller den oppklarende spørsmål før man forplikter seg? 2. Arbeidsflytorkestrering – Reflekterer senere stadier tidligere begrensninger? 3. Økt kontinuitet – Husker den kontekst over dagene? 4. Forskererfaring – Kalibrerer den tillit riktig?
Arbeidsflyt-benchmarks har som mål å stressteste AI slik ekte vitenskap gjør. Med ufullstendige data, skiftende budsjetter, motstridende resultater, tilbakemeldinger fra veiledere og uventede feil. Tilpasser AI-en seg, eller kollapser den inn i rigiditet og hallusinasjoner? Bare førstnevnte er en ekte forskningspartner.
Konklusjon: Systemer som scorer høyt på isolerte oppgaver kan mislykkes som forskningsco-piloter. Det er på tide å utvide referansepunktene for å matche hvordan forskere faktisk fungerer: iterativ, samtalebasert, begrensningsbevisst, som strekker seg over flere økter. Fremtiden for AI for vitenskap avhenger av det.
7,64K