Máme zásadní problém s tím, jak hodnotíme AI pro vědu. Současné benchmarky testují izolované schopnosti – Může AI analyzovat data? Generovat hypotézy? Designové experimenty? Ale takhle skutečný výzkum nefunguje 🧵
Právě jsme zveřejnili preprint, ve kterém navrhujeme nový způsob hodnocení AI vědců jako výzkumných kopilotů, nikoli izolovaných vykonatelů úkolů. Poznatky nás vedou k přestavbě BioAgentů na nejlepší vědecké agenty na světě. Přečtěte si článek na @arxiv:
Hlavní problém, který jsme si stanovili za cíl vyřešit: současné benchmarky AI pro vědu nedokážou zachytit skutečné pracovní postupy biomedicínských výzkumníků. Příklad: postdoktorand analyzuje genetická data v pondělí, v úterý upravuje hypotézy, ve čtvrtek upravuje protokoly na základě revidovaných rozpočtů a pak vše integruje do návrhu příští týden. Aktuální benchmarky testují samostatně: * Kvalita analýzy dat ✓ * Platnost hypotézy ✓ * Návrh protokolu ✓ Nikdo však nehodnotí, zda si AI při navrhování čtvrtečních experimentů vzpomněla na úterní hypotézu, nebo zda se čtvrteční rozpočtové omezení přeneslo i na pondělní návrh.
Ve 3 200+ testovaných článcích náš přehled identifikoval 5 hodnotících rozměrů: * Tradiční výkonnostní metriky * Vícestupňové uvažování a experimentální plánování * Bezpečnost a detekce chyb * Syntéza znalostí * Pracovní postupy s doplňky nástrojů Co jsme opakovaně zjistili, že chybí: jak tyto dimenze fungují v kombinaci během reálných výzkumných a vývojových cyklů a experimentálního návrhu. AI může zvládnout všechny benchmarky – a přesto mít problémy jako výzkumný partner. @ilyasut nedávno v podcastu @dwarkesh_sp upozornil na podobný bod, kde pozoroval, jak dnešní AI modely nedokážou zobecňovat pro složitější úkoly jako jsou programující agenti:
Tyto selhání nejsou jen teoretické. Recursion Pharmaceuticals provozuje 2,2 milionu experimentů řízených umělou inteligencí týdně a trhy s automatizací laboratoří rostou ročně o 7–8 %. Odhalení AI ve vysoce rizikovém výzkumu vyžaduje důkladné kontroly vědecké platnosti, reprodukovatelnosti a bezpečnosti.
Navrhujeme rozšířit se z čistě měřicích parametrů schopností na benchmarky pracovních postupů. Čtyři rozměry jsou mnohem důležitější než jakýkoli jednotlivý úkolový skóre: 1. Kvalita dialogu – Ptá se na upřesňující otázky před závazkem? 2. Orchestrace workflow – Odrážejí pozdější fáze dřívější omezení? 3. Kontinuita sezení – pamatuje si kontext napříč dny? 4. Zkušenost výzkumníka – Kalibruje důvěru správně?
Benchmarky pracovních postupů mají za cíl testovat AI podobně jako skutečná věda. S neúplnými daty, měnícími se rozpočty, protichůdnými výsledky, zpětnou vazbou od vedoucího a nečekanými selháními. Přizpůsobí se AI, nebo se zhroutí do rigidity a halucinací? Pouze ta první je skutečným výzkumným partnerem.
Závěr: Systémy, které dosahují vysokých výsledků v izolovaných úkolech, mohou selhat jako výzkumní kopiloti. Je čas rozšířit měřítka tak, aby odpovídala tomu, jak vědci skutečně pracují: iterativní, konverzační, s ohledem na omezení, rozprostírající se do více sekcí. Budoucnost AI pro vědu na tom závisí.
7,62K