Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meillä on perustavanlaatuinen ongelma siinä, miten arvioimme tekoälyä tieteen kannalta.
Nykyiset testit testaavat erillisiä kykyjä – Voiko tekoäly analysoida dataa? Luoda hypoteeseja? Suunnittelukokeita?
Mutta näin oikea tutkimus ei toimi 🧵

Julkaisimme juuri esipainoksen, jossa ehdotettiin uutta tapaa arvioida tekoälytutkijoita tutkimusapulaisina eikä erillisinä tehtävien suorittajina.
Opit ohjaavat BioAgenttien uudelleenrakentamista maailman parhaiksi tieteellisiksi agenteiksi.
Lue @arxiv artikkeli:

Pääongelma, jonka pyrimme ratkaisemaan: nykyinen tekoäly tieteellisissä vertailuarvoissa ei pysty tavoittamaan biolääketieteellisten tutkijoiden todellisia työnkulkuja.
Esimerkki: postdoc analysoi geneettistä dataa maanantaina, tarkentaa hypoteeseja tiistaina, mukauttaa protokollia torstaina tarkistettujen budjettien perusteella ja integroi kaiken ehdotukseen ensi viikolla.
Nykyiset benchmarkit testaavat erikseen:
* Data-analyysin laatu ✓
* Hypoteesin pätevyys ✓
* Protokollasuunnittelu ✓
Mutta kukaan ei arvioi, muistiko tekoäly tiistain hypoteesin suunnitellessaan torstain kokeita, vai jatkuiko torstain budjettirajoitus myös maanantain ehdotukseen.

3 200+ seulotun artikkelin aikana katsauksessamme tunnistettiin 5 arviointiulottuvuutta:
* Perinteiset suorituskykymittarit
* Monivaiheinen päättely ja kokeellinen suunnittelu
* Turvallisuus ja virheiden tunnistus
* Tiedon synteesi
* Työkaluilla täydennetyt työnkulut
Mitä toistuvasti puuttui: miten nämä ulottuvuudet toimivat yhdessä todellisissa tutkimus- ja kehityssykleissä sekä kokeellisessa suunnittelussa.
Tekoäly voi selviytyä kaikista vertailuarvoista – ja silti kamppailla tutkimuskumppanina.
@ilyasut nosti samankaltaisen asian esiin äskettäin @dwarkesh_sp-podcastissa, todeten, kuinka nykyiset tekoälymallit eivät yleistä monimutkaisempiin koodausagentteihin tehtäviin:
Nämä epäonnistumismallit eivät ole pelkästään teoreettisia.
Recursion Pharmaceuticals toteuttaa viikoittain 2,2 miljoonaa tekoälyohjattua kokeilua, ja laboratorioautomaatiomarkkinat kasvavat 7–8 % vuosittain.
Tekoälyn poistaminen korkean panoksen tutkimuksessa vaatii tarkkoja tarkistuksia tieteellisen pätevyyden, toistettavuuden ja turvallisuuden osalta.
Ehdotamme laajentumista pelkästään kyvykkyysbenchmarkeista myös työnkulkuvertailuihin.
Neljä ulottuvuutta merkitsee paljon enemmän kuin yksittäinen tehtäväpiste:
1. Dialogin laatu – Kysytäänkö se tarkentavia kysymyksiä ennen sitoutumista?
2. Työnkulun orkestrointi – Heijastavatko myöhemmät vaiheet aiempia rajoitteita?
3. Istunnon jatkuvuus – Muistaako se kontekstin eri päivien ajan?
4. Tutkijan kokemus – Kalibroiko se luottamuksen oikein?
Työnkulkutestit pyrkivät stressitestaamaan tekoälyä kuten oikea tiede.
Puutteelliset tiedot, muuttuvat budjetit, ristiriitaiset tulokset, ohjaajapalaute ja odottamattomat epäonnistumiset.
Sopeutuuko tekoäly vai romahtaako jäykkyyteen ja hallusinaatioihin?
Vain edellinen on todellinen tutkimuskumppani.

Yhteenvetona: Järjestelmät, jotka saavat korkeat pisteet erillisissä tehtävissä, voivat epäonnistua tutkimuspiloteina.
On aika laajentaa vertailuarvoja vastaamaan sitä, miten tutkijat todellisuudessa työskentelevät: iteratiiviset, keskustelevat, rajoitteista tietoiset, useiden istuntojen aikana.
Tekoälyn tulevaisuus tieteelle riippuu siitä.
7,64K
Johtavat
Rankkaus
Suosikit
