Temos um problema fundamental com a forma como estamos a avaliar a IA para a ciência. Os benchmarks atuais testam capacidades isoladas - A IA consegue analisar dados? Gerar hipóteses? Projetar experiências? Mas não é assim que a pesquisa real funciona 🧵
Acabámos de publicar um pré-print propondo uma nova forma de avaliar os Cientistas de IA como co-pilotos de pesquisa em vez de executores de tarefas isolados. As aprendizagens estão a guiar a nossa reconstrução dos BioAgents nos melhores agentes científicos do mundo. Leia o artigo em @arxiv:
O principal problema que nos propusemos resolver: os atuais benchmarks de IA para ciência não conseguem capturar os fluxos de trabalho reais dos pesquisadores biomédicos. Exemplo: um pós-doutorando analisa dados genéticos na segunda-feira, refina hipóteses na terça-feira, adapta protocolos na quinta-feira com base em orçamentos revisados e, em seguida, integra tudo em uma proposta na próxima semana. Os benchmarks atuais testam separadamente: * Qualidade da análise de dados ✓ * Validade da hipótese ✓ * Design de protocolo ✓ Mas nenhum avalia se a IA se lembrou da hipótese de terça-feira ao projetar os experimentos de quinta-feira, ou se a restrição orçamentária de quinta-feira foi considerada na proposta de segunda-feira.
Em mais de 3.200 artigos analisados, nossa revisão identificou 5 dimensões de avaliação: * Métricas de desempenho tradicionais * Raciocínio em múltiplas etapas e planejamento experimental * Segurança e detecção de erros * Síntese de conhecimento * Fluxos de trabalho aumentados por ferramentas O que encontramos repetidamente em falta: como essas dimensões funcionam em combinação durante ciclos reais de P&D e design experimental. Uma IA pode superar todos os benchmarks - e ainda assim ter dificuldades como parceira de pesquisa. @ilyasut levantou um ponto semelhante recentemente no podcast @dwarkesh_sp, observando como os modelos de IA de hoje falham em generalizar para tarefas mais complicadas como agentes de codificação:
Esses padrões de falha não são apenas teóricos. A Recursion Pharmaceuticals realiza 2,2 milhões de experimentos guiados por IA semanalmente, e os mercados de automação de laboratórios estão crescendo 7–8% anualmente. Implantar IA em pesquisas de alto risco exige verificações rigorosas de validade científica, reprodutibilidade e segurança.
Propomos expandir de benchmarks de capacidade puramente para incluir também benchmarks de fluxo de trabalho. Quatro dimensões importam muito mais do que qualquer pontuação de tarefa única: 1. Qualidade do Diálogo - Faz perguntas de esclarecimento antes de se comprometer? 2. Orquestração do Fluxo de Trabalho - As etapas posteriores refletem as restrições anteriores? 3. Continuidade da Sessão - Lembra-se do contexto ao longo dos dias? 4. Experiência do Pesquisador - Calibra a confiança de forma apropriada?
Os benchmarks de fluxo de trabalho visam testar a IA sob estresse, como a ciência real faz. Com dados incompletos, orçamentos em mudança, resultados conflitantes, feedback do PI e falhas inesperadas. A IA se adapta ou colapsa em rigidez e alucinações? Apenas a primeira é um verdadeiro parceiro de pesquisa.
Em resumo: Sistemas que obtêm altas pontuações em tarefas isoladas podem falhar como co-pilotos de pesquisa. É hora de expandir os benchmarks para corresponder à forma como os cientistas realmente trabalham: de forma iterativa, conversacional, ciente de restrições, abrangendo várias sessões. O futuro da IA para a Ciência depende disso.
7,63K