Temos um problema fundamental com a forma como estamos avaliando a IA para a ciência. Benchmarks atuais testam capacidades isoladas - A IA pode analisar dados? Gerar hipóteses? Experimentos de design? Mas não é assim que a pesquisa real funciona 🧵
Acabamos de publicar um preprint propondo uma nova forma de avaliar cientistas de IA como co-pilotos de pesquisa, em vez de executores de tarefas isolados. Os aprendizados estão guiando nossa reconstrução dos BioAgentes para os melhores agentes científicos do mundo. Leia o artigo sobre @arxiv:
O principal problema que pretendemos resolver: os atuais benchmarks de IA para ciência não capturam os fluxos de trabalho reais dos pesquisadores biomédicos. Exemplo: um pós-doutorando analisa dados genéticos na segunda-feira, refina hipóteses na terça-feira, adapta protocolos na quinta-feira com base em orçamentos revisados e depois integra tudo em uma proposta na próxima semana. Os benchmarks atuais testam separadamente: * Qualidade da análise de dados ✓ * Validade da hipótese ✓ * Design de protocolo ✓ Mas nenhum avalia se a IA se lembrou da hipótese de terça-feira ao projetar os experimentos de quinta-feira, ou se a restrição orçamentária de quinta-feira se aplicou à proposta de segunda-feira.
Em 3.200+ artigos analisados, nossa revisão identificou 5 dimensões de avaliação: * Métricas tradicionais de desempenho * Raciocínio em múltiplas etapas e planejamento experimental * Segurança e detecção de erros * Síntese do conhecimento * Fluxos de trabalho com ferramentas O que repetidamente encontramos faltando: como essas dimensões funcionam em combinação durante ciclos reais de P&D e desenho experimental. Uma IA pode arrasar em todos os benchmarks – e ainda assim ter dificuldades como parceira de pesquisa. @ilyasut levantou um ponto semelhante recentemente no podcast @dwarkesh_sp, observando como os modelos de IA atuais falham em generalizar para tarefas mais complicadas como agentes de codificação:
Esses padrões de falha não são apenas teóricos. A Recursion Pharmaceuticals realiza 2,2 milhões de experimentos guiados por IA semanalmente, e os mercados de automação laboratorial crescem entre 7 e 8% ao ano. A falta de IA em pesquisas de alto risco exige rigorosas verificações de validade científica, reprodutibilidade e segurança.
Propomos expandir dos benchmarks puramente de capacidades para incluir também benchmarks de workflow. Quatro dimensões importam muito mais do que qualquer pontuação individual de tarefa: 1. Qualidade do diálogo - Ele faz perguntas esclarecedoras antes de se comprometer? 2. Orquestração de Fluxo de Trabalho - Estágios posteriores refletem restrições anteriores? 3. Continuidade da Sessão - Ele lembra o contexto ao longo dos dias? 4. Experiência do Pesquisador - Ele calibra a confiança adequadamente?
Benchmarks de fluxo de trabalho visam testar a IA como a ciência real faz. Com dados incompletos, orçamentos em mudança, resultados conflitantes, feedback do orientador e falhas inesperadas. A IA se adapta ou colapsa em rigidez e alucinações? Apenas o primeiro é um verdadeiro parceiro de pesquisa.
Resumindo: Sistemas com pontuação alta em tarefas isoladas podem falhar como copilotos de pesquisa. É hora de expandir os benchmarks para combinar com a forma como os cientistas realmente trabalham: iterativo, conversacional, consciente de restrições, abrangendo várias sessões. O futuro da IA para a Ciência depende disso.
7,63K