Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Temos um problema fundamental com a forma como estamos avaliando a IA para a ciência.
Benchmarks atuais testam capacidades isoladas - A IA pode analisar dados? Gerar hipóteses? Experimentos de design?
Mas não é assim que a pesquisa real funciona 🧵

Acabamos de publicar um preprint propondo uma nova forma de avaliar cientistas de IA como co-pilotos de pesquisa, em vez de executores de tarefas isolados.
Os aprendizados estão guiando nossa reconstrução dos BioAgentes para os melhores agentes científicos do mundo.
Leia o artigo sobre @arxiv:

O principal problema que pretendemos resolver: os atuais benchmarks de IA para ciência não capturam os fluxos de trabalho reais dos pesquisadores biomédicos.
Exemplo: um pós-doutorando analisa dados genéticos na segunda-feira, refina hipóteses na terça-feira, adapta protocolos na quinta-feira com base em orçamentos revisados e depois integra tudo em uma proposta na próxima semana.
Os benchmarks atuais testam separadamente:
* Qualidade da análise de dados ✓
* Validade da hipótese ✓
* Design de protocolo ✓
Mas nenhum avalia se a IA se lembrou da hipótese de terça-feira ao projetar os experimentos de quinta-feira, ou se a restrição orçamentária de quinta-feira se aplicou à proposta de segunda-feira.

Em 3.200+ artigos analisados, nossa revisão identificou 5 dimensões de avaliação:
* Métricas tradicionais de desempenho
* Raciocínio em múltiplas etapas e planejamento experimental
* Segurança e detecção de erros
* Síntese do conhecimento
* Fluxos de trabalho com ferramentas
O que repetidamente encontramos faltando: como essas dimensões funcionam em combinação durante ciclos reais de P&D e desenho experimental.
Uma IA pode arrasar em todos os benchmarks – e ainda assim ter dificuldades como parceira de pesquisa.
@ilyasut levantou um ponto semelhante recentemente no podcast @dwarkesh_sp, observando como os modelos de IA atuais falham em generalizar para tarefas mais complicadas como agentes de codificação:
Esses padrões de falha não são apenas teóricos.
A Recursion Pharmaceuticals realiza 2,2 milhões de experimentos guiados por IA semanalmente, e os mercados de automação laboratorial crescem entre 7 e 8% ao ano.
A falta de IA em pesquisas de alto risco exige rigorosas verificações de validade científica, reprodutibilidade e segurança.
Propomos expandir dos benchmarks puramente de capacidades para incluir também benchmarks de workflow.
Quatro dimensões importam muito mais do que qualquer pontuação individual de tarefa:
1. Qualidade do diálogo - Ele faz perguntas esclarecedoras antes de se comprometer?
2. Orquestração de Fluxo de Trabalho - Estágios posteriores refletem restrições anteriores?
3. Continuidade da Sessão - Ele lembra o contexto ao longo dos dias?
4. Experiência do Pesquisador - Ele calibra a confiança adequadamente?
Benchmarks de fluxo de trabalho visam testar a IA como a ciência real faz.
Com dados incompletos, orçamentos em mudança, resultados conflitantes, feedback do orientador e falhas inesperadas.
A IA se adapta ou colapsa em rigidez e alucinações?
Apenas o primeiro é um verdadeiro parceiro de pesquisa.

Resumindo: Sistemas com pontuação alta em tarefas isoladas podem falhar como copilotos de pesquisa.
É hora de expandir os benchmarks para combinar com a forma como os cientistas realmente trabalham: iterativo, conversacional, consciente de restrições, abrangendo várias sessões.
O futuro da IA para a Ciência depende disso.
7,63K
Melhores
Classificação
Favoritos
