Tenemos un problema fundamental con la forma en que estamos evaluando la IA para la ciencia. Los benchmarks actuales prueban capacidades aisladas: ¿Puede la IA analizar datos? ¿Generar hipótesis? ¿Diseñar experimentos? Pero así no es como funciona la investigación real 🧵
Acabamos de publicar un preprint proponiendo una nueva forma de evaluar a los Científicos de IA como co-pilotos de investigación en lugar de ejecutores de tareas aislados. Los aprendizajes están guiando nuestra reconstrucción de BioAgents en los mejores agentes científicos del mundo. Lee el artículo en @arxiv:
El principal problema que nos proponemos resolver: los actuales benchmarks de IA para la ciencia no logran capturar los flujos de trabajo reales de los investigadores biomédicos. Ejemplo: un postdoctorado analiza datos genéticos el lunes, refina hipótesis el martes, adapta protocolos el jueves basándose en presupuestos revisados, y luego integra todo en una propuesta la próxima semana. Los benchmarks actuales evalúan por separado: * Calidad del análisis de datos ✓ * Validez de la hipótesis ✓ * Diseño de protocolos ✓ Pero ninguno evalúa si la IA recordó la hipótesis del martes al diseñar los experimentos del jueves, o si la restricción presupuestaria del jueves se trasladó a la propuesta del lunes.
A través de más de 3,200 documentos revisados, nuestra revisión identificó 5 dimensiones de evaluación: * Métricas de rendimiento tradicionales * Razonamiento de múltiples pasos y planificación experimental * Seguridad y detección de errores * Síntesis de conocimientos * Flujos de trabajo aumentados por herramientas Lo que encontramos repetidamente ausente: cómo estas dimensiones funcionan en combinación durante los ciclos de I+D reales y el diseño experimental. Una IA puede superar cada referencia - y aún así tener dificultades como socio de investigación. @ilyasut planteó un punto similar recientemente en el podcast de @dwarkesh_sp, observando cómo los modelos de IA de hoy no logran generalizar para tareas más complicadas como agentes de codificación:
Estos patrones de fallo no son solo teóricos. Recursion Pharmaceuticals realiza 2.2 millones de experimentos guiados por IA semanalmente, y los mercados de automatización de laboratorios están creciendo un 7–8% anualmente. Desplegar IA en investigaciones de alto riesgo exige rigurosos controles de validez científica, reproducibilidad y seguridad.
Proponemos expandirnos de benchmarks de capacidad puramente a incluir también benchmarks de flujo de trabajo. Cuatro dimensiones importan mucho más que cualquier puntuación de tarea única: 1. Calidad del Diálogo - ¿Hace preguntas aclaratorias antes de comprometerse? 2. Orquestación del Flujo de Trabajo - ¿Las etapas posteriores reflejan las restricciones anteriores? 3. Continuidad de la Sesión - ¿Recuerda el contexto a lo largo de los días? 4. Experiencia del Investigador - ¿Calibra la confianza de manera apropiada?
Los benchmarks de flujo de trabajo tienen como objetivo someter a prueba la IA como lo hace la ciencia real. Con datos incompletos, presupuestos cambiantes, resultados contradictorios, comentarios del PI y fallos inesperados. ¿Se adapta la IA o colapsa en rigidez y alucinaciones? Solo lo primero es un verdadero socio de investigación.
En resumen: Los sistemas que obtienen altas puntuaciones en tareas aisladas pueden fallar como co-pilotos de investigación. Es hora de expandir los benchmarks para que coincidan con la forma en que los científicos realmente trabajan: de manera iterativa, conversacional, conscientes de las limitaciones y abarcando múltiples sesiones. El futuro de la IA para la Ciencia depende de ello.
7,63K