Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Tenemos un problema fundamental con cómo evaluamos la IA para la ciencia. Los benchmarks actuales ponen a prueba capacidades aisladas - ¿Puede la IA analizar datos? ¿Generar hipótesis? ¿Experimentos de diseño? Pero así no funciona 🧵 la investigación real

Acabamos de publicar un preprint proponiendo una nueva forma de evaluar a los científicos de IA como copilotos de investigación en lugar de ejecutores de tareas aislados. Los aprendizajes están guiando nuestra reconstrucción de BioAgentes para convertirlos en los mejores agentes científicos del mundo. Lee el artículo en @arxiv:

El principal problema que nos propusimos resolver: los benchmarks actuales de IA para la ciencia no capturan los flujos de trabajo reales de los investigadores biomédicos. Ejemplo: un postdoctorado analiza datos genéticos el lunes, refina hipótesis el martes, adapta los protocolos el jueves basándose en presupuestos revisados y luego integra todo en una propuesta la semana siguiente. Los benchmarks actuales prueban por separado: * Calidad del análisis de datos ✓ * Validez de la hipótesis ✓ * Diseño de protocolo ✓ Pero ninguno evalúa si la IA recordó la hipótesis del martes al diseñar los experimentos del jueves, o si la restricción presupuestaria del jueves se aplicó a la propuesta del lunes.

En 3.200+ artículos evaluados, nuestra revisión identificó 5 dimensiones de evaluación: * Métricas tradicionales de rendimiento * Razonamiento en varios pasos y planificación experimental * Seguridad y detección de errores * Síntesis de conocimiento * Flujos de trabajo aumentados con herramientas Lo que encontramos repetidamente que faltaba: cómo funcionan estas dimensiones en combinación durante ciclos reales de investigación y desarrollo y diseño experimental. Una IA puede sacar nota en todos los benchmarks y aun así tener dificultades como socio de investigación. @ilyasut planteó un punto similar recientemente en el podcast @dwarkesh_sp, observando cómo los modelos de IA actuales no generalizan para tareas más complicadas como agentes de codificación:

Estos patrones de fallo no son solo teóricos. Recursion Pharmaceuticals realiza 2,2 millones de experimentos guiados por IA semanalmente, y los mercados de automatización de laboratorios crecen entre un 7 y un 8% anual. Rechazar la IA en investigaciones de alto riesgo exige controles rigurosos de validez científica, reproducibilidad y seguridad.

Proponemos ampliar los benchmarks de capacidades puramente para incluir también benchmarks de flujo de trabajo. Las cuatro dimensiones importan mucho más que cualquier puntuación de tarea individual: 1. Calidad del diálogo - ¿Plantea preguntas aclaratorias antes de comprometerse? 2. Orquestación de flujos de trabajo - ¿Las etapas posteriores reflejan restricciones anteriores? 3. Continuidad de la sesión - ¿Recuerda el contexto a lo largo de los días? 4. Experiencia del investigador - ¿Calibra adecuadamente la confianza?

Los benchmarks de flujo de trabajo buscan poner a prueba la IA como hace la ciencia real. Con datos incompletos, presupuestos cambiantes, resultados contradictorios, feedback de los PIs y fallos inesperados. ¿La IA se adapta o colapsa en rigidez y alucinaciones? Solo el primero es un verdadero socio de investigación.

En resumen: los sistemas que obtienen una alta puntuación en tareas aisladas pueden fallar como copilotos de investigación. Es hora de ampliar los benchmarks para que coincidan con cómo trabajan realmente los científicos: iterativo, conversacional, consciente de las restricciones, abarcando varias sesiones. El futuro de la IA para la Ciencia depende de ello.

7.63K

Populares

Ranking

Favoritas