Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tenemos un problema fundamental con la forma en que estamos evaluando la IA para la ciencia.
Los benchmarks actuales prueban capacidades aisladas: ¿Puede la IA analizar datos? ¿Generar hipótesis? ¿Diseñar experimentos?
Pero así no es como funciona la investigación real 🧵

Acabamos de publicar un preprint proponiendo una nueva forma de evaluar a los Científicos de IA como co-pilotos de investigación en lugar de ejecutores de tareas aislados.
Los aprendizajes están guiando nuestra reconstrucción de BioAgents en los mejores agentes científicos del mundo.
Lee el artículo en @arxiv:

El principal problema que nos proponemos resolver: los actuales benchmarks de IA para la ciencia no logran capturar los flujos de trabajo reales de los investigadores biomédicos.
Ejemplo: un postdoctorado analiza datos genéticos el lunes, refina hipótesis el martes, adapta protocolos el jueves basándose en presupuestos revisados, y luego integra todo en una propuesta la próxima semana.
Los benchmarks actuales evalúan por separado:
* Calidad del análisis de datos ✓
* Validez de la hipótesis ✓
* Diseño de protocolos ✓
Pero ninguno evalúa si la IA recordó la hipótesis del martes al diseñar los experimentos del jueves, o si la restricción presupuestaria del jueves se trasladó a la propuesta del lunes.

A través de más de 3,200 documentos revisados, nuestra revisión identificó 5 dimensiones de evaluación:
* Métricas de rendimiento tradicionales
* Razonamiento de múltiples pasos y planificación experimental
* Seguridad y detección de errores
* Síntesis de conocimientos
* Flujos de trabajo aumentados por herramientas
Lo que encontramos repetidamente ausente: cómo estas dimensiones funcionan en combinación durante los ciclos de I+D reales y el diseño experimental.
Una IA puede superar cada referencia - y aún así tener dificultades como socio de investigación.
@ilyasut planteó un punto similar recientemente en el podcast de @dwarkesh_sp, observando cómo los modelos de IA de hoy no logran generalizar para tareas más complicadas como agentes de codificación:
Estos patrones de fallo no son solo teóricos.
Recursion Pharmaceuticals realiza 2.2 millones de experimentos guiados por IA semanalmente, y los mercados de automatización de laboratorios están creciendo un 7–8% anualmente.
Desplegar IA en investigaciones de alto riesgo exige rigurosos controles de validez científica, reproducibilidad y seguridad.
Proponemos expandirnos de benchmarks de capacidad puramente a incluir también benchmarks de flujo de trabajo.
Cuatro dimensiones importan mucho más que cualquier puntuación de tarea única:
1. Calidad del Diálogo - ¿Hace preguntas aclaratorias antes de comprometerse?
2. Orquestación del Flujo de Trabajo - ¿Las etapas posteriores reflejan las restricciones anteriores?
3. Continuidad de la Sesión - ¿Recuerda el contexto a lo largo de los días?
4. Experiencia del Investigador - ¿Calibra la confianza de manera apropiada?
Los benchmarks de flujo de trabajo tienen como objetivo someter a prueba la IA como lo hace la ciencia real.
Con datos incompletos, presupuestos cambiantes, resultados contradictorios, comentarios del PI y fallos inesperados.
¿Se adapta la IA o colapsa en rigidez y alucinaciones?
Solo lo primero es un verdadero socio de investigación.

En resumen: Los sistemas que obtienen altas puntuaciones en tareas aisladas pueden fallar como co-pilotos de investigación.
Es hora de expandir los benchmarks para que coincidan con la forma en que los científicos realmente trabajan: de manera iterativa, conversacional, conscientes de las limitaciones y abarcando múltiples sesiones.
El futuro de la IA para la Ciencia depende de ello.
7,63K
Parte superior
Clasificación
Favoritos
