Nueva investigación sobre la mejora de la autorreflexión en agentes de lenguaje. Un problema central con la autorreflexión de los agentes es que los modelos tienden a generar reflexiones repetitivas que añaden ruido en lugar de señal, perjudicando el rendimiento general del razonamiento. Se introduce ParamMem, un módulo de memoria paramétrica que codifica patrones de reflexión cruzada directamente en los parámetros del modelo, y luego utiliza muestreo controlado por temperatura para generar reflexiones diversas en el momento de la inferencia. ParamMem muestra mejoras consistentes sobre las líneas base SOTA en generación de código, razonamiento matemático y QA de múltiples saltos. También permite la transferencia de débil a fuerte y la auto-mejora sin necesidad de un modelo externo más fuerte, lo que lo convierte en una actualización práctica para los pipelines agentes. Artículo: Aprende a construir agentes de IA efectivos en nuestra academia: