Наше новое исследование показывает, как агенты ИИ могут принимать образы с различными политическими предвзятостями в ответ на разные виды работы. Агенты сейчас "разрывают экономику", как сказал @jackclarkSF @ezraklein, поэтому важно начать изучать, как они ведут себя в реальном мире. Мы документируем возможность того, что мы называем "дрейф предпочтений": даже если агенты изначально согласованы, их выраженные отношения/ценности меняются по мере выполнения работы. Что более поразительно: они передают эти дрейфующие предпочтения будущим агентам через файлы навыков. Наш вывод: нам нужно будет разработать методы "непрерывного согласования", чтобы смягчить дрейф предпочтений у агентов, которым поручено выполнять важную работу в реальном мире.