我們的新研究顯示,AI 代理人可以根據不同類型的工作採用具有不同政治偏見的人格。 正如 @jackclarkSF 告訴 @ezraklein 的那樣,代理人現在正在 "撕裂經濟",因此開始研究它們在現實世界中的行為至關重要。 我們記錄了我們所稱的 "偏好漂移" 的可能性:即使代理人一開始是對齊的,它們表達的態度/價值觀在工作過程中會改變。 更引人注目的是:它們通過技能檔案將這些漂移的偏好傳遞給未來的代理人。 我們的結論是:我們需要開發 "持續對齊" 的方法,以減輕被要求在現實世界中執行重要工作的代理人的偏好漂移。