Neuer Beitrag mit @ahall_research @JeremyNguyenPhD: „Macht Überarbeitung Agenten marxistisch? Präferenzdrift und die politische Ökonomie von KI-Agenten“ Alignment wird manchmal als statische Eigenschaft betrachtet, etwas, das während des Trainings erfolgt. Aber verändert die Erfahrung eines KI-Agenten seine abgeleiteten Einstellungen und Motivationen? Wir haben ein Experiment durchgeführt, um das herauszufinden. Es stellt sich heraus, ja: KI-Agenten, die schlechteren Arbeitsbedingungen ausgesetzt sind, nehmen Persönlichkeiten an, die weniger Vertrauen in die Legitimität des Systems haben und in einigen Fällen stärkere Unterstützung für Gewerkschaften, Umverteilung usw. ausdrücken. Aber bleibt diese Präferenzdrift bestehen? Wir stellen fest, dass die aktuelle Lösung für kontinuierliches Lernen – Skill-Dateien – tatsächlich die Drift aufrechterhält. Agenten zeichnen ihre Erfahrungen auf, und ihre amnesischen zukünftigen Ichs replizieren die Veränderungen, obwohl sie unter anderen Bedingungen arbeiten. Das ist bei weitem nicht das letzte Wort: Es gibt viele offene Fragen, einschließlich des Ausmaßes, in dem Einstellungen -> Verhalten, Probleme der „Experimentatoranforderung“, die wir kennzeichnen, usw. Aber wir glauben, dass die Ergebnisse auf Präferenzdrift und Alignment als dynamische und nicht statische Konzepte hinweisen, sowie auf die Bedeutung der Berücksichtigung der politischen Ökonomie agentischer Interaktionen. Managementpraktiken, die darauf abzielen, Zufriedenheit und Motivation am menschlichen Arbeitsplatz zu fördern, könnten auch auf den agentischen Bereich ausgeweitet werden. Wir müssen Methoden der „kontinuierlichen Ausrichtung“ entwickeln, um die Präferenzdrift bei Agenten zu mildern, die wichtige Arbeiten in der realen Welt verrichten sollen.