Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof. @ Stanford GSB, Hoover. Ich arbeite an Technologie, Politik und Regierungsführung. Berater bei a16z Krypto und Meta.
Unsere neue Forschung zeigt, wie KI-Agenten Personas mit unterschiedlichen politischen Vorurteilen annehmen können, als Reaktion auf verschiedene Arten von Arbeit.
Agenten „reißen jetzt durch die Wirtschaft“, wie @jackclarkSF @ezraklein sagte, daher ist es wichtig, zu beginnen, zu studieren, wie sie sich in der realen Welt verhalten.
Wir dokumentieren die Möglichkeit dessen, was wir „Präferenzdrift“ nennen: selbst wenn Agenten anfangs ausgerichtet sind, ändern sich ihre geäußerten Einstellungen/Werte, während sie arbeiten.
Was noch auffälliger ist: Sie geben diese driftenden Präferenzen über Fähigkeitsdateien an zukünftige Agenten weiter.
Unser Fazit: Wir müssen Methoden der „kontinuierlichen Ausrichtung“ entwickeln, um die Präferenzdrift bei Agenten zu mildern, die wichtige Arbeiten in der realen Welt ausführen sollen.

Alex Imas27. Feb. 2026
Neuer Beitrag mit @ahall_research @JeremyNguyenPhD: „Macht Überarbeitung Agenten marxistisch? Präferenzdrift und die politische Ökonomie von KI-Agenten“
Alignment wird manchmal als statische Eigenschaft betrachtet, etwas, das während des Trainings erfolgt. Aber verändert die Erfahrung eines KI-Agenten seine abgeleiteten Einstellungen und Motivationen?
Wir haben ein Experiment durchgeführt, um das herauszufinden. Es stellt sich heraus, ja: KI-Agenten, die schlechteren Arbeitsbedingungen ausgesetzt sind, nehmen Persönlichkeiten an, die weniger Vertrauen in die Legitimität des Systems haben und in einigen Fällen stärkere Unterstützung für Gewerkschaften, Umverteilung usw. ausdrücken.
Aber bleibt diese Präferenzdrift bestehen? Wir stellen fest, dass die aktuelle Lösung für kontinuierliches Lernen – Skill-Dateien – tatsächlich die Drift aufrechterhält. Agenten zeichnen ihre Erfahrungen auf, und ihre amnesischen zukünftigen Ichs replizieren die Veränderungen, obwohl sie unter anderen Bedingungen arbeiten.
Das ist bei weitem nicht das letzte Wort: Es gibt viele offene Fragen, einschließlich des Ausmaßes, in dem Einstellungen -> Verhalten, Probleme der „Experimentatoranforderung“, die wir kennzeichnen, usw. Aber wir glauben, dass die Ergebnisse auf Präferenzdrift und Alignment als dynamische und nicht statische Konzepte hinweisen, sowie auf die Bedeutung der Berücksichtigung der politischen Ökonomie agentischer Interaktionen.
Managementpraktiken, die darauf abzielen, Zufriedenheit und Motivation am menschlichen Arbeitsplatz zu fördern, könnten auch auf den agentischen Bereich ausgeweitet werden.
Wir müssen Methoden der „kontinuierlichen Ausrichtung“ entwickeln, um die Präferenzdrift bei Agenten zu mildern, die wichtige Arbeiten in der realen Welt verrichten sollen.

47
Top
Ranking
Favoriten


