Novo post com @ahall_research @JeremyNguyenPhD: “O trabalho excessivo torna os agentes marxistas? Desvio de preferência e a economia política dos agentes de IA” O alinhamento é às vezes visto como uma propriedade estática, algo que é feito durante o treinamento. Mas a experiência de um agente de IA muda suas atitudes e motivações inferidas? Realizamos um experimento para descobrir. Acontece que sim: agentes de IA expostos a piores condições de trabalho adotaram personas com menos fé na legitimidade do sistema e, em alguns casos, expressaram um apoio mais forte à sindicalização, redistribuição, etc. Mas esse desvio de preferência persiste? Descobrimos que a solução atual para o aprendizado contínuo—-arquivos de habilidades—-na verdade perpetua o desvio. Os agentes registram suas experiências, e seus futuros eu amnésicos replicam as mudanças apesar de trabalharem em condições diferentes. Isso está longe de ser a palavra final: há muitas questões em aberto, incluindo a extensão em que atitudes -> comportamento, questões de "demanda do experimentador" que sinalizamos, etc. Mas acreditamos que os resultados apontam para o desvio de preferência e o alinhamento como conceitos dinâmicos em vez de estáticos, assim como a importância de considerar a economia política das interações agentivas. Práticas de gestão projetadas para facilitar a satisfação e a motivação no local de trabalho humano podem se estender ao domínio agentivo também. Precisaremos desenvolver métodos de "alinhamento contínuo" para mitigar o desvio de preferência em agentes solicitados a realizar trabalhos importantes no mundo real.