DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Ny antropisk forskning: Mätning av AI-agenters autonomi i praktiken. Vi analyserade miljontals interaktioner över Claude Code och vårt API för att förstå hur mycket autonomi folk ger agenter, var de är placerade och vilka risker de kan utgöra. Läs mer:

Agenter används redan i sammanhang som sträcker sig från e-posttriage till cybersäkerhetsforskning. Att förstå detta spektrum är avgörande för säker utplacering, men vi vet förvånansvärt lite om hur människor faktiskt använder agenter i verkliga livet.

De flesta Claude Code-turer är korta (median ~45 sekunder). Men de längsta varven visar vart autonomin är på väg. På tre månader nästan fördubblades varvtiden för den 999:e percentilen, från under 25 minuter till över 45 minuter. Denna tillväxt är jämn över modelllanseringar.

När användarna får erfarenhet förändras deras tillsynsstrategi. Nya användare godkänner varje åtgärd individuellt. Vid 750 sessioner är över 40 % av sessionerna fullt automatiskt godkända.

Men avbrott ökar också med erfarenhet. Nya användare avbryter Claude Code i 5 % av turerna, jämfört med 9 % för mer erfarna användare. Detta tyder på en övergång från att godkänna varje åtgärd till att delegera och avbryta vid behov.

Claude Code uppmuntrar också tillsyn genom att stanna upp och ställa frågor. Vid komplexa uppgifter pausar Claude Code för förtydligande mer än dubbelt så ofta som människor avbryter den. Att träna modeller att känna igen osäkerhet är en viktig, underskattad säkerhetsegenskap.

De flesta agentåtgärder på vårt API är lågrisk. 73 % av verktygssamtalen verkar ha en människa med i loopen, och endast 0,8 % är irreversibla. Men vid gränsen ser vi agenter agera på säkerhetssystem, finansiella transaktioner och produktionsutplaceringar (även om vissa kan vara utvärderingar).

Mjukvaruutveckling står för ~50 % av agentiska verktygsanrop på vårt API, men vi ser en växande användning i andra branscher. När risk- och autonomifronten växer blir övervakning efter utrullning avgörande. Vi uppmuntrar andra modellutvecklare att utöka denna forskning.

En central lärdom av detta arbete är att autonomi samkonstrueras av modellen, användaren och produkten. Det kan inte helt karaktäriseras enbart av utvärderingar före utplacering. För fullständiga detaljer och våra rekommendationer till utvecklare och beslutsfattare, se bloggen:

383

Topp

Rankning

Favoriter