Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Нове антропографічне дослідження: вимірювання автономії агентів ШІ на практиці. Ми проаналізували мільйони взаємодій у Claude Code та нашому API, щоб зрозуміти, скільки автономії люди надають агентам, де вони розгортаються і які ризики вони можуть нести. Читати далі:

Агенти вже розгортаються у різних контекстах — від сортування електронної пошти до досліджень у сфері кібербезпеки. Розуміння цього спектра критично важливе для безпечного розгортання, але ми дивовижно мало знаємо про те, як люди насправді використовують агенти у реальному світі.

Більшість поворотів за Кодом Клода короткі (медіана ~45 секунд). Але найдовші повороти показують, куди рухається автономія. За три місяці тривалість повороту 99,9-го перцентиля майже подвоїлася — з менш ніж 25 хвилин до понад 45 хвилин. Це зростання відбувається плавно між релізами моделей.

Зі збільшенням досвіду користувачів змінюється їхня стратегія нагляду. Нові користувачі схвалюють кожну дію окремо. Після 750 сесій понад 40% сесій мають повне автоматичне схвалення.

Але з досвідом переривання також збільшуються. Нові користувачі переривають Claude Code у 5% ходів, порівняно з 9% у досвідчених користувачів. Це свідчить про перехід від схвалення кожної дії до делегування та переривання за потреби.

Клод Код також заохочує нагляд, зупиняючись і ставлячи запитання. У складних завданнях Claude Code зупиняється для уточнення вдвічі частіше, ніж люди його переривають. Навчальні моделі розпізнавання невизначеності — це важлива, недооцінена властивість безпеки.

Більшість дій агентів у нашому API мають низький ризик. 73% викликів інструментів, здається, мають людину в циклі, і лише 0,8% є незворотними. Але на передовій ми бачимо, як агенти діють у сфері систем безпеки, фінансових операцій і виробничих розгортань (хоча деякі можуть бути оцінками).

Програмна інженерія становить ~50% викликів агентних інструментів у нашому API, але ми бачимо все більше використання в інших галузях. Оскільки межі ризиків і автономії розширюються, моніторинг після розгортання стає необхідним. Ми заохочуємо інших розробників моделей розширити це дослідження.

Головний урок цієї роботи полягає в тому, що автономія спільно конструюється моделлю, користувачем і продуктом. Її не можна повністю охарактеризувати лише оцінками перед розгортанням. Для повної інформації та наших рекомендацій розробникам і політикам дивіться блог:

383

Найкращі

Рейтинг

Вибране