У нас есть фундаментальная проблема с тем, как мы оцениваем ИИ для науки. Текущие эталоны тестируют изолированные возможности - может ли ИИ анализировать данные? Генерировать гипотезы? Разрабатывать эксперименты? Но именно так не работает настоящая наука 🧵
Мы только что опубликовали препринт, предлагающий новый способ оценки ИИ-ученых как исследовательских со-пилотов, а не изолированных исполнителей задач. Полученные знания направляют нашу переработку BioAgents в лучших научных агентов в мире. Читать статью на @arxiv:
Основная проблема, которую мы стремимся решить: текущие бенчмарки ИИ для науки не отражают реальные рабочие процессы биомедицинских исследователей. Пример: постдоктор анализирует генетические данные в понедельник, уточняет гипотезы во вторник, адаптирует протоколы в четверг на основе пересмотренных бюджетов, а затем интегрирует все это в предложение на следующей неделе. Текущие бенчмарки отдельно тестируют: * Качество анализа данных ✓ * Достоверность гипотез ✓ * Проектирование протоколов ✓ Но ни один из них не оценивает, запомнил ли ИИ гипотезу вторника при проектировании экспериментов четверга, или если бюджетные ограничения четверга были учтены в предложении понедельника.
В нашем обзоре, охватывающем более 3,200 статей, мы выделили 5 измерений оценки: * Традиционные показатели производительности * Многоступенчатое рассуждение и экспериментальное планирование * Безопасность и обнаружение ошибок * Синтез знаний * Рабочие процессы с использованием инструментов Что мы постоянно обнаруживали в недостатке: как эти измерения работают в комбинации в реальных циклах НИОКР и экспериментальном дизайне. Искусственный интеллект может успешно пройти все тесты - и при этом испытывать трудности в качестве исследовательского партнера. @ilyasut недавно поднял аналогичный вопрос в подкасте @dwarkesh_sp, отметив, как современные модели ИИ не могут обобщать для более сложных задач в качестве кодирующих агентов:
Эти модели неудач не просто теоретические. Recursion Pharmaceuticals проводит 2,2 миллиона экспериментов с использованием ИИ каждую неделю, а рынки автоматизации лабораторий растут на 7–8% в год. Внедрение ИИ в исследования с высокими ставками требует строгих проверок научной достоверности, воспроизводимости и безопасности.
Мы предлагаем расширить оценку не только по возможностям, но и включить оценку рабочих процессов. Четыре аспекта имеют гораздо большее значение, чем любой отдельный балл за задачу: 1. Качество диалога - Задает ли оно уточняющие вопросы перед тем, как принять решение? 2. Оркестрация рабочего процесса - Отражают ли более поздние этапы ранние ограничения? 3. Непрерывность сессии - Помнит ли оно контекст на протяжении нескольких дней? 4. Опыт исследователя - Калибрует ли оно доверие должным образом?
Бенчмарки рабочего процесса направлены на стресс-тестирование ИИ, как это делает настоящая наука. С неполными данными, изменяющимися бюджетами, противоречивыми результатами, отзывами PI и неожиданными сбоями. Адаптируется ли ИИ или же он коллапсирует в жесткость и галлюцинации? Только первое является настоящим партнером в исследовании.
Итог: Системы, которые показывают высокие результаты в изолированных задачах, могут оказаться неэффективными в роли научных помощников. Пришло время расширить критерии оценки, чтобы они соответствовали тому, как на самом деле работают ученые: итеративно, в диалоге, с учетом ограничений, охватывающим несколько сессий. Будущее ИИ для науки зависит от этого.
7,63K