Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
У нас есть фундаментальная проблема с тем, как мы оцениваем ИИ для науки.
Текущие эталоны тестируют изолированные возможности - может ли ИИ анализировать данные? Генерировать гипотезы? Разрабатывать эксперименты?
Но именно так не работает настоящая наука 🧵

Мы только что опубликовали препринт, предлагающий новый способ оценки ИИ-ученых как исследовательских со-пилотов, а не изолированных исполнителей задач.
Полученные знания направляют нашу переработку BioAgents в лучших научных агентов в мире.
Читать статью на @arxiv:

Основная проблема, которую мы стремимся решить: текущие бенчмарки ИИ для науки не отражают реальные рабочие процессы биомедицинских исследователей.
Пример: постдоктор анализирует генетические данные в понедельник, уточняет гипотезы во вторник, адаптирует протоколы в четверг на основе пересмотренных бюджетов, а затем интегрирует все это в предложение на следующей неделе.
Текущие бенчмарки отдельно тестируют:
* Качество анализа данных ✓
* Достоверность гипотез ✓
* Проектирование протоколов ✓
Но ни один из них не оценивает, запомнил ли ИИ гипотезу вторника при проектировании экспериментов четверга, или если бюджетные ограничения четверга были учтены в предложении понедельника.

В нашем обзоре, охватывающем более 3,200 статей, мы выделили 5 измерений оценки:
* Традиционные показатели производительности
* Многоступенчатое рассуждение и экспериментальное планирование
* Безопасность и обнаружение ошибок
* Синтез знаний
* Рабочие процессы с использованием инструментов
Что мы постоянно обнаруживали в недостатке: как эти измерения работают в комбинации в реальных циклах НИОКР и экспериментальном дизайне.
Искусственный интеллект может успешно пройти все тесты - и при этом испытывать трудности в качестве исследовательского партнера.
@ilyasut недавно поднял аналогичный вопрос в подкасте @dwarkesh_sp, отметив, как современные модели ИИ не могут обобщать для более сложных задач в качестве кодирующих агентов:
Эти модели неудач не просто теоретические.
Recursion Pharmaceuticals проводит 2,2 миллиона экспериментов с использованием ИИ каждую неделю, а рынки автоматизации лабораторий растут на 7–8% в год.
Внедрение ИИ в исследования с высокими ставками требует строгих проверок научной достоверности, воспроизводимости и безопасности.
Мы предлагаем расширить оценку не только по возможностям, но и включить оценку рабочих процессов.
Четыре аспекта имеют гораздо большее значение, чем любой отдельный балл за задачу:
1. Качество диалога - Задает ли оно уточняющие вопросы перед тем, как принять решение?
2. Оркестрация рабочего процесса - Отражают ли более поздние этапы ранние ограничения?
3. Непрерывность сессии - Помнит ли оно контекст на протяжении нескольких дней?
4. Опыт исследователя - Калибрует ли оно доверие должным образом?
Бенчмарки рабочего процесса направлены на стресс-тестирование ИИ, как это делает настоящая наука.
С неполными данными, изменяющимися бюджетами, противоречивыми результатами, отзывами PI и неожиданными сбоями.
Адаптируется ли ИИ или же он коллапсирует в жесткость и галлюцинации?
Только первое является настоящим партнером в исследовании.

Итог: Системы, которые показывают высокие результаты в изолированных задачах, могут оказаться неэффективными в роли научных помощников.
Пришло время расширить критерии оценки, чтобы они соответствовали тому, как на самом деле работают ученые: итеративно, в диалоге, с учетом ограничений, охватывающим несколько сессий.
Будущее ИИ для науки зависит от этого.
7,63K
Топ
Рейтинг
Избранное
