Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Chúng ta có một vấn đề cơ bản với cách chúng ta đánh giá AI cho khoa học. Các tiêu chuẩn hiện tại kiểm tra các khả năng tách biệt - AI có thể phân tích dữ liệu không? Tạo ra giả thuyết? Thiết kế thí nghiệm? Nhưng đó không phải là cách mà nghiên cứu thực sự hoạt động 🧵

Chúng tôi vừa công bố một bản in trước đề xuất một cách mới để đánh giá các Nhà khoa học AI như những đồng hành nghiên cứu thay vì những người thực hiện nhiệm vụ đơn lẻ. Những bài học này đang hướng dẫn chúng tôi xây dựng lại BioAgents thành những tác nhân khoa học tốt nhất thế giới. Đọc bài báo trên @arxiv:

Vấn đề chính mà chúng tôi đặt ra để giải quyết: các tiêu chuẩn AI hiện tại cho khoa học không phản ánh đúng quy trình làm việc thực tế của các nhà nghiên cứu sinh học. Ví dụ: một nghiên cứu sinh phân tích dữ liệu di truyền vào thứ Hai, tinh chỉnh giả thuyết vào thứ Ba, điều chỉnh các quy trình vào thứ Năm dựa trên ngân sách đã sửa đổi, sau đó tích hợp mọi thứ vào một đề xuất vào tuần tới. Các tiêu chuẩn hiện tại kiểm tra riêng biệt: * Chất lượng phân tích dữ liệu ✓ * Tính hợp lệ của giả thuyết ✓ * Thiết kế quy trình ✓ Nhưng không có tiêu chuẩn nào đánh giá xem AI có nhớ giả thuyết của thứ Ba khi thiết kế các thí nghiệm vào thứ Năm hay không, hoặc liệu ràng buộc ngân sách của thứ Năm có ảnh hưởng đến đề xuất của thứ Hai hay không.

Trong số hơn 3,200 bài báo được sàng lọc, đánh giá của chúng tôi đã xác định 5 chiều đánh giá: * Các chỉ số hiệu suất truyền thống * Lập luận đa bước & lập kế hoạch thực nghiệm * An toàn & phát hiện lỗi * Tổng hợp kiến thức * Quy trình làm việc được tăng cường bằng công cụ Điều chúng tôi thường thấy thiếu: cách mà những chiều này hoạt động kết hợp trong các chu kỳ R&D thực tế và thiết kế thực nghiệm. Một AI có thể vượt qua mọi tiêu chuẩn - và vẫn gặp khó khăn như một đối tác nghiên cứu. @ilyasut đã nêu ra một điểm tương tự gần đây trên podcast @dwarkesh_sp, quan sát cách mà các mô hình AI ngày nay không thể tổng quát cho các nhiệm vụ phức tạp hơn như các tác nhân lập trình:

Những mô hình thất bại này không chỉ là lý thuyết. Recursion Pharmaceuticals thực hiện 2,2 triệu thí nghiệm được hướng dẫn bởi AI hàng tuần, và thị trường tự động hóa phòng thí nghiệm đang tăng trưởng 7–8% hàng năm. Việc triển khai AI trong nghiên cứu có tính rủi ro cao đòi hỏi phải kiểm tra nghiêm ngặt về tính hợp lệ khoa học, khả năng tái sản xuất và an toàn.

Chúng tôi đề xuất mở rộng từ các tiêu chuẩn khả năng thuần túy sang việc bao gồm cả các tiêu chuẩn quy trình làm việc. Bốn khía cạnh quan trọng hơn bất kỳ điểm số nhiệm vụ đơn lẻ nào: 1. Chất lượng Đối thoại - Nó có đặt câu hỏi làm rõ trước khi cam kết không? 2. Điều phối Quy trình làm việc - Các giai đoạn sau có phản ánh các ràng buộc trước đó không? 3. Liên tục Phiên - Nó có nhớ ngữ cảnh qua các ngày không? 4. Trải nghiệm Nhà nghiên cứu - Nó có điều chỉnh độ tin cậy một cách phù hợp không?

Các tiêu chuẩn quy trình làm việc nhằm kiểm tra khả năng của AI giống như khoa học thực sự. Với dữ liệu không đầy đủ, ngân sách thay đổi, kết quả mâu thuẫn, phản hồi từ PI và những thất bại bất ngờ. Liệu AI có thích ứng, hay sẽ sụp đổ vào sự cứng nhắc và ảo giác? Chỉ có khả năng thích ứng mới là một đối tác nghiên cứu thực sự.

Điều quan trọng: Các hệ thống đạt điểm cao trong các nhiệm vụ riêng lẻ có thể thất bại khi làm trợ lý nghiên cứu. Đã đến lúc mở rộng các tiêu chuẩn để phù hợp với cách các nhà khoa học thực sự làm việc: lặp đi lặp lại, đối thoại, nhận thức về ràng buộc, trải dài qua nhiều phiên. Tương lai của AI trong Khoa học phụ thuộc vào điều này.

7,64K

Hàng đầu

Thứ hạng

Yêu thích