المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
لدينا مشكلة أساسية في كيفية تقييمنا لل الذكاء الاصطناعي للعلم.
اختبارات المعايير الحالية لقدرات معزولة - هل يستطيع الذكاء الاصطناعي تحليل البيانات؟ هل تولد فرضيات؟ تجارب تصميم؟
لكن هذا ليس كيف يعمل 🧵 البحث الحقيقي

لقد نشرنا للتو نسخة تمهيدية تقترح طريقة جديدة لتقييم علماء الذكاء الاصطناعي كقادة بحثيين مشاركين بدلا من منفذي مهام معزولين.
هذه الدروس توجه إعادة بناء BioAgents لتصبح أفضل العوامل العلمية في العالم.
اقرأ الورقة عن @arxiv:

المشكلة الرئيسية التي سعينا لحلها: الذكاء الاصطناعي الحالي لمعايير العلوم يفشل في التقاط سير العمل الفعلي للباحثين في الطب الحيوي.
مثال: يقوم باحث ما بعد الدكتوراه بتحليل البيانات الجينية يوم الاثنين، ويحسن الفرضيات يوم الثلاثاء، ويعدل البروتوكولات يوم الخميس بناء على الميزانيات المعدلة، ثم يدمج كل شيء في مقترح الأسبوع المقبل.
اختبارات المعايير الحالية بشكل منفصل:
* جودة تحليل البيانات ✓
* صحة الفرضية ✓
* تصميم البروتوكول ✓
لكن لا أحد يقيم ما إذا كان الذكاء الاصطناعي قد تذكر فرضية الثلاثاء عند تصميم تجارب الخميس، أو إذا كان قيد ميزانية الخميس قد استمر مع اقتراح يوم الاثنين.

عبر 3,200+ ورقة تم فحصها، حددت مراجعتنا خمسة أبعاد تقييم:
* مقاييس الأداء التقليدية
* التفكير متعدد الخطوات والتخطيط التجريبي
* السلامة واكتشاف الأخطاء
* توليف المعرفة
* سير العمل المعزز بالأدوات
ما وجدناه مفقودا مرارا وتكرارا: كيف تعمل هذه الأبعاد معا خلال دورات البحث والتطوير الحقيقية وتصميم التجارب.
يمكن الذكاء الاصطناعي أن يتجاوز كل المعايير - ومع ذلك يواجه صعوبة كشريك بحثي.
أثار @ilyasut نقطة مماثلة مؤخرا في بودكاست @dwarkesh_sp، حيث لاحظ كيف أن نماذج الذكاء الاصطناعي اليوم تفشل في التعميم للمهام الأكثر تعقيدا كعوامل ترميز:
هذه الأنماط ليست مجرد نظرية.
تجري شركة Recursion Pharmaceuticals 2.2 مليون تجربة موجهة الذكاء الاصطناعي أسبوعيا، وتنمو أسواق أتمتة المختبرات بنسبة 7–8٪ سنويا.
يتطلب تقويض الذكاء الاصطناعي في الأبحاث عالية المخاطر فحوصات صارمة للصحة العلمية وقابلية التكرار والسلامة.
نقترح التوسع من معايير القدرات البحتة لتشمل أيضا معايير سير العمل.
أربعة أبعاد أهم بكثير من أي نتيجة مهمة واحدة:
1. جودة الحوار - هل يطرح أسئلة توضيحية قبل الالتزام؟
2. تنسيق سير العمل - هل تعكس المراحل اللاحقة القيود السابقة؟
3. استمرارية الجلسة - هل يتذكر السياق عبر الأيام؟
4. خبرة الباحث - هل تضبط الثقة بشكل مناسب؟
تهدف معايير سير العمل إلى اختبار الذكاء الاصطناعي كما يفعل العلم الحقيقي.
مع بيانات غير مكتملة، ميزانيات متغيرة، نتائج متضاربة، ملاحظات من الباحثين الرئيسيين وإخفاقات غير متوقعة.
هل يتكيف الذكاء الاصطناعي، أم ينهار إلى صلابة وهلوسات؟
فقط الأول هو شريك بحث حقيقي.

الخلاصة: قد تفشل الأنظمة التي تحقق درجات عالية في المهام المعزولة كمساعدين في البحث.
حان الوقت لتوسيع المعايير لتتطابق مع طريقة عمل العلماء فعليا: تكرارية، حوارية، واعية للقيود، وتمتد عبر عدة جلسات.
مستقبل الذكاء الاصطناعي للعلوم يعتمد عليه.
7.63K
الأفضل
المُتصدِّرة
التطبيقات المفضلة
