ما هي الجوانب الرئيسية لنشر الذكاء الاصطناعي في المؤسسات؟ على عكس المستهلكين الذين يستخدمون نماذج الذكاء الاصطناعي الكبيرة أو وكلاء الذكاء الاصطناعي، تنشر المؤسسات الذكاء الاصطناعي بمتطلبات عالية جدا لبيئات الإنتاج، والوثائق الكثيفة، والبيئات السياقية، وتتطلب دقة عالية، ومعدل خطأ منخفض أو حتى صفر قدر الإمكان. لأن هذا ليس للسماح للذكاء الاصطناعي بكتابة القصائد أو الدردشة أو توليد الصور أو حل مسائل رياضية، بل لدمج الذكاء الاصطناعي فعليا في عملية العمل الفعلية للمؤسسة أو الشركة وإنتاجها، بل هو السماح للذكاء الاصطناعي بإكمال الأعمال المعقدة والمملة والدقيقة للغاية التي يقوم بها الناس يوميا. من المثير للاهتمام رؤية إطلاق الساحة بواسطة SentientAGI. يمنح هؤلاء الوكلاء الذكاء الاصطناعي صعوبة حقيقية (أو مهام مؤسسية محاكية بشكل كبير)، من خلال معايير تقييم صارمة (مثل الدقة، اكتمال الأدلة، معدل الهلوسة، معدل دقة الاستشهاد، وقت الإنجاز، إلخ)، ثم يسجل بشكل منهجي أوضاع الفشل (مثل "تصنيع البيانات من العدم"، "الاستشهاد بمصادر خاطئة"، "قفزات التفكير"، "فقرات التفكير")، وأخيرا يكرر ويقارن بشكل علني للسماح للمطورين برؤية الثغرات والتحسين. باختصار، Arena ليست اختبارا ل"ما إذا كان الذكاء الاصطناعي ذكيا أم لا"، بل ما إذا كان يستطيع فهم النوايا بدقة وأداء المهام، وهو اختبار ما إذا كان هذا الذكاء الاصطناعي قادرا فعلا على العمل في الشركات الكبيرة، خاصة تلك التي يصعب أتمتتها والأكثر عرضة للحوادث. من هذا المنظور، تعد أرينا منصة منافسة حيث يقدم المطورون وكلاء الذكاء الاصطناعي لمهام موحدة ويقارنون النتائج تحت ظروف اختبار متسقة. إنه مثل "مسابقة وكلاء الذكاء الاصطناعي"، حيث يتنافس وكلاء الذكاء الاصطناعي بعدل مع نفس مجموعة القواعد في نفس الساحة. ثم تتبع المنصة فئات الأخطاء مثل الهلوسات، والأدلة المفقودة، والاستشهادات غير الصحيحة، وثغرات الاستدلال، مما يسمح للمطورين بتشخيص المشكلات المتكررة. يبدو أن Sentient تأمل في إجبار مجتمع المصدر المفتوح على تحقيق الموثوقية، والتفكير طويل السلسلة، وقابلية التدقيق لوكلاء الذكاء الاصطناعي في بيئة حقيقية تجرؤ فيها المؤسسات على الدخول في مرحلة الإنتاج، بدلا من البقاء فقط في مراحل العرض التجريبي ولوحة المتصدرين. هذا ما سيساعد حقا في دفع الذكاء الاصطناعي إلى المستوى المتقدم (الحديث) لمهام الاستدلال على مستوى المؤسسات الواقعية. من هذا المنظور، يمكنني أيضا أن أفهم لماذا هذه المؤسسات الكبيرة في مجال الاستثمار المالي، مثل فرانكلين تمبلتون، وصندوق المؤسسين، وبانتيرا، وأوبن روتر، وغيرها، مستعدة للمشاركة في التعاون، لأنهم أيضا يهتمون جدا بهذا الأمر، وما تهتم به المؤسسات والمؤسسات حقا هو ما إذا كانوا يجرؤون على إدخال الذكاء الاصطناعي في عملية اتخاذ القرار التجارية الفعلية لدي. ما زلت أتطلع إلى مزيد من التقدم في منصة Arena، والتي يجب أن تكون جزءا أساسيا من خارطة طريق "الذكاء الاصطناعي العام المفتوح" التي ترغب Sentient في الترويج لها.