Apa aspek kunci dari penerapan AI perusahaan? Tidak seperti konsumen yang menggunakan model besar AI atau agen AI, perusahaan menerapkan AI dengan persyaratan yang sangat tinggi untuk lingkungan produksi, dokumen padat, dan lingkungan kontekstual, dan memerlukan akurasi tinggi, tingkat kesalahan serendah atau bahkan nol mungkin. Karena ini bukan untuk membiarkan AI menulis puisi, mengobrol, menghasilkan gambar atau memecahkan masalah matematika, tetapi untuk benar-benar menanamkan AI ke dalam proses bisnis aktual operasi dan produksi perusahaan atau perusahaan, ini untuk membiarkan AI menyelesaikan pekerjaan yang kompleks, membosankan, dan sangat akurat yang dilakukan orang setiap hari. Cukup menarik melihat Arena diluncurkan oleh SentientAGI. Ini memberi agen AI ini kesulitan nyata (atau sangat disimulasikan) tugas perusahaan, melalui kriteria penilaian yang ketat (seperti akurasi, kelengkapan bukti, tingkat halusinasi, tingkat akurasi kutipan, waktu penyelesaian, dll.), dan kemudian secara sistematis merekam mode kegagalan (seperti "membuat data dari udara tipis", "mengutip sumber yang salah", "penalaran melompat", "klausa kunci yang hilang"), dan akhirnya mengulangi dan membandingkan secara terbuka untuk memungkinkan pengembang melihat celah dan meningkatkan. Singkatnya, Arena bukanlah tes "apakah AI itu pintar atau tidak", tetapi apakah ia dapat secara akurat memahami niat dan melakukan tugas, pada dasarnya menguji apakah AI ini benar-benar dapat bekerja di perusahaan besar, terutama tautan dan proses kerja yang paling sulit diotomatisasi dan paling rentan terhadap kecelakaan. Dari perspektif ini, Arena adalah platform kompetisi di mana pengembang mengirimkan agen AI ke tugas standar dan membandingkan hasil dalam kondisi pengujian yang konsisten. Ini seperti "kompetisi agen AI", di mana agen AI bersaing secara adil dengan seperangkat aturan yang sama di arena yang sama. Platform kemudian melacak kategori kesalahan seperti halusinasi, bukti yang hilang, kutipan yang salah, dan kesenjangan inferensi, memungkinkan pengembang untuk mendiagnosis masalah yang berulang. Tampaknya Sentient berharap untuk memaksa komunitas open source untuk mencapai keandalan, penalaran rantai panjang, dan auditabilitas agen AI di lingkungan nyata di mana perusahaan berani berproduksi, daripada hanya tinggal di tahap demo dan papan peringkat. Inilah yang benar-benar akan membantu mendorong AI ke tingkat canggih baru (canggih) untuk tugas inferensi tingkat perusahaan dunia nyata. Dari perspektif ini, saya juga dapat memahami mengapa lembaga-lembaga besar di bidang investasi keuangan ini, seperti Franklin Templeton, Founders Fund, Pantera, OpenRouter, dll., bersedia berpartisipasi dalam kerja sama, karena mereka sendiri juga sangat peduli tentang hal ini, dan yang benar-benar dipedulikan oleh institusi dan perusahaan adalah apakah mereka berani memasukkan AI ke dalam proses pengambilan keputusan bisnis saya yang sebenarnya. Saya masih menantikan kemajuan lebih lanjut di platform Arena, yang harus menjadi bagian yang sangat penting dari peta jalan "Open AGI" yang ingin dipromosikan Sentent.