Czym są kluczowe elementy wdrażania AI w przedsiębiorstwie? W przeciwieństwie do użytkowania dużych modeli AI lub agentów AI przez konsumentów, wdrażanie AI w przedsiębiorstwie wymaga bardzo wysokich standardów w środowisku produkcyjnym, gęstej dokumentacji i kontekstu, co wymaga wysokiej dokładności i możliwie niskiego, a nawet zerowego wskaźnika błędów. Ponieważ nie chodzi o to, aby AI pisało wiersze, prowadziło rozmowy, generowało obrazy czy rozwiązywało zadania matematyczne, ale o to, aby rzeczywiście włączyć AI w rzeczywiste procesy operacyjne i produkcyjne przedsiębiorstwa lub firmy, aby AI mogło wykonać skomplikowane, żmudne prace, które wymagają bardzo wysokiej dokładności, które codziennie wykonują ludzie. Jeśli nie można określić dokładności AI, to przedsiębiorstwo również nie będzie mogło z pełnym zaufaniem wdrożyć AI. Zobaczcie, co zaprezentowało SentientAGI w tym Arena, to całkiem interesujące. Daje ono tym agentom AI prawdziwe trudności (lub wysoko realistyczne) zadania przedsiębiorstw, poprzez ścisłe kryteria oceny (takie jak dokładność, kompletność dowodów, wskaźnik halucynacji, poprawność cytatów, czas realizacji i inne wskaźniki), a następnie systematycznie rejestruje wzorce niepowodzeń (takie jak „wymyślanie danych z niczego”, „błędne cytowanie źródeł”, „skoki w rozumowaniu”, „pomijanie kluczowych klauzul”), a na końcu nieustannie iteruje, porównując wyniki, aby deweloperzy mogli zobaczyć różnice i poprawić swoje rozwiązania. Krótko mówiąc, Arena nie mierzy „inteligencji AI”, ale to, czy potrafi dokładnie zrozumieć intencje i wykonać zadania, w rzeczywistości mierzy, czy ten AI może naprawdę pracować w dużych firmach, zwłaszcza w tych najtrudniejszych do zautomatyzowania, najbardziej ryzykownych etapach i procesach. Z tej perspektywy Arena jest platformą konkursową, na której deweloperzy zgłaszają agentów AI do znormalizowanych zadań i porównują wyniki w jednolitych warunkach testowych. To jak „turniej agentów AI”, gdzie różne agenty AI rywalizują na tej samej arenie według tych samych zasad. Następnie platforma może śledzić kategorie błędów, takie jak halucynacje, brak dowodów, błędne cytaty i luki w rozumowaniu, co pozwala deweloperom diagnozować powtarzające się problemy. Wygląda na to, że Sentient chce w ten sposób zmusić społeczność open source do zapewnienia niezawodności agentów AI, długiego rozumowania i audytowalności, aby mogły być wdrażane w rzeczywistych środowiskach produkcyjnych, a nie tylko pozostawać na etapie demo i leaderboardów. To naprawdę może pomóc w osiągnięciu nowego SOTA (state-of-the-art, najnowocześniejszy poziom) w zadaniach rozumowania na poziomie przedsiębiorstw w rzeczywistym świecie. Z tej perspektywy można również zrozumieć, dlaczego takie instytucje inwestycyjne jak Franklin Templeton, Founders Fund, Pantera, OpenRouter i inne są chętne do współpracy, ponieważ same również bardzo się tym interesują, a instytucje i firmy naprawdę martwią się tym, czy mogą włączyć AI do swoich rzeczywistych procesów decyzyjnych. Czekam z niecierpliwością na dalszy rozwój platformy Arena, co powinno być również kluczowym elementem „otwartej AGI” w planie działania Sentient.