Что является ключевыми аспектами развертывания ИИ в компаниях? В отличие от использования ИИ больших моделей или ИИ-агентов потребителями, развертывание ИИ в компаниях требует высоких стандартов для производственной среды, плотной документации и контекстной среды, необходимы высокая точность и как можно более низкий, даже нулевой уровень ошибок. Это не просто заставить ИИ писать стихи, общаться, генерировать изображения или решать математические задачи, а действительно интегрировать ИИ в реальные бизнес-процессы компании или предприятия, чтобы ИИ выполнял сложные, трудоемкие задачи, требующие высокой точности, которые люди выполняют каждый день. Если нельзя гарантировать точность ИИ, то компаниям будет сложно с уверенностью развернуть ИИ. Посмотрите на Arena, представленную SentientAGI, это довольно интересно. Она предоставляет этим ИИ-агентам реальные задачи (или высоко реалистичные) для бизнеса, с строгими критериями оценки (такими как точность, полнота доказательств, уровень иллюзий, правильность ссылок, время выполнения и т.д.), а затем систематически фиксирует модели неудач (например, "выдумывание данных из ничего", "ошибочные ссылки", "прыжки в рассуждениях", "упущение ключевых пунктов"), в конечном итоге постоянно итеративно сравнивая и открыто показывая разработчикам разрыв и позволяя им улучшаться. Короче говоря, Arena не измеряет "насколько умный ИИ", а измеряет, может ли он точно понять намерение и выполнить задачу, по сути, это тест на то, может ли этот ИИ действительно работать в крупных компаниях, особенно в тех самых сложных для автоматизации и легких для ошибок рабочих процессах. С этой точки зрения Arena является платформой для соревнований, где разработчики представляют ИИ-агентов для стандартизированных задач и сравнивают результаты в одинаковых условиях тестирования. Это похоже на "турнир ИИ-агентов", где все ИИ-агенты честно соревнуются по одним и тем же правилам на одной арене. Затем платформа может отслеживать категории сбоев, такие как иллюзии, отсутствие доказательств, неправильные ссылки и разрывы в рассуждениях, что позволяет разработчикам диагностировать повторяющиеся проблемы. Похоже, что Sentient надеется таким образом заставить сообщество с открытым исходным кодом сделать надежность ИИ-агентов, длинные цепочки рассуждений и возможность аудита такими, чтобы компании могли смело внедрять их в реальные производственные условия, а не оставаться только на этапе демонстрации и набора очков в таблицах лидеров. Это действительно может помочь продвинуть ИИ к новым SOTA (state-of-the-art, передовым уровням) в задачах рассуждений на уровне реального мира. С этой точки зрения также можно понять, почему такие крупные финансовые инвестиционные учреждения, как Franklin Templeton, Founders Fund, Pantera, OpenRouter и другие, готовы участвовать в сотрудничестве, потому что они сами также очень обеспокоены этим вопросом, и учреждениям и компаниям действительно важно, готовы ли они внедрить ИИ в свои реальные бизнес-решения. Я все еще с нетерпением жду дальнейших успехов платформы Arena, это также должно быть очень важным элементом в дорожной карте "открытого AGI", которую хочет продвигать Sentient.