Под руководством команды Tsinghua был проведен первый систематический контрольный тест агента ИИ.

2023-08-09 02:18:36

Агенты ИИ, или автономные интеллектуальные агенты, являются не только супер-помощниками в научно-фантастических фильмах, таких как «Джарвис», но также являются горячей точкой исследований в области ИИ в реальном мире. В частности, появление больших моделей ИИ, представленных GPT-4, выдвинуло концепцию агентов ИИ на передний план технологий.

В ранее популярном «виртуальном городе» Стэнфорда 25 агентов ИИ свободно росли в виртуальном городке и устраивали вечеринку в честь Дня святого Валентина; воплощенная модель агента «Вояджер», предложенная Nvidia и другими, также изучалась в «Моем мире». мире; кроме того, AutoGPT, BabyAGI и AgentGPT, которые могут выполнять задачи самостоятельно, также вызвали широкий интерес и бурные обсуждения среди публики.

Даже Андрей Карпати, бывший директор Tesla AI и вернувшийся в OpenAI, заявил на мероприятии для разработчиков, что всякий раз, когда появляется новый документ об агенте AI, OpenAI будет очень заинтересован и серьезно обсудит его **.

Хотя текущие исследования агентов ИИ чрезвычайно популярны, ** В настоящее время в индустрии ИИ отсутствует систематический и стандартизированный эталон для оценки уровня интеллекта LLM как агентов **.

С этой целью исследовательская группа из Университета Цинхуа, Университета штата Огайо и Калифорнийского университета в Беркли предложила первый систематический эталонный тест — AgentBench, для оценки LLM как агентов в различных реальных задачах и производительности (таких как навыки рассуждения и принятия решений) в 8 различных средах.

Результаты показывают, что лучшие коммерческие языковые модели, такие как GPT-4, хорошо работают в сложных средах со значительным преимуществом между моделями с открытым исходным кодом. С этой целью исследовательская группа предполагает, что необходимы дальнейшие усилия по улучшению возможностей обучения LLM с открытым исходным кодом.

Соответствующая исследовательская статья под названием «AgentBench: использование LLM в качестве агентов» была опубликована на веб-сайте препринтов arXiv. Кроме того, на GitHub также опубликованы связанные наборы данных, среды и интегрированные оценочные пакеты.

Первый систематический контрольный показатель

В предыдущих исследованиях и на практике для оценки языковой активности использовались текстовые игровые среды. Однако они часто ограничены замкнутыми дискретными пространствами действий, и их внимание сосредоточено в основном на возможностях моделей, основанных на здравом смысле.

В некоторых недавних попытках воплощения агентов используются сложные мультимодальные симуляторы, основанные на играх, графических пользовательских интерфейсах (GUI) и внутренних сценах. Однако, несмотря на сложность этих симуляторов, они не могут точно отражать использование LLM в реальных сценариях использования, а их мультимодальный характер также создает препятствия для быстрой оценки LLM с открытым текстом.

Кроме того, большинство эталонных тестов агентов сосредоточены на одной среде, что ограничивает их способность предоставлять всесторонний обзор LLM в различных сценариях приложений.

В этой работе исследовательская группа работала над операционной системой (ОС), базой данных (БД), графом знаний (KG), карточной игрой (DCG), угадыванием сценария (LTP), обстановкой дома (Alfworld), онлайн-покупками (WebShop)) и просмотр веб-страниц (Mind2Web) ** 25 различных языковых моделей (как на основе API, так и моделей с открытым исходным кодом) были всесторонне оценены с помощью AgentBench в 8 различных задачах среды.

Результаты испытаний показывают, что современные модели, такие как GPT-4, способны справляться с широким спектром реальных задач, в то время как большинство LLM с открытым исходным кодом работают намного хуже, чем LLM на основе API в AgentBench; даже самый способный Существует также значительный разрыв в производительности между моделями с открытым исходным кодом openchat-13b-v3.2 и gpt-3.5-turbo.

Несмотря на то, что благодаря обширному обучению выравниванию, LLM могут не только освоить традиционные задачи НЛП, такие как ответы на вопросы, рассуждения на естественном языке и обобщение текста, но и продемонстрировать способность понимать человеческие намерения и выполнять инструкции, они плохо справляются с задачами AgentBench, такими как эффективность действий. , длинный контекст, многораундовая согласованность и обучение коду) производительность относительно отстает.

По словам исследовательской группы, в будущем потребуется дополнительная работа для проведения более строгих и систематических оценок, а также для предоставления мощных инструментов с открытым исходным кодом для облегчения таких оценок, таких как постоянное улучшение AgentBench, чтобы сделать его более всеобъемлющим и инклюзивным, и создание более систематической системы оценки для LLM и т. д.

Гонка за «автономными» агентами ИИ захлестывает Силиконовую долину

Непрерывная эволюция больших моделей ИИ привела к появлению новых помощников. Гонка за «автономными» агентами ИИ в настоящее время разжигает безумие в Силиконовой долине. В нем приняли участие не только отдельные разработчики, но и гигантские компании, такие как Microsoft и Alphabet, материнская компания Google, а также многие стартапы.

Возьмем, к примеру, стартап Inflection AI, соучредители которого Рид Хоффман и Мустафа Сулейман заявили в подкасте, что они разрабатывают личного помощника, который может выступать в роли наставника и решать такие задачи, как организация кредитов на перелеты и гостиничные дела.

Разработчик компании MultiOn Див Гарг сказал, что цель состоит в том, чтобы превратить его в личного друга с искусственным интеллектом, похожего на виртуального помощника Джарвиса. Они хотят, чтобы этот прокси мог подключаться к отдельным службам.

Генеральный директор General Intelligent Канджун Цю сказал: «Вещи, простые для людей, по-прежнему очень сложны для компьютеров, например, планирование встречи босса с группой важных клиентов. Это требует очень сложных умственных способностей, включая доступ к предпочтениям каждого, решение конфликты, а также нюансы при работе с клиентами».

Цю и четыре других разработчика агентства предсказывают, что первые системы, способные надежно выполнять многоэтапные задачи с некоторой автономностью, будут доступны в течение года, с упором на такие вертикали, как программирование и маркетинг.

Генеральный директор Microsoft Сатья Наделла однажды сказал в интервью Financial Times: «Будь то собственная Cortana от Microsoft, Alexa от Amazon, Google Assistant или Siri от Apple, они недостаточно умны, чтобы оправдать первоначальные ожидания».

** Если оставить в стороне существующие опасения, агенты ИИ продемонстрировали большой потенциал и рынок. ** Хотя мы можем столкнуться с некоторыми проблемами в процессе исследования и применения, как и многие инновации в истории, со временем мы должны стать свидетелями того, как эти агенты ИИ приносят положительные и положительные преимущества человеческому обществу за счет постоянной оптимизации и улучшения. глубокое влияние.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
Gate 2025 Q2 Report Released
9k Популярность
Gate Derivatives Volume Hits New High
12k Популярность
CPI Data Incoming
41k Популярность
4Join Gate VIP to Win MacBook
30k Популярность
5MicroStrategy Buys More Bitcoin
672 Популярность
6BTC Hits New High
115k Популярность
7My Gate Moments
28k Популярность
8VIP Exclusive Airdrop Carnival
26k Популярность
9Fed June Meeting Minutes
7k Популярность
10Gate Alpha Trading Share
15k Популярность

Закрепить

Карта сайта