Агенты ИИ, или автономные интеллектуальные агенты, являются не только супер-помощниками в научно-фантастических фильмах, таких как «Джарвис», но также являются горячей точкой исследований в области ИИ в реальном мире. В частности, появление больших моделей ИИ, представленных GPT-4, выдвинуло концепцию агентов ИИ на передний план технологий.
В ранее популярном «виртуальном городе» Стэнфорда 25 агентов ИИ свободно росли в виртуальном городке и устраивали вечеринку в честь Дня святого Валентина; воплощенная модель агента «Вояджер», предложенная Nvidia и другими, также изучалась в «Моем мире». мире; кроме того, AutoGPT, BabyAGI и AgentGPT, которые могут выполнять задачи самостоятельно, также вызвали широкий интерес и бурные обсуждения среди публики.
Даже Андрей Карпати, бывший директор Tesla AI и вернувшийся в OpenAI, заявил на мероприятии для разработчиков, что всякий раз, когда появляется новый документ об агенте AI, OpenAI будет очень заинтересован и серьезно обсудит его **.
Хотя текущие исследования агентов ИИ чрезвычайно популярны, ** В настоящее время в индустрии ИИ отсутствует систематический и стандартизированный эталон для оценки уровня интеллекта LLM как агентов **.
С этой целью исследовательская группа из Университета Цинхуа, Университета штата Огайо и Калифорнийского университета в Беркли предложила первый систематический эталонный тест — AgentBench, для оценки LLM как агентов в различных реальных задачах и производительности (таких как навыки рассуждения и принятия решений) в 8 различных средах.
Результаты показывают, что лучшие коммерческие языковые модели, такие как GPT-4, хорошо работают в сложных средах со значительным преимуществом между моделями с открытым исходным кодом. С этой целью исследовательская группа предполагает, что необходимы дальнейшие усилия по улучшению возможностей обучения LLM с открытым исходным кодом.
Соответствующая исследовательская статья под названием «AgentBench: использование LLM в качестве агентов» была опубликована на веб-сайте препринтов arXiv. Кроме того, на GitHub также опубликованы связанные наборы данных, среды и интегрированные оценочные пакеты.
Первый систематический контрольный показатель
В предыдущих исследованиях и на практике для оценки языковой активности использовались текстовые игровые среды. Однако они часто ограничены замкнутыми дискретными пространствами действий, и их внимание сосредоточено в основном на возможностях моделей, основанных на здравом смысле.
В некоторых недавних попытках воплощения агентов используются сложные мультимодальные симуляторы, основанные на играх, графических пользовательских интерфейсах (GUI) и внутренних сценах. Однако, несмотря на сложность этих симуляторов, они не могут точно отражать использование LLM в реальных сценариях использования, а их мультимодальный характер также создает препятствия для быстрой оценки LLM с открытым текстом.
Кроме того, большинство эталонных тестов агентов сосредоточены на одной среде, что ограничивает их способность предоставлять всесторонний обзор LLM в различных сценариях приложений.
В этой работе исследовательская группа работала над операционной системой (ОС), базой данных (БД), графом знаний (KG), карточной игрой (DCG), угадыванием сценария (LTP), обстановкой дома (Alfworld), онлайн-покупками (WebShop)) и просмотр веб-страниц (Mind2Web) ** 25 различных языковых моделей (как на основе API, так и моделей с открытым исходным кодом) были всесторонне оценены с помощью AgentBench в 8 различных задачах среды.
Результаты испытаний показывают, что современные модели, такие как GPT-4, способны справляться с широким спектром реальных задач, в то время как большинство LLM с открытым исходным кодом работают намного хуже, чем LLM на основе API в AgentBench; даже самый способный Существует также значительный разрыв в производительности между моделями с открытым исходным кодом openchat-13b-v3.2 и gpt-3.5-turbo.
Несмотря на то, что благодаря обширному обучению выравниванию, LLM могут не только освоить традиционные задачи НЛП, такие как ответы на вопросы, рассуждения на естественном языке и обобщение текста, но и продемонстрировать способность понимать человеческие намерения и выполнять инструкции, они плохо справляются с задачами AgentBench, такими как эффективность действий. , длинный контекст, многораундовая согласованность и обучение коду) производительность относительно отстает.
По словам исследовательской группы, в будущем потребуется дополнительная работа для проведения более строгих и систематических оценок, а также для предоставления мощных инструментов с открытым исходным кодом для облегчения таких оценок, таких как постоянное улучшение AgentBench, чтобы сделать его более всеобъемлющим и инклюзивным, и создание более систематической системы оценки для LLM и т. д.
Гонка за «автономными» агентами ИИ захлестывает Силиконовую долину
Непрерывная эволюция больших моделей ИИ привела к появлению новых помощников. Гонка за «автономными» агентами ИИ в настоящее время разжигает безумие в Силиконовой долине. В нем приняли участие не только отдельные разработчики, но и гигантские компании, такие как Microsoft и Alphabet, материнская компания Google, а также многие стартапы.
Возьмем, к примеру, стартап Inflection AI, соучредители которого Рид Хоффман и Мустафа Сулейман заявили в подкасте, что они разрабатывают личного помощника, который может выступать в роли наставника и решать такие задачи, как организация кредитов на перелеты и гостиничные дела.
Разработчик компании MultiOn Див Гарг сказал, что цель состоит в том, чтобы превратить его в личного друга с искусственным интеллектом, похожего на виртуального помощника Джарвиса. Они хотят, чтобы этот прокси мог подключаться к отдельным службам.
Генеральный директор General Intelligent Канджун Цю сказал: «Вещи, простые для людей, по-прежнему очень сложны для компьютеров, например, планирование встречи босса с группой важных клиентов. Это требует очень сложных умственных способностей, включая доступ к предпочтениям каждого, решение конфликты, а также нюансы при работе с клиентами».
Цю и четыре других разработчика агентства предсказывают, что первые системы, способные надежно выполнять многоэтапные задачи с некоторой автономностью, будут доступны в течение года, с упором на такие вертикали, как программирование и маркетинг.
Генеральный директор Microsoft Сатья Наделла однажды сказал в интервью Financial Times: «Будь то собственная Cortana от Microsoft, Alexa от Amazon, Google Assistant или Siri от Apple, они недостаточно умны, чтобы оправдать первоначальные ожидания».
** Если оставить в стороне существующие опасения, агенты ИИ продемонстрировали большой потенциал и рынок. ** Хотя мы можем столкнуться с некоторыми проблемами в процессе исследования и применения, как и многие инновации в истории, со временем мы должны стать свидетелями того, как эти агенты ИИ приносят положительные и положительные преимущества человеческому обществу за счет постоянной оптимизации и улучшения. глубокое влияние.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Под руководством команды Tsinghua был проведен первый систематический контрольный тест агента ИИ.
Агенты ИИ, или автономные интеллектуальные агенты, являются не только супер-помощниками в научно-фантастических фильмах, таких как «Джарвис», но также являются горячей точкой исследований в области ИИ в реальном мире. В частности, появление больших моделей ИИ, представленных GPT-4, выдвинуло концепцию агентов ИИ на передний план технологий.
В ранее популярном «виртуальном городе» Стэнфорда 25 агентов ИИ свободно росли в виртуальном городке и устраивали вечеринку в честь Дня святого Валентина; воплощенная модель агента «Вояджер», предложенная Nvidia и другими, также изучалась в «Моем мире». мире; кроме того, AutoGPT, BabyAGI и AgentGPT, которые могут выполнять задачи самостоятельно, также вызвали широкий интерес и бурные обсуждения среди публики.
Даже Андрей Карпати, бывший директор Tesla AI и вернувшийся в OpenAI, заявил на мероприятии для разработчиков, что всякий раз, когда появляется новый документ об агенте AI, OpenAI будет очень заинтересован и серьезно обсудит его **.
Хотя текущие исследования агентов ИИ чрезвычайно популярны, ** В настоящее время в индустрии ИИ отсутствует систематический и стандартизированный эталон для оценки уровня интеллекта LLM как агентов **.
С этой целью исследовательская группа из Университета Цинхуа, Университета штата Огайо и Калифорнийского университета в Беркли предложила первый систематический эталонный тест — AgentBench, для оценки LLM как агентов в различных реальных задачах и производительности (таких как навыки рассуждения и принятия решений) в 8 различных средах.
Соответствующая исследовательская статья под названием «AgentBench: использование LLM в качестве агентов» была опубликована на веб-сайте препринтов arXiv. Кроме того, на GitHub также опубликованы связанные наборы данных, среды и интегрированные оценочные пакеты.
Первый систематический контрольный показатель
В предыдущих исследованиях и на практике для оценки языковой активности использовались текстовые игровые среды. Однако они часто ограничены замкнутыми дискретными пространствами действий, и их внимание сосредоточено в основном на возможностях моделей, основанных на здравом смысле.
В некоторых недавних попытках воплощения агентов используются сложные мультимодальные симуляторы, основанные на играх, графических пользовательских интерфейсах (GUI) и внутренних сценах. Однако, несмотря на сложность этих симуляторов, они не могут точно отражать использование LLM в реальных сценариях использования, а их мультимодальный характер также создает препятствия для быстрой оценки LLM с открытым текстом.
Кроме того, большинство эталонных тестов агентов сосредоточены на одной среде, что ограничивает их способность предоставлять всесторонний обзор LLM в различных сценариях приложений.
В этой работе исследовательская группа работала над операционной системой (ОС), базой данных (БД), графом знаний (KG), карточной игрой (DCG), угадыванием сценария (LTP), обстановкой дома (Alfworld), онлайн-покупками (WebShop)) и просмотр веб-страниц (Mind2Web) ** 25 различных языковых моделей (как на основе API, так и моделей с открытым исходным кодом) были всесторонне оценены с помощью AgentBench в 8 различных задачах среды.
Результаты испытаний показывают, что современные модели, такие как GPT-4, способны справляться с широким спектром реальных задач, в то время как большинство LLM с открытым исходным кодом работают намного хуже, чем LLM на основе API в AgentBench; даже самый способный Существует также значительный разрыв в производительности между моделями с открытым исходным кодом openchat-13b-v3.2 и gpt-3.5-turbo.
По словам исследовательской группы, в будущем потребуется дополнительная работа для проведения более строгих и систематических оценок, а также для предоставления мощных инструментов с открытым исходным кодом для облегчения таких оценок, таких как постоянное улучшение AgentBench, чтобы сделать его более всеобъемлющим и инклюзивным, и создание более систематической системы оценки для LLM и т. д.
Гонка за «автономными» агентами ИИ захлестывает Силиконовую долину
Непрерывная эволюция больших моделей ИИ привела к появлению новых помощников. Гонка за «автономными» агентами ИИ в настоящее время разжигает безумие в Силиконовой долине. В нем приняли участие не только отдельные разработчики, но и гигантские компании, такие как Microsoft и Alphabet, материнская компания Google, а также многие стартапы.
Возьмем, к примеру, стартап Inflection AI, соучредители которого Рид Хоффман и Мустафа Сулейман заявили в подкасте, что они разрабатывают личного помощника, который может выступать в роли наставника и решать такие задачи, как организация кредитов на перелеты и гостиничные дела.
Разработчик компании MultiOn Див Гарг сказал, что цель состоит в том, чтобы превратить его в личного друга с искусственным интеллектом, похожего на виртуального помощника Джарвиса. Они хотят, чтобы этот прокси мог подключаться к отдельным службам.
Генеральный директор General Intelligent Канджун Цю сказал: «Вещи, простые для людей, по-прежнему очень сложны для компьютеров, например, планирование встречи босса с группой важных клиентов. Это требует очень сложных умственных способностей, включая доступ к предпочтениям каждого, решение конфликты, а также нюансы при работе с клиентами».
Цю и четыре других разработчика агентства предсказывают, что первые системы, способные надежно выполнять многоэтапные задачи с некоторой автономностью, будут доступны в течение года, с упором на такие вертикали, как программирование и маркетинг.
Генеральный директор Microsoft Сатья Наделла однажды сказал в интервью Financial Times: «Будь то собственная Cortana от Microsoft, Alexa от Amazon, Google Assistant или Siri от Apple, они недостаточно умны, чтобы оправдать первоначальные ожидания».
** Если оставить в стороне существующие опасения, агенты ИИ продемонстрировали большой потенциал и рынок. ** Хотя мы можем столкнуться с некоторыми проблемами в процессе исследования и применения, как и многие инновации в истории, со временем мы должны стать свидетелями того, как эти агенты ИИ приносят положительные и положительные преимущества человеческому обществу за счет постоянной оптимизации и улучшения. глубокое влияние.