Агенты ИИ, о которых говорят шишки Кремниевой долины, действительно горячие или нет?

Question

Автор｜Ли Хан Чжу ЮэПравить｜КаштаныИсточник: Цзязи Гуаннянь.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6871add7c5-dd1a6f-7649e1) *Источник изображения: сгенерировано инструментом Unbounded AI*После большого успеха ChatGPT OpenAI уже перешел к следующей цели — AI Agents (интеллектуальное тело).«Если статья предлагает другой метод обучения, OpenAI будет внутренне насмехаться, думая, что это все осталось от нас. Но когда выйдет новая статья «Агенты ИИ», мы обсудим ее очень серьезно и взволнованно.** Обычные люди, предприниматели. и гики имеют преимущество перед такими компаниями, как OpenAI, с точки зрения создания агентов ИИ **», — сказал Андрей Карпати, соучредитель OpenAI и бывший директор TeslaAI.Публичное выступление Карпаты сильно накалило агентов ИИ. Но его суждение не является исключительным.Уже в марте AutoGPT набрал 74 000 звезд на GitHub и быстро стал проектом с открытым исходным кодом с самым быстрорастущим числом звезд в истории; вышедшие позже BabyAGI и AgentGPT росли как грибы: заказ пиццы, организация почтовых ящиков, создание блоги и даже устроить вечеринку в честь Дня святого Валентина...Все больше и больше ИИ-агентов появляются в различных сценах жизни людей, и это увлечение быстро распространяется из Силиконовой долины.Технологи возлагают большие надежды на самоисполняющиеся и независимые агенты ИИ, которые считают их «инструментом повышения производительности, меняющим общество». Некоторые люди даже считают это «началом эры общего искусственного интеллекта (AGI)».Но голоса не могут скрыть существующих проблем."Большая модель является обязательным условием для агентов ИИ. Только при наличии достаточно хорошей аппаратной основы мы можем разрабатывать агентов ИИ", - сказал Дай Юсен, управляющий партнер ZhenFund, "Jiazi Guangnian".Строго говоря, только ChatGPT имеет «квалифицированную» большую модельную базу на рынке. Ограниченная вычислительной мощностью модели, в Китае по-прежнему не хватает почвы для разработки агентов ИИ.Будущее светло, но реальность жестока. Технологические исследования и разработки, а также венчурный капитал находятся в самом разгаре. Никто не знает, когда действительно наступит период дивидендов агентов ИИ с волной больших моделей. Но несомненно то, что перемены потихоньку начались.## **1.Агенты ИИ: «цифровые помощники», которые помогают вам делать что-то**Вместо того, чтобы рассматривать агенты ИИ как обновленную версию ChatGPT, правильнее рассматривать их как «цифровых помощников» для людей.Он не только говорит вам, «как это сделать», но и «помогает вам это сделать». В качестве среды агенты ИИ заменяют людей и постоянно взаимодействуют с моделями большого языка (LLM), такими как GPT. Пока поставлена цель, он может имитировать интеллектуальное поведение, автономно создавать задачи, переопределять приоритет списка задач, и выполнять задачи. Первая задача, и цикл, пока цель не будет достигнута.**В отличие от традиционного искусственного интеллекта, агенты ИИ** могут работать независимо, без контроля со стороны человека. ** Получив доступ к API, агенты ИИ могут даже просматривать веб-страницы, использовать приложения, читать и записывать файлы, оплачивать кредитными картами и т. д.**Проще говоря, вам нужно только поставить цель, а ИИ** **Агенты могут сделать все остальное. Например, ИИ-агент, разработанный HyperWrite, может автоматически заказывать для вас пиццу через управляющую программу браузера Chrome. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0dde3def20-dd1a6f-7649e1) Источник: Твиттер-аккаунт генерального директора HyperWrite Мэтта Шумера.Такое воображение несложно воплотить в научно-фантастических фильмах, но в процессе исследования искусственного интеллекта оно просуществовало почти полвека.Еще в 1980-х ученые-компьютерщики начали исследовать, как разработать интеллектуальное программное обеспечение, которое могло бы взаимодействовать как человек. Однако из-за ограничений данных и вычислительной мощности агентам ИИ не хватает необходимых реалистичных условий.Джун Пак, доктор компьютерных наук в Стэнфордском университете, однажды сказал в интервью: «Мы работали в этом направлении, но все методы последних нескольких десятилетий даже близко не приблизились к тому, чего мы достигаем сейчас. с LLM... Вот почему мы забыли об этом видении. Но когда появился LLM, мы поняли, что есть возможность».Модель большого языка — это основной мозг агентов ИИ. Разбирая сложные задачи, сложные пользовательские требования можно разобрать на достижимые методы задач.С одной стороны, обучение больших моделей построено на базе Интернета и содержит большое количество данных о поведении человека, что составляет ключевые элементы построения достоверных агентов ИИ.С другой стороны, обладая значительным объемом знаний, большая модель обладает превосходными способностями к изучению контекста и способности рассуждать. Создавая цепочку мышления для реализации непрерывного мышления и принятия решений модели, агенты ИИ могут анализировать сложные проблемы и разбирать их на простые и подробные подзадачи.В то же время использование LLM языка в качестве средства также изменило форму взаимодействия с интерфейсом. Вэнь Юнтенг, глава направления приложений ИИ в BV Baidu Ventures и вице-президент по инвестициям, сказал «Jiazi Guangnian»: «BV Baidu Ventures очень рано начала уделять внимание разработке агентов ИИ. Благодаря исследованиям и суждениям мы считают, что исходный графический пользовательский интерфейс (GUI) можно преобразовать в языковой пользовательский интерфейс (LanguageUI), а внешнее приложение агентов ИИ будет существовать во всех внешних формах, которые могут взаимодействовать с людьми».Это просто задача по демонтажу, и это далеко не умно. **ИИ на базе LLM** **Агенты не могут обойтись без трех ключевых компонентов:*** **Планирование: **Разбивайте крупномасштабные задачи на более мелкие, управляемые подцели; проводите размышления и уточнения, анализируйте, обобщайте и уточняйте прошлые модели поведения, чтобы повысить их интеллект и адаптивность, улучшить качество конечного результата.* **Память (Memory): **Кратковременная память, контекстуальное обучение; долговременная память, способность хранить и вспоминать неограниченное количество информации в течение длительного времени, как правило, достигаемая за счет хранения на внешнем носителе и быстрого поиска.* **Использование инструмента:** можно научиться вызывать внешние API для получения дополнительной информации, отсутствующей в весах модели.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c089219548-dd1a6f-7649e1) Обзор агента AI, управляемого LLM, источник изображения: личный блог Лилиан ВенгБлагодаря сотрудничеству трех компонентов агенты ИИ могут не только думать как люди, но и действовать как люди.Как и у людей, при выполнении сложных задач часто происходит процесс рассуждений между каждым шагом. Агенты ИИ также будут использовать компоненты ReAct (библиотека Java для создания пользовательских интерфейсов), чтобы тесно сочетать возможности рассуждений больших моделей с поведенческими решениями, чтобы языковые модели можно было логически планировать и упорядочивать на основе знаний.Платформа Reflexition предоставляет агентам ИИ динамическую память и возможности саморефлексии. Усиление языковых агентов за счет языковой обратной связи, а не обновления весов, позволяет ему улучшать прошлые решения о действиях и исправлять прошлые ошибки, чтобы постоянно улучшать свою производительность.В процессе сбора, хранения, удержания и поиска информации агенты ИИ также пытаются имитировать состав человеческой памяти и создать эффективную систему памяти.Имитируя способ человеческой памяти, агенты ИИ будут выражать сенсорную память, кратковременную память и долговременную память как обучающее встраивание исходного ввода (например, текста, изображения и т. д.), контекстное обучение и внешнее векторное хранилище. . Задачи и результаты сохраняются в модуле памяти, а при воспроизведении информация, хранящаяся в памяти, возвращается к диалогу с пользователем, тем самым создавая более тесный контекст.Одной из самых отличительных черт человека является использование и создание инструментов. Оснащенные внешними инструментами и используя API-интерфейсы для вызова различных интерфейсов, агенты ИИ могут имитировать использование инструментов человеком для выполнения более сложных задач.Хотя технический уровень еще не полностью зрел, такие вопросы, как управление данными и долговременная память, все еще решаются. Тем не менее, способность агентов ИИ работать автономно, итеративно оптимизировать и «развязывать руки» также неизбежно делает их популярными.## **2. Агенты ИИ, заменяющие LLM, становятся следующей горячей точкой ИИ**Рождение ChatGPT реализовало функцию ИИ, который проводит несколько раундов разговоров с людьми и предоставляет информацию и предложения. Внедрение Copilot позволило ИИ выполнить первый черновик работы для людей, таких как Github Copilot, Microsoft 365 Copilot и Midjourney, которые стали «умным вторым пилотом» людей в областях программирования, офисной работы, и генерация изображения.Скажите ИИ выполнить задачу, и он выполнит задачу — напишет копию, ответит на вопрос или создаст фотографию, которую человеческому глазу трудно отличить, настоящая она или фальшивая. В то же время людям часто необходимо предоставлять конкретные и четкие подсказки для каждого шага ИИ.В настоящее время ИИ подобен только что прибывшему стажеру, не имеющему опыта, и его нужно учить вручную. Однако что, если вы хотите хорошего сотрудника, который подчиняется приказам, сам решает трудности в исполнении и старается не доставлять неприятностей другим?В марте и апреле Camel, AutoGPT, BabyAGI, Westworld Township и другие агенты ИИ взорвались вместе, что, казалось, заставило людей увидеть такую возможность.С тех пор, как в марте компания Significant Gravitas открыла исходный код AutoGPT, в течение двух месяцев после его выпуска AutoGPT получил 130 000 звезд на GitHub, что сделало его самым быстрорастущим проектом с открытым исходным кодом в истории.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3abb85fe26-dd1a6f-7649e1) Город Дикого Запада, созданный Стэнфордским университетомИсточник изображения: статья «Генеративные агенты: интерактивные симулякры человеческого поведения».Андрей Карпаты однажды написал в Твиттере: «Следующий рубеж быстрого инжиниринга (инжиниринга) — это AutoGPT». На данный момент AutoGPT получил более 140 000 звезд на платформе для размещения кода Github, заняв 25-е место в истории.Соучредитель и генеральный директор OpenAI Сэм Альтман несколько раз заявлял, что эра создания огромных моделей ИИ закончилась, и что интеллектуальные тела — это вызов.В статье, посвященной автономным агентам, автор, Мэтт Шлихт, соучредитель и генеральный директор Octane AI (поставщик платформы для маркетинга данных), собрал мнения и мнения более ста представителей отрасли, научных кругов и инвестиционных кругов. Эксперты крупных компаний, таких как Meta, Nvidia, Stability AI или стартапы AI, а также преподаватели Stanford CS и инвесторы AI, включая Hugging Face, большинство из них выразили свои ожидания и перспективы потенциала агентов AI, это даже называется «сырой АГИ».Агенты ИИ, пришедшие на смену крупным моделям, похоже, станут следующим большим достижением в области ИИ.Но в то же время голоса оппозиции бесконечны.Лауреат премии Тьюринга Йошуа Бенжио упомянул в своем блоге «Как появляется ИИ, который наносит вред людям», опубликованном в мае этого года, что люди могут контролировать общие задачи и цели агентов ИИ, но это не означает, что люди могут контролировать агентов ИИ в силу Для подзадач и подцелей, разложенных собственным интеллектом, если исследования по настройке ИИ не сделают прорыв, люди не будут иметь надежной гарантии безопасности.Коллективное появление интеллектуальных агентов, преследование и сомнения больших боссов, волна агентов ИИ стремительна и горяча.Однако агенты ИИ — не новый термин в сфере искусственного интеллекта.В 2014 году DeepMind выпустила Go AI AlphaGo, которая на самом деле является своего рода агентами ИИ. Аналогичным образом OpenAI Five была запущена OpenAI в 2017 году для игры в «Dota2», а в 2019 году DeepMind анонсировала AlphaStar для игры в «StarCraft 2».В то время отраслевой тенденцией было обучение и совершенствование агентов ИИ посредством обучения с подкреплением, которое в основном использовалось в игровых сценариях, особенно в некоторых конфронтационных играх с очевидными победителями и проигравшими. Но это открытый вопрос, если кто-то хочет достичь общности в реальном мире.В следующие несколько лет OpenAI перешел к крупномасштабным языковым моделям, и серии GPT были запущены одна за другой. которые позволяют агентам ИИ преодолевать узкое место и заново развивать возможности.По сравнению с тем, что несколько лет назад было ограничено игровыми сценариями, чего могут достичь агенты ИИ на основе больших моделей? Вэнь Юнтенг, руководитель направления приложений ИИ в BV Baidu Ventures и вице-президент по инвестициям, сказал «Цзязи Гуаннянь»: «То, что мы видели, — это не только технологический прогресс, который значительно повышает способность ИИ понимать намерения пользователей, собирать информацию и выполнять задач. Что еще более важно, агенты ИИ полностью способны реконструировать будущую экосистему приложений».Вскоре после запуска AutoGPT многие пользователи сети использовали AutoGPT для создания автоматизированных персональных помощников. Например, Удит Гоенка, основатель и генеральный директор FirstSales.io, сообщил, что он использовал AutoGPT для создания поисковой системы, которая может искать компании, получившие начальные инвестиции в прошлом году, и описывать детали создания списка.Ю Джин Лим, инженер-программист Google, сказал, что он использовал AutoGPT для создания помощника по электронной почте, который отправляет детали задач агентам ИИ по электронной почте.Дай Юсен, управляющий партнер ZhenFund, сказал «Jiazi Guangnian»: «Агент — это направление, которое действительно может значительно повысить производительность, потому что, если люди все еще что-то делают, люди всегда ограничены».«Агенты ИИ станут инструментом повышения производительности в повседневной жизни и работе», — написал Мэтт Шлихт, — «От управления учетными записями в социальных сетях, инвестирования в рынок до публикации лучших детских книг — агенты ИИ будут существовать в каждой отрасли и каждой отрасли». что можно себе представить.» Например, aomni — это агент ИИ, который может искать информацию по любой теме в Интернете и будет выполнять цели пользователя одну за другой, создавая список.В дополнение к потребностям в производительности, личный AI Agent Pi от Inflection AI обеспечивает еще одно возможное направление применения.В отличие от позиционирования ChatGPT и общего искусственного интеллекта Клода, Pi фокусируется на высоком EQ, эмоциональном общении и обеспечении эмоциональной ценности. Pi также запомнит исторические разговоры с пользователями.Помимо участия и помощи в работе и жизни людей, он также научится связываться с друзьями и семьей, чтобы устанавливать связи с пользователями. В настоящее время Inflection AI получила более 1,5 миллиардов долларов США инвестиций, превзойдя Anthropic и уступив только OpenAI.## **3. Будут ли агенты ИИ следующей тенденцией? **"Строим своего рода ДЖАРВИС (здание похожее на ДЖАРВИС)", это последний обновленный профиль Андрея Карпаты в Твиттере, ДЖАРВИС - искусственный интеллект-помощник супергероя Marvel Железный Человек, который обладает способностью мыслить независимо и может помочь владельцу Справиться различные дела и вычислить различную информацию.Введение Karpathy также означает, что стартовая пушка для трека AI Agents была запущена.Иностранные СМИ «Информация» указали, что Сэм Альтман в частном порядке сказал некоторым разработчикам в мае, что OpenAI надеется сделать ChatGPT личным рабочим помощником, и человек, знакомый с этим вопросом, указал, что **OpenAI уделяет внимание тому, как использовать чат-боты для создания автономного ИИ** **Агенты, соответствующие функции, вероятно, будут развернуты в помощнике ChatGPT. **По совпадению, Meta также видит возможность для агентов ИИ.Еще в апреле Цукерберг сказал инвесторам, что Meta видит «возможность представить агентов ИИ миллиардам людей полезным и осмысленным образом», но в настоящее время он не уточнил конкретных приложений.А на общей встрече с сотрудниками в июне Цукерберг объявил о ряде технологий, находящихся на разных стадиях разработки, одна из которых предоставит агентов ИИ с разными характерами и способностями для помощи или развлечения, первоначально в первую очередь для Messenger и WhatsApp.**В Китае искусственный интеллект** **Продукты, связанные с агентами, также появляются один за другим. **На сайте WAIC в начале июля Alibaba Cloud представила свой первый интеллектуальный корпус ModelScopeGPT для сообщества разработчиков и в будущем запустит серию интеллектуальных тел, чтобы справиться с различными сценариями приложений. ****Huawei тоже занимается этой сферой, но больше фокусируется на Embodied AI (Встроенный ИИ), то есть на сочетании больших моделей и роботов. **Помимо крупных производителей, агенты ИИ также предоставляют возможность предпринимателям. Соучредитель OpenAI Карпати в своем предыдущем выступлении особо упомянул: «Обычные люди, предприниматели и гики имеют больше преимуществ в создании агентов ИИ, чем такие компании, как OpenAI».Вэнь Юнтенг, глава направления приложений ИИ в BV Baidu Venture Capital и вице-президент по инвестициям, сказал, что команда BV также в настоящее время с оптимизмом смотрит на возможности для стартапов в области агентов ИИ.«Будущая экосистема приложений будет диверсифицирована, а не будет доминировать над одним гигантом. Появление агентов ИИ дало возможность изменить парадигму, и многие традиционные приложения столкнулись с возможностью разрушения. В этом процессе стартапы много возможностей для открытия новых полей. Для каждой конкретной задачи у AI Agents есть много возможностей для оптимизации, включая создание конкретных алгоритмов и сервисов, пользовательских данных и дизайн продукта. Стартапы могут установить преимущество в дифференциации».«Кроме того, текущая экология агентов ИИ недостаточно ясна, что обеспечивает благоприятные возможности для развития стартапов, поскольку им не нужно конкурировать по установленному правилу. С этой точки зрения стартапы и крупные компании стоят на такая же стартовая линия, стартапы более гибкие и могут быстро корректировать свои продукты».Опираясь на накопленные годами знания в области искусственного интеллекта, BV Baidu Ventures не считает, что модельные компании будут монополизировать возможности на уровне приложений. Поскольку для компаний базовой модели значение построения экологии гораздо больше, чем монополизация приложения, Если компании базовой модели примут эксклюзивную стратегию для получения конкурентного преимущества на уровне приложений, это может нанести ущерб их собственной экологии. Базовые модели компаний могут создавать сильных агентов ИИ в одной или двух областях, на которых они сосредоточены, но им не обязательно конкурировать со стартапами во всех областях.**Экология, которая еще не определена, арена, которая еще не сформулирована, и все снова на одной стартовой линии. **Но нельзя отрицать, что до сих пор, если не считать множества демонстраций, агенты ИИ так и не появились как реальный продукт.Дай Юсен, управляющий партнер ZhenFund, сравнил степень сотрудничества между ИИ и людьми с различными этапами автономного вождения, и агенты ИИ похожи на этап L4 автономного вождения. Но, как и L4, агенты ИИ легко представить и продемонстрировать, но трудно реализовать.Реальное применение агентов ИИ все еще находится в неопределенном будущем.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cf43693e76-dd1a6f-7649e1) Степень сотрудничества между ИИ и людьми сравнивается с различными этапами автономного вождения.Источник изображения: мгновенный аккаунт Дай Юсен @yusenДай Юсен подчеркнул, что для реализации пригодных для использования агентов ИИ необходимо значительно улучшить возможности больших моделей.Даже для OpenAI верхнего уровня все еще есть много возможностей для улучшения с точки зрения задержки и производительности.«Если использовать паровой двигатель в качестве аналогии, пар может производиться только при нагревании воды до 100 градусов. Если интеллект агентов ИИ не достиг определенного уровня, вода нагревается только до 50 градусов. Даже если много энергии израсходовано, пар все еще не может быть произведен. Это 0».Стартовая пушка для трека AI Agents уже запущена, но это точно не спринт всего в несколько месяцев, а марафон на длинные дистанции, которому суждено растянуться на несколько лет, а то и на десять лет.