Агенти штучного інтелекту, про яких говорять авторитети Кремнієвої долини, справді круті чи ні?

Question

Автор｜Лі Хань Чжу ЮеРедагувати｜ChestnutsДжерело: Jiazi Guangnian![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6871add7c5-dd1a6f-7649e1) *Джерело зображення: створено інструментом Unbounded AI*Після великого успіху ChatGPT OpenAI вже перейшов до наступної мети – AI Agents (intelligent body).«Якщо документ пропонує інший метод навчання, OpenAI буде насміхатися всередині, думаючи, що це все залишилося від нас. Але коли вийде нова стаття про агентів штучного інтелекту, ми обговорюватимемо це дуже серйозно та захоплено.** Звичайні люди, підприємці і гіки мають перевагу перед такими компаніями, як OpenAI, у створенні агентів штучного інтелекту**», — сказав Андрій Карпаті, співзасновник OpenAI і колишній директор TeslaAI.Публічний виступ Карпат додав неабиякого жару AI Agents. Але його судження не є виключним.Вже в березні AutoGPT отримав 74 000 зірок на GitHub і швидко став найшвидшим проектом з відкритим кодом в історії; BabyAGI і AgentGPT, які вийшли пізніше, виросли як гриби: замовлення піци, систематизація поштових скриньок, створення блогів і навіть Влаштуйте вечірку до Дня Святого Валентина...Все більше і більше агентів зі штучним інтелектом з’являються в різних сценах життя людей, і це захоплення швидко поширюється з Силіконової долини.Технологи покладають великі надії на агентів штучного інтелекту, які працюють самостійно та працюють як «інструмент продуктивності, який змінює суспільство». Деякі люди навіть вважають це «початком ери загального штучного інтелекту (AGI)».Але голоси не можуть приховати існуючі проблеми.«Велика модель є необхідною умовою для агентів штучного інтелекту. Лише з достатньо хорошою апаратною основою ми можемо розробляти агенти штучного інтелекту», — сказав Дай Юсен, керуючий партнер ZhenFund, «Jiazi Guangnian».Власне кажучи, тільки ChatGPT має «кваліфіковану» велику модельну базу на ринку. Оскільки обчислювальна потужність моделі обмежена, у Китаї все ще бракує грунту для розробки агентів ШІ.Майбутнє світле, але реальність жорстока. Технологічні дослідження та розробки, а також венчурний капітал знаходяться в розпалі. Ніхто не знає, коли справді настане дивідендний період AI Agents із хвилею великих моделей. Але можна сказати точно те, що зміни тихо почалися.## **1.Агенти ШІ: «цифрові помічники», які допомагають вам робити речі**Замість того, щоб розглядати AI Agents як оновлену версію ChatGPT, доцільніше розглядати його як «цифрового помічника» для людей.Він не лише підкаже вам, «як це зробити», але й «допоможе вам це зробити». Як середовище агенти AI замінюють людей і постійно взаємодіють із моделями великої мови (LLM), такими як GPT. Поки задано ціль, він може симулювати інтелектуальну поведінку, створювати завдання автономно, перевизначати пріоритет списку завдань, і виконати завдання Перше завдання, і цикл до досягнення мети.**На відміну від традиційного штучного інтелекту, AI** Агенти можуть працювати незалежно без контролю людини. **Отримавши доступ до API, агенти AI можуть навіть переглядати веб-сторінки, використовувати програми, читати та записувати файли, оплачувати кредитними картками тощо.**Простіше кажучи, вам потрібно лише поставити ціль, а ШІ** **Агенти зроблять усе інше. Наприклад, AI-агент, розроблений HyperWrite, може автоматично замовляти для вас піцу через керуючу програму браузера Chrome. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0dde3def20-dd1a6f-7649e1) Джерело: Метт Шумер, генеральний директор HyperWrite, акаунт у TwitterТаку уяву неважко втілити в науково-фантастичних фільмах, але в процесі дослідження штучного інтелекту вона триває вже майже півстоліття.Ще в 1980-х роках комп’ютерні вчені почали досліджувати, як розробити інтелектуальне програмне забезпечення, яке могло б взаємодіяти, як людина. Однак через обмеження даних і обчислювальної потужності агентам AI не вистачає необхідних реалістичних умов.Джун Парк, доктор філософії з комп’ютерних наук у Стенфордському університеті, якось сказав в інтерв’ю: «Ми працювали в цьому напрямку, але всі методи за останні кілька десятиліть навіть не наблизилися до того, що ми зараз досягаємо. з LLM... Ось чому ми забули про це бачення. Але коли прийшов LLM, ми зрозуміли, що є можливість».Велика мовна модель є головним мозком агентів ШІ. Розбираючи складні завдання, складні вимоги користувачів можна розібрати на методи виконання завдань.З одного боку, навчання великих моделей побудовано на основі Інтернету та містить велику кількість даних про поведінку людини, що є ключовими елементами для створення надійних агентів ШІ.З іншого боку, маючи значний обсяг знань, велика модель виходить із відмінною здатністю до контекстного навчання та здатністю міркувати. Встановлюючи ланцюжок мислення для реалізації безперервного мислення та прийняття рішень у моделі, агенти AI можуть аналізувати складні проблеми та розбирати їх на прості та детальні підзавдання.У той же час використання LLM мови як засобу також змінило форму зовнішньої взаємодії. Вень Юнтен, керівник напряму застосування ШІ BV Baidu Ventures і віце-президент з інвестицій, сказав «Jiazi Guangnian»: «BV Baidu Ventures дуже рано почала приділяти увагу розробці агентів ШІ. Завдяки дослідженням і судженням ми Вірю, що вихідний графічний інтерфейс користувача (GUI) можна перетворити на мовний інтерфейс користувача (LanguageUI), а зовнішня програма агентів AI буде існувати у всіх зовнішніх формах, які можуть взаємодіяти з людьми».Це просто завдання демонтажу, і це далеко не розумно. **ШІ за кермом LLM** **Агенти не можуть обійтися без трьох ключових компонентів:*** **Планування: **Розкладіть великомасштабні завдання на більш дрібні, керовані підцілі; проведіть рефлексію та уточнення, проаналізуйте, підсумуйте та вдосконаліть минулу поведінку, щоб покращити свій інтелект та адаптивність, покращити якість кінцевого результату.* **Пам’ять (Пам’ять): **Короткочасна пам’ять, контекстне навчання; довготривала пам’ять, здатність зберігати та відтворювати необмежену кількість інформації протягом тривалого часу, як правило, досягається за допомогою зовнішнього зберігання та швидкого пошуку.* **Використання інструменту:** можна навчитися викликати зовнішні API для отримання додаткової інформації, якої немає у вагових коефіцієнтах моделі.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c089219548-dd1a6f-7649e1) Огляд агента штучного інтелекту за кермом LLM, джерело зображення: особистий блог Ліліан ВенгЗавдяки взаємодії трьох компонентів агенти штучного інтелекту можуть не тільки думати як людина, але й діяти як людина.Як і люди, коли виконують складні завдання, між кожним кроком часто є процес міркування. Агенти штучного інтелекту також використовуватимуть компоненти ReAct (бібліотека Java для створення користувацьких інтерфейсів), щоб тісно поєднувати можливості міркування великих моделей із поведінковими рішеннями, щоб мовні моделі можна було логічно планувати та впорядковувати на основі знань.Фреймворк Reflexition надає агентам ШІ динамічну пам’ять і можливості саморефлексії. Посилення мовних агентів за допомогою мовного зворотного зв’язку, а не оновлення вагових коефіцієнтів, дозволяє покращувати попередні рішення про дії та виправляти минулі помилки, щоб постійно покращувати свою продуктивність.У процесі отримання, зберігання, утримання та пошуку інформації агенти ШІ також намагаються імітувати структуру людської пам’яті та створити ефективну систему пам’яті.Симулюючи спосіб людської пам’яті, агенти штучного інтелекту виражатимуть сенсорну пам’ять, короткочасну пам’ять і довготривалу пам’ять як вбудовування початкового введення (наприклад, тексту, зображення тощо), навчання контексту та зовнішнього векторного зберігання. . Завдання та результати зберігаються в модулі пам’яті, а при виклику інформації інформація, що зберігається в пам’яті, повертається до діалогу з користувачем, тим самим створюючи більш тісний контекст.Однією з найбільш характерних рис людини є використання та створення інструментів. Оснащені зовнішніми інструментами та використовуючи API для виклику різних інтерфейсів, агенти штучного інтелекту можуть імітувати використання людиною інструментів для виконання більш складних завдань.Хоча технічний рівень ще не повністю зрілий, такі проблеми, як керування даними та довготривала пам’ять, все ще вирішуються. Однак здатність агентів штучного інтелекту виконуватися автономно, ітеративно оптимізувати та «звільнити руки» також робить його неминучим стати популярним.## **2. Замінюючи LLM, агенти ШІ стають наступною точкою доступу ШІ**Народження ChatGPT реалізувало функцію штучного інтелекту, який має кілька раундів спілкування з людьми та надання інформації та пропозицій. Запровадження Copilot дозволило штучному інтелекту отримати можливість завершити першу чернетку роботи для людей, як-от Github Copilot, Microsoft 365 Copilot і Midjourney, які стали «розумними копілотами» для людей у сферах програмування, офісної роботи, і створення зображення.Скажіть штучному інтелекту виконати завдання, і він виконає завдання — напише копію, відповість на запитання або згенерує фотографію, яку людському оку важко визначити, справжня чи підроблена. У той же час людям часто потрібно надавати конкретні та чіткі підказки для кожного кроку ШІ.У цей час ШІ схожий на стажера, який щойно прибув, не має досвіду і потребує навчання вручну. Але що, якщо вам потрібен хороший співробітник, який виконує накази, сам вирішує труднощі у виконанні і намагається не завдавати клопоту іншим?У березні та квітні Camel, AutoGPT, BabyAGI, Westworld Township та інші агенти AI вибухнули разом, що, здавалося, змусило людей побачити таку можливість.Після того, як Significant Gravitas відкрив AutoGPT у березні, протягом двох місяців після випуску AutoGPT отримав 130 000 зірок на GitHub, що робить його найшвидше зростаючим проектом з відкритим кодом в історії.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3abb85fe26-dd1a6f-7649e1) Місто Westworld, створене Стенфордським університетомДжерело зображення: документ «Генеративні агенти: інтерактивні симулякри людської поведінки»Андрій Карпаті одного разу написав у Твіттері: «Наступний рубіж оперативного проектування (інжинірингу) — AutoGPTs». На сьогоднішній день AutoGPT отримав понад 140 000 зірок на платформі розміщення коду Github, займаючи 25 місце в історії.Співзасновник і генеральний директор OpenAI Сем Альтман неодноразово заявляв, що ера створення величезних моделей штучного інтелекту закінчилася, і що розумні тіла є викликом.У статті, яка представляє автономних агентів, автор, Метт Шліхт, співзасновник і генеральний директор Octane AI (провайдера платформи для маркетингу даних), зібрав погляди та думки понад сотні людей з промислових, академічних та інвестиційних кіл. Експерти з великих компаній, таких як Meta, Nvidia, Stability AI або стартапи AI, а також викладачі Stanford CS та інвестори AI, включаючи Hugging Face, більшість із них висловили свої очікування та перспективи щодо потенціалу агентів AI, це навіть називається «сирий AGI».Переймаючи великі моделі, агенти штучного інтелекту, здається, стають наступною великою справою в галузі штучного інтелекту.Але в той же час голоси опозиції нескінченні.Лауреат премії Тьюрінга Йошуа Бенгіо зазначив у своєму блозі «Як з’являється штучний інтелект, що шкодить людям», опублікованому в травні цього року, що люди можуть контролювати загальні завдання та цілі агентів ШІ, але це не означає, що люди можуть контролювати агентів ШІ за допомогою Для підзавдань і підцілей, декомпонованих власним інтелектом, люди не матимуть надійної гарантії безпеки, якщо дослідження вирівнювання ШІ не зроблять прориву.Колективна поява інтелектуальних агентів, переслідування та сумніви великих босів, хвиля агентів ШІ швидка та гаряча.Однак агенти AI не є новим терміном у колі штучного інтелекту.У 2014 році Go AI AlphaGo, запущений компанією DeepMind, насправді є свого роду агентами штучного інтелекту. Подібним до цього є OpenAI Five, запущений OpenAI у 2017 році для гри в «Dota2», а в 2019 році DeepMind анонсував AlphaStar для гри в «StarCraft 2».Галузева тенденція того часу полягала в навчанні та вдосконаленні агентів ШІ за допомогою навчання з підкріпленням, яке в основному використовувалося в ігрових сценаріях, особливо в деяких конфронтаційних іграх з очевидними переможцями та переможеними. Але це відкрите питання, якщо хтось хоче досягти загальності в реальному світі.У наступні кілька років OpenAI звернувся до великомасштабних мовних моделей, і серія GPT була запущена одна за одною. Великомасштабні моделі стали треком для різних виробників технологій. Це також розробка великомасштабних моделей які дозволяють агентам штучного інтелекту пройти через вузьке місце та заново розробити можливості.Порівняно з обмеженням ігровими сценаріями кілька років тому, чого можуть досягти агенти ШІ на основі великих моделей? Вень Юнтен, голова напряму застосування штучного інтелекту BV Baidu Ventures і віце-президент з інвестицій, сказав «Jiazi Guangnian»: «Ми бачили не лише технологічний прогрес, який значно покращує здатність ШІ розуміти наміри користувачів, збирати інформацію та виконувати дії. Що ще важливіше, агенти штучного інтелекту повністю здатні реконструювати екосистему майбутньої програми».Незабаром після запуску AutoGPT багато користувачів мережі використовували AutoGPT для створення автоматизованих персональних помічників. Наприклад, Удіт Ґоенка, засновник і генеральний директор FirstSales.io, написав, що він використовував AutoGPT для створення механізму пошуку потенційних клієнтів, який може шукати компанії, які отримали початкові інвестиції минулого року, і описувати деталі створення списку.Ю Джин Лім, інженер-програміст Google, сказав, що він використовував AutoGPT для створення помічника електронної пошти, який надсилає деталі завдань агентам ШІ електронною поштою.Дай Юсен, керуючий партнер ZhenFund, сказав "Jiazi Guangnian": "Агент - це напрямок, який дійсно може значно підвищити продуктивність, тому що якщо люди все ще щось роблять, вони завжди обмежені".«Агенти штучного інтелекту стануть інструментом підвищення продуктивності в повсякденному житті та на роботі». Метт Шліхт написав: «Від керування обліковими записами в соціальних мережах, інвестування в ринок і до видання найкращих дитячих книжок — агенти ШІ будуть існувати в кожній галузі та кожній галузі. це можна уявити". Наприклад, aomni — це агент штучного інтелекту, який може шукати інформацію на будь-яку тему в Інтернеті та виконуватиме цілі користувача одну за одною, створюючи список.Окрім потреб у продуктивності, персональний AI Agent Pi від Inflection AI забезпечує інший можливий напрямок застосування.На відміну від позиціонування ChatGPT і загального штучного інтелекту Клода, Pi зосереджується на високому EQ, емоційному спілкуванні та забезпеченні емоційної цінності. Pi також запам’ятає історичні розмови з користувачами. Окрім участі та допомоги в роботі та житті людей, він також навчиться зв’язуватися з друзями та родиною, щоб налагодити зв’язки з користувачами. Наразі Inflection AI отримав понад 1,5 мільярда доларів США інвестицій, перевершуючи Anthropic і поступаючись лише OpenAI.## **3. Чи будуть агенти ШІ наступним трендом? **«Створення свого роду JARVIS (будівля, схоже на JARVIS)», це останній оновлений профіль Андрія Карпаті в Twitter, JARVIS — помічник зі штучним інтелектом супергероя Marvel Залізної людини, який має здатність мислити самостійно та може допомогти власнику впоратися різні справи та обчислювати різну інформацію.Введення Карпат також означає, що стартова гармата траси AI Agents була вистрілена.Іноземні ЗМІ «The Information» зазначили, що Сем Альтман у травні приватно сказав деяким розробникам, що OpenAI сподівається зробити ChatGPT персональним робочим помічником, а особа, знайома з цим питанням, зазначила, що **OpenAI звертає увагу на те, як використовувати чат-боти для створення автономного ШІ** **Агенти, пов’язані функції, ймовірно, будуть розгорнуті в помічнику ChatGPT. **За збігом обставин Meta також бачить можливість для агентів ШІ.Ще в квітні Цукерберг сказав інвесторам, що Meta бачить «можливість представити агентів штучного інтелекту мільярдам людей корисним і значущим способом», але наразі він не вказав конкретних програм.А на зустрічі зі співробітниками в червні Цукерберг оголосив про серію технологій на різних стадіях розробки, одна з яких залучатиме агентів штучного інтелекту з різними характерами та здібностями, щоб допомагати чи розважати, спочатку переважно для Messenger і WhatsApp.**У Китаї AI** **Продукти, пов’язані з агентами, також народжуються один за одним. **На сайті WAIC на початку липня компанія Alibaba Cloud випустила свій перший інтелектуальний корпус ModelScopeGPT для спільноти розробників, а в майбутньому запустить серію інтелектуальних корпусів для роботи з різними сценаріями застосування. ****Huawei також бере участь у цій галузі, але вона більше зосереджена на втіленому ШІ (Embodied AI), тобто поєднанні великих моделей і роботів. **Окрім великих виробників, AI Agents також є можливістю для підприємців. Співзасновник OpenAI Карпаті окремо зазначив у своїй попередній промові: «Звичайні люди, підприємці та гіки мають більше переваг у створенні агентів штучного інтелекту, ніж такі компанії, як OpenAI».Вен Юнтен, керівник напряму застосування штучного інтелекту BV Baidu Venture Capital і віце-президент з інвестицій, сказав, що наразі команда BV оптимістично дивиться на можливості для стартапів у сфері агентів штучного інтелекту.«Майбутня екосистема додатків буде диверсифікованою, а не буде домінувати одним гігантом. Поява агентів штучного інтелекту принесла можливість для зміни парадигми, і багато традиційних додатків стикаються з можливістю зриву. У цьому процесі стартапи Є багато можливостей для відкриття нових сфер. Для кожного конкретного завдання агенти штучного інтелекту мають багато можливостей для оптимізації, включно зі створенням конкретних алгоритмів і послуг, даних користувачів і дизайну продукту. Стартапи можуть отримати перевагу диференціації».«Крім того, поточна екологія агентів штучного інтелекту недостатньо зрозуміла, що забезпечує сприятливі можливості розвитку для стартапів, оскільки їм не потрібно конкурувати за встановленими правилами. З цієї точки зору стартапи та великі компанії стоять на та сама стартова лінія, стартапи більш гнучкі та можуть швидко коригувати свої продукти».Покладаючись на знання, накопичені роками в галузі штучного інтелекту, BV Baidu Ventures не вірить, що модельні компанії монополізують можливості на прикладному рівні. Тому що для базових модельних компаній значення створення екології набагато більше, ніж монополізація програми.Якщо базові модельні компанії приймають ексклюзивну стратегію для отримання конкурентної переваги на прикладному рівні, це може завдати шкоди їхній власній екології. Компанії, що лежать в основі моделі, можуть створити потужних агентів штучного інтелекту в одній або двох сферах, на яких вони зосереджені, але їм не обов’язково конкурувати зі стартапами в усіх сферах.**Екологія, яка ще не визначена, арена, яка ще не сформульована, і всі повернулися на одну стартову лінію. **Але незаперечним є те, що досі, окрім багатьох демонстрацій, AI Agents не з’явився як справжній продукт.Дай Юсен, керуючий партнер ZhenFund, порівняв ступінь співпраці між штучним інтелектом і людьми на різних етапах автономного водіння, а агенти штучного інтелекту схожі на етап L4 автономного водіння. Але, як і L4, агентів штучного інтелекту легко уявити та продемонструвати, але важко реалізувати. Справжнє застосування агентів штучного інтелекту все ще в невизначеному майбутньому.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cf43693e76-dd1a6f-7649e1) Ступінь співпраці між штучним інтелектом і людьми порівнюється з різними етапами автономного водіння Джерело зображення: миттєвий обліковий запис Dai Yusen @yusenДай Юсен підкреслив, що для реалізації придатних для використання агентів штучного інтелекту необхідно значно покращити можливості великих моделей.Навіть для OpenAI верхнього рівня все ще є багато можливостей для вдосконалення з точки зору затримки та продуктивності.«Якщо ви використовуєте паровий двигун як аналогію, пара може вироблятися лише тоді, коли вода нагріта до 100 градусів. Якщо інтелект агентів ШІ не досяг певного рівня, вода нагрівається лише до 50 градусів. Навіть якщо багато енергії витрачено, пара все ще не виробляється. Це 0."Стартова стрільба на трасі AI Agents вже стартувала, але це точно не спринт за кілька місяців, а марафон на довгі дистанції, якому судилося тривати кілька років або навіть десять років.