Причина, чому агенти штучного інтелекту стали напрямком, який привертає все більше уваги, значною мірою пов’язана з тим, що LLM забезпечує можливий шлях технічної реалізації для застосування агентів штучного інтелекту, а по-друге, існує багато проектів, пов’язаних із агентами штучного інтелекту. .замкнути.
Хоча LiLian Weng у своїй статті визначає, що таке LLM-керовані AI-агенти? Але Deepmind також намагається визначити концепцію єдиного агента. Я вважаю, що концепція AI-Agents також сформує різні типи диференціації з розумінням різних компаній AI.
Більш чіткий ключовий консенсус полягає в тому, що на основі агентів, керованих LLM, для реалізації автоматичної обробки загальних проблем, саме агенти штучного інтелекту ми визначили в цьому циклі вибуху великомасштабної мовної моделі та сформували спільне розуміння.
Знайти можливість із кореляції агентів
На прикладному рівні AI-Agents, на поточному етапі, ми повинні дивитися на AI-Agents з точки зору «релевантності», наскільки це можливо, тобто ми повинні бути терпимими до проб і помилок і інноваційним у можливих формах. Можливість**, ви не повинні шукати стандартизовану відповідь у вузькій позиції, як деякі критики, це не рекомендується.
Наприклад, Auto-GTP як можливість насправді надихнула багато проектів агентів, але вузька критика втратить можливість захопити нові можливості, що є поширеним явищем серед китайських розробників. Як розробник без креативності, як ви будете покладатися на свою традиційну конкурентоспроможність в епоху програмування природною мовою?
Незважаючи на те, що існує багато вступів щодо проектів, пов’язаних із AI-Agents, я вважаю, що існує проблема однорідного списку та вступу. Цей вміст дає нам знати, які проекти належать до напрямку AI-Agents, але немає пов’язаних із природою, він показує потенціал AI-Agents у різних сферах застосування та екологічну позицію певних типів AI-Agents проектів.
Наприклад, у моєму вступі Auto-GPT, BabayAGI та MetaGPT я буду класифікувати як один тип екології, оскільки вони мають безперервність певного шляху;
Побудова цілісного пізнання в головоломці Агентів
Загалом, у представленні репрезентативних проектів про AI-Agents я використав точки зору «релевантності», «екологічної позиції» та «безперервності», щоб представити репрезентативні проекти, щоб ми могли нечітко бачити майбутній розвиток тренд AI-агентів.
З’являються наступні 10 репрезентативних пов’язаних проектів, у тому числі деякі пов’язані довідкові проекти. Я використаю цей випадок як пазл, щоб скласти відносно повну карту, якої достатньо, щоб більше людей чітко усвідомили, як потенціал агентів може змінити все в Інтернеті Включаючи зміну ландшафту Web3.
Два основні напрямки майбутнього AI-Agents
AI-Agents можна грубо розділити на два напрямки: **Автономні агенти та генеративні агенти. **
Автономні агенти беруть як приклад Auto-GPT, який представляє здатність автоматично виконувати різноманітні завдання для досягнення цільових результатів за допомогою описів вимог природною мовою. У цих відносинах співпраці автономні агенти служать людям і мають чіткі атрибути інструментів;
Generative Agents бере за приклад віртуальне місто з 25 інтелектуальних агентів, опубліковане Стенфордом. Generative Agents, як агенти ШІ з особистісними характеристиками, здатністю автономного прийняття рішень і довготривалою пам’яттю, більше схиляються до концепції У цих взаємовідносинах спільної роботи Агенти мають цифрові рідні соціальні відносини, а не просто інструменти для обслуговування людей;
Автоматичний GPT
Один із найвідоміших проектів з відкритим кодом Auto-GPT, його презентація на GitHub дуже проста: «Експериментальна спроба з відкритим кодом зробити GPT-4 повністю автономним». Експериментальна спроба з відкритим кодом зробити GPT-4 повністю автономним. автономний .
Короткий підсумок полягає в тому, що Auto-GTP може повністю автоматизувати кінцевий результат завдання за допомогою вимоги до завдання, що складається з одного речення; основна логіка здатності Auto-GPT виконувати завдання незалежно лежить у здатності мовної моделі планувати завдання за допомогою завдання Carry поетапне розбирання та аналіз, а також автоматично вдосконалювати кроки виконання завдання. У процесі результати пошуку в Інтернеті будуть передані назад до мовної моделі, а завдання буде далі розібрано та виконано.
Якщо використовувати популярну народну мову як метафору, **Auto-GPT виконав завдання в процесі «самоопитування та самовідповіді», без потреби людей надавати підказки. **
Незважаючи на те, що багато людей критикують Auto-GPT за величезне споживання токенів і відсутність стабільних результатів, Auto-GTP, як випадок автоматизації на основі LLM, викликав велику цікавість у розробників.Подібним Auto-GPT також є BabayAGI, MetaGPT тощо. знаходяться в авангарді експериментів із проектами з відкритим кодом для вивчення автоматизації.
адреса проекту:
**BabyAGI може автоматично створювати, сортувати та виконувати нові завдання на основі результатів попередніх завдань і наших попередньо встановлених цілей. **Він використовує технологію обробки природної мови для створення нових завдань на основі цілей і збереження результатів завдань у базі даних, щоб за потреби можна було знайти відповідну інформацію.
BabyAGI насправді є сценарієм Python, який запускає нескінченний цикл для виконання наступних кроків:
Отримайте перше завдання зі списку завдань.
Надішліть завдання агенту виконання, і агент виконання використовує API OpenAI для виконання завдання відповідно до контексту.
Збагатіть результат і збережіть його в Chroma/Weaviate.
Створюйте нові завдання та змінюйте порядок списків завдань на основі попередньо встановлених цілей і результатів попередніх завдань.
адреса проекту:
І Auto-GPT, і BabyAGI теоретично являють собою початковий період нашого поточного спалаху LLM.Наше дослідження AGI на основі LLM і процесора загального призначення для вирішення завдань, керованого LLM, є, на мою думку, святим Граалем у галузі штучного інтелекту. Агенти в майбутньому.
Генератори
Стаття «Генеративні агенти: інтерактивні симулякри людської поведінки», опублікована Стенфордським університетом і дослідниками Google, уже є дуже відомим проектом AI-Agent. Загалом, це дослідження помістило 25 агентів AI у віртуальну малу віртуальну мережу у стилі пікселів. , інтелектуальні агенти можуть реалізувати змодельовану взаємодію життєвої поведінки людини, а також можуть взаємодіяти з середовищем віртуального міста, а також можуть взаємодіяти з людьми поза віртуальним світом. **
У цьому документі є два ключових рішення, які найбільше варті нашої уваги:
1, Архітектура генераторного агента
Агенти сприймають навколишнє середовище та зберігають усе сприйняття у комплексному записі, який називається потоком пам’яті, записуючи досвід агента. На основі їхнього сприйняття архітектура отримує відповідні спогади, а потім використовує ці отримані поведінки для визначення дії. Ці відновлені спогади також використовуються для формування довгострокових планів і створення відображень вищого рівня, обидва з яких подаються в потік пам’яті для майбутнього використання.
2, потік пам'яті
Виходячи з архітектури генеративного агента та інтерактивного середовища, в якому знаходиться експеримент, агент неминуче генеруватиме велику кількість даних пам’яті. Memory Stream — це база даних, яка всебічно записує всі спогади генеративного агента. Це список, що містить кілька об’єктів пам’яті, кожен об’єкт містить опис природною мовою, мітку часу створення та мітку часу останнього доступу. Основним елементом потоку пам'яті є спостереження, яке є подією, яку безпосередньо сприймає агент. Звичайні спостереження включають дії, які виконує сам агент, або дії, які агент сприймає як такі, що виконуються іншими агентами або неагентними об’єктами.
Виходячи з двох вищезазначених ключових компонентів, фактично загальна поведінка генеративного агента поділяється на три частини: [пам’ять і пошук] [рефлексія] [планування та реакція]. Для отримання додаткової інформації зверніться до змісту оригінальної статті .
Ця стаття та цей експеримент підтвердили, що можна довіряти інтерактивній поведінці, створеній агентом, сформованим на основі LLM, для моделювання поведінки людської взаємодії в цифровому середовищі. Генеративний агент може відігравати важливу роль у багатьох цифрових середовищах, особливо створених Це взаємодія між людиною та комп’ютером, сформована між людьми та людьми.
Що ми можемо найбільш інтуїтивно відчути, так це те, що генеративний агент створюється як роль рідного цифрового мешканця метавсесвіту та створює різні взаємодії з середовищем людського метавсесвіту. Фактично, ми можемо симулювати високорозвинений цифровий віртуальний світ AI-Agents, і люди можуть витягувати з цього світу цифрові результати праці AI-Agents;
Як агенти стають робочими партнерами
Оскільки цього разу агенти перекладаються як «агенти» в багатьох контекстах, агенти легко асоціюються з поняттям ролі посередника, що ускладнює для багатьох людей інтуїтивне встановлення зв’язку із застосуванням сцени агентів; у цих трьох випадках відповідно Він показує, як Агенти можуть стати «людьми-експертами», яких можна найняти, автоматизованою маркетинговою компанією, яка взагалі не вимагає людської участі, і як Агенти формують команду для співпраці один з одним.
У наступному прикладі ми можемо використовувати NexusGPT для створення кількох експертів, а GPTeam — для формування команди, яку наймають люди, і ця команда AI працює в повністю автоматизованій компанії, такій як AutoCorp. Коли ми складаємо ці частини пазла, ми можемо інтуїтивно відчути, що майбутнє настало;
NexusGPT
Це так звана перша у світі платформа позаштатного AI, створена незалежним розробником Assem. NexusGPT базується на фреймворку LangChainAI, використовує API GPT-3.5 і Chroma (вбудовану базу даних з відкритим вихідним кодом на основі штучного інтелекту) на платформі NexuseGPT з більш ніж вісімсот агентів ШІ зі спеціальними навичками.
Агенти на NexusGPT можуть інтелектуально регулювати складність питань:
Рівень 1: Простий діалог
Рівень 2: попередньо підготовлені операції/плагіни
Рівень 3: режим AutoGPT
Але всі вони покладаються на підтримку викликів функцій OpenAI і LangchainAI;
Під час виконання агентом завдання автори розглядають швидкість, з якою система наближається до високих рейтингів через людський зворотний зв’язок і рейтингові спостереження в циклі. Насправді це має надати агентам штучного інтелекту певні навички для досягнення ітеративно оптимізованих стратегій удосконалення під час спілкування з людиною зі сторони А щодо вимог завдання.
NexusGPT представляє майбутню бізнес-модель для найму агентів. Цей проект насправді має багато можливостей для вдосконалення, наприклад поєднання агентів і експертних модулів (експертної системи та експертної моделі). Метод ціноутворення Сторони А для найму агентів на основі розрахунку споживання токенів тощо, це змінить наш традиційний спосіб найму на ринку праці, а також змінить спосіб співпраці DAO;
AutoCorp
Створено за 5 годин AutoCorpmina fahmi та їх командою під час хакатону GPT/LLM у Нью-Йорку. AutoCorp є повністю незалежною компанією з маркетингу брендів. AutoCorp автоматично створюватиме рекламу брендів і дизайн продуктів для компанії, яка безпосередньо продає футболки. Коли клієнти виявлятимуть нові споживчі потреби, AutoCorp оновлюватиме свою тему та створюватиме нові ресурси дизайну. Безперервна самоітерація до кращого напрямку бізнесу.
Спочатку AutoCorp розробила початкову ідею бренду футболок на основі оригінальної ідеї. Потім він використав цю початкову ідею для створення різноманітних активів компанії та керівництва по стилю за замовчуванням. Коли клієнти висловлять потреби, AutoCorp оновить свій план відповідно до цих потреб. Якщо план призводить до зменшення продажів, AutoCorp вносить корективи. Вищевказаний процес був запущений від початку до кінця, і його можна підключити до рекламного API та спеціального API футболки для розгортання в реальному світі.
Цей абзац цитується з твіттера Міни Фахмі, і AutoCorp також була створена Міною Фахмі та їхньою командою під час хакатону GPT/LLM у Нью-Йорку за 5 годин, і їхньою метою створення AutoCorp є просування концепції «автономії» до крайність.
Насправді мета AutoCorp і DAO дуже узгоджується.**Якщо кінцевою метою децентралізованої організації є усунення «людського» фактора, то повна автоматизація виробничих операцій насправді є розумною привабливістю для розвитку концепції DAO. **AutoCorp фактично представляє майбутній напрямок розвитку бізнесу DAO.
GPTeam
GPTeam — це багатоагентна система моделювання з відкритим кодом. GPTeam використовує GPT-4 для створення кількох агентів, які співпрацюють для досягнення заздалегідь визначених цілей. Основна мета цього проекту — дослідити потенціал моделей GPT у покращенні мультиагентної продуктивності та ефективної комунікації.
GPTeam використовує незалежних агентів, кожен з яких має пам’ять, і взаємодіють за допомогою зв’язку. Реалізації пам’яті та рефлексії для агентів натхненні цим дослідженням. Агенти пересуваються по всьому світу та виконують завдання в різних місцях залежно від своїх власних завдань і місцезнаходження інших агентів. Вони можуть спілкуватися один з одним і співпрацювати над завданнями, одночасно працюючи над спільною метою.
адреса проекту:
Насправді існує ще багато проектів з відкритим кодом, таких як GPTeam, наприклад Dev-GPT, автоматизована команда розробників, яка створює індивідуальні мікросервіси для користувачів. Команда складається з трьох віртуальних ролей: менеджера продукту, розробника та оператора та технічного обслуговування розробки. Технічна ідея Dev-GPT полягає в основному у визначенні та тестуванні ефективних стратегій виконання завдань. Якщо він зазнає невдачі 10 разів поспіль, він переключиться до наступного методу.
Ми побачимо все більше і більше проектів, розробляйте AI-Agents як свого роду команду AI, неважко визначити агентів як виробничу роль, як, наприклад, у випадку NexusGPT, розробники можуть встановлювати кожного агента. Це складно. стати агентами з ексклюзивними навичками, а потім як співпрацювати з цими агентами, щоб застосувати їхні відповідні навички та виконувати автоматизацію завдання/проекту разом, що є складним завданням. Project Atlas Agents досліджує автоматизацію на основі природної мови, фактично надає хороший сценарій застосування для команди агентів;
Усе це змушує мене думати про DAO, автоматизовану організацію для спільної роботи, засновану на автоматизованій логіці управління;
Як агенти замінюють повторювану роботу
Перш ніж штучний інтелект повністю замінить нашу роботу, агенти замінять більшість нашої поточної повторюваної праці – це наступний напрямок розвитку агентів у сфері бізнесу. До появи агентів на базі LLM RPA (автоматизація процесів роботів) була першим пошуковим рішенням у галузі, але Традиційний RPA має високий поріг і не може бути популяризований серед громадськості. RPA є засобом від відсутності автоматизації традиційної логіки взаємодії ІТ, і поточні агенти можуть спілкуватися природною мовою для реалізації функції RPA.
Наступні два проекти показують нам, як LLM-агенти допоможуть нам звільнитися від повторюваної праці в нашій щоденній роботі та академічних дослідженнях. (Насправді, потенціал цих двох проектів більший, ніж це)
Cheat Layer
«Автоматизуйте свій бізнес, використовуючи природну мову», використовуючи природну мову для автоматизації свого бізнесу, це слоган бренду Cheat Layere. Рівень чітів вирішує неможливі проблеми автоматизації бізнесу за допомогою спеціально навчених моделей машинного навчання GPT-4, які слугують інженерами програмного забезпечення ШІ для кожного користувача.
Cheat Layer випустив два продукти на Producthunt, один — Cheat Layer, а інший — Project Atlas Agents.Project Atlas Agents — це інтерфейс керування для проектів без коду, який можна використовувати для створення та ітерації агентів ШІ.
Cheat Layer автоматизує роботу всієї веб-сторінки через режим плагіна Google Chrome і використовує природну мову. Наприклад, більшість наших рутинних операцій на веб-сторінці насправді можуть виконуватися автоматично. Cheat Layer легко нагадує RPA, тобто роботизовану автоматизацію процесів. Було багато дискусій про відносини між Агентами та RPA. Беззаперечним фактом є те, що традиційні RPA були ліквідовані Агентами.
Використовуйте природну мову через Cheat Layer для налаштування автоматизації бізнес-процесів і використовуйте агенти Project Atlas для керування різними процесами автоматизації. Загалом, ми можемо використовувати режим природної мови для створення агентів для керування автоматизованим виконанням певного бізнесу, як складність бізнесу зростає, ми можемо неодноразово вдосконалювати агентів.
На даний момент я не знаю маркетингу та просування Cheat Layer, але згідно зі статистикою similarweb, основні користувачі переважно в Північній Америці, а кількість відвідувань зросла на 37,8% порівняно з попереднім місяцем. Завдяки створенню агентів для автоматизації управління бізнесом, порівняно з різними чат-ботами, цей попит може значною мірою задовольнити потреби малих і середніх власників електронної комерції, і, можливо, це напрямок, який варто досліджувати та копати;
Дослідник GPT
GPT Researcher — це автономний агент на базі GPT, здатний проводити онлайн-дослідження на будь-яку задану тему. Представлення проекту на Github:
«Агент здатний генерувати докладні, об’єктивні та неупереджені звіти про дослідження з параметрами налаштування, щоб зосередитися на відповідних ресурсах, планах і уроках. Натхненний AutoGPT і нещодавньою статтею Plan and Solve, GPT Researcher вирішує проблеми швидкості та детермінізму. , розпаралелюючи роботу агента, а не синхронні операції, забезпечуючи більш стабільну продуктивність і вищу швидкість».
Архітектура GPT Researcher в основному виконується за допомогою двох агентів, **один є «планувальником», а інший — «виконавцем»; **Планувальник відповідає за генерування запитань для дослідження, тоді як виконавець базується на дослідженні запитання, створені планувальником. Знайти релевантну інформацію, нарешті відфільтрувати та узагальнити всю релевантну інформацію за допомогою планувальника, а потім створити звіт про дослідження;
більш конкретно:
Створіть набір дослідницьких запитань, які разом формують об’єктивну думку щодо будь-якого завдання.
Для кожного досліджуваного питання запустіть агента сканера, щоб отримати інформацію, що стосується даного завдання, з онлайн-ресурсів.
Для кожного просканованого ресурсу підсумуйте на основі відповідної інформації та відстежте його джерело.
Нарешті, усі узагальнені ресурси перевіряються та агрегуються, і створюється остаточний звіт про дослідження.
Особливості цього проекту
Зробіть дослідження, плани, ресурси та звіти про отримані уроки
Кожне дослідження об’єднує понад 20 інтернет-джерел для формування об’єктивних і фактичних висновків
Включає простий у використанні веб-інтерфейс (HTML/CSS/JS)
Веб-збирання з підтримкою Java
Реєстрація та відстеження контекстної інформації про відвідані та використані веб-джерела
Експортуйте звіти про дослідження у такі формати, як PDF...
Хоча GPT Researcher є академічним дослідницьким інструментом, заснованим на GPT, і це проект з відкритим кодом для академічних цілей за ліцензією MIT. З точки зору створення контенту, цей відкритий код має високу комерційну цінність. Наприклад, якщо цей проект із відкритим кодом застосовувати до звітів про бізнес-аналіз, він все ще може заощадити багато часу. По-друге, перетворити цей проект з відкритим кодом на ШІ для поглиблене написання контенту - агенти також повністю змінять структуру медіаіндустрії контенту;
адреса проекту:
Екологія інфраструктури AI-Agents
Очевидне майбутнє полягає в тому, що відносини співпраці між людьми в майбутньому — це вже не відносини співпраці між людьми та людьми, а відносини співпраці між людьми та ШІ-агентами, і кожен матиме якомога більше ШІ-агентів. Агенти допомагають собі самі виконувати якомога більше завдань, таким чином формуючи велику та складну інтелектуальну структуру соціальної співпраці;**
Відносини співпраці між людьми та агентами відрізняються від теорії співпраці людей та інструментів у попередніх теоріях соціальних наук. Ключовим є те, що агенти, як свого роду людиноподібний інтелект, мають певні незалежні можливості приймати рішення та довіряють людям Агенти також стали ключовим питанням, не кажучи вже про самосвідомість агентів, а про вплив агентів на поведінку соціальної взаємодії під час прийняття рішень замість людей.
Виходячи з розгляду двох наведених вище пропозицій, ми повинні усвідомити, що люди можуть створювати своїх власних агентів ШІ ефективно та зручно, дозволяючи своїм власним агентам мати більш потужні можливості, і в той же час агенти Надання підтримки невіддільне від хорошої інфраструктури. Запровадження наступних трьох проектів, я думаю, представляє напрямок будівництва майбутньої інфраструктури AI-Agents;
langchain
LangChain — це основа розробки додатків на основі мовної моделі. Він може виконувати такі функції
З урахуванням даних: підключіть мовні моделі до інших джерел даних
Агент: дозволяє мовній моделі взаємодіяти з її середовищем.
Основна цінність LangChain полягає в:
Компонент: надає абстракції для роботи з мовними моделями та серію реалізацій для кожної абстракції. Ці компоненти є модульними та простими у використанні, незалежно від того, використовуєте ви решту фреймворку LangChain чи ні.
Готові ланцюжки: структурований набір компонентів для реалізації конкретних завдань високого рівня.
Готові ланцюги дозволяють швидко почати роботу. Для більш складних додатків і детальних випадків використання компоненти дозволяють легко налаштовувати існуючі ланцюжки або створювати нові.
langchain забезпечує стандартні розширювані інтерфейси та зовнішню інтеграцію, надаючи наступні модулі
Модель вводу/виводу: взаємодія інтерфейсу з мовною моделлю
З’єднання для передачі даних: взаємодія інтерфейсу з даними певної програми
*Агенти: дозвольте ланцюгу вибирати, які інструменти використовувати на основі інструкцій високого рівня. *
Пам'ять: зберігає стан програми між запусками ланцюжка. *
*Зворотні виклики Зворотні виклики: записуйте та транслюйте проміжні кроки будь-якого ланцюжка. *
Завдяки відносно активній екології розробників Langchain в англійській спільноті існує відносно багато випадків розробки додатків агентів за допомогою Langchain. Визначення структури агентів і створення структури розробки з нульовим кодом є тенденцією майбутнього.
Виробництво агентів, засноване на певній структурній системі, схоже на складання кубиків Lego. На відміну від модульної структури Web3, модулі агентів не обов’язково мають бути готовими, але звичайні люди також можуть розробляти окремі компоненти за допомогою програмування природною мовою Додано до фреймворку Агентів.
Наприклад, багато людей використовують фреймворк langchain для розробки чат-ботів, розробляють компонент перетворення тону за допомогою програмування на природній мові та додають його до чат-бота, а потім вихідний тон діалогу за замовчуванням можна змінити на тон діалогу, який відповідає власним уподобанням користувача.
Просвітлення, дане нам langchain, полягає в тому, що фреймворк розробки агентів для програмування без коду + компонентні модулі для програмування природною мовою можуть бути необхідним інструментом розробки для популяризації агентів.
Агенти-трансформери
Transformer Agents — це система AI-Agents, запущена hungging Face. Хоча поточна функція не дуже хороша, головна причина, чому ми повинні стежити за нею, полягає в тому, що huggingFace — це величезна бібліотека моделей спільноти з відкритим кодом.
Transformer Agents фактично базується на структурі Transformer, додаючи API на основі природної мови: huggingface визначає набір інструментів і розробляє агент для інтерпретації природної мови та використання цих інструментів. Найважливіше те, що ця система має розширюваний дизайн.
Тобто Transformer Agents використовували невелику кількість добре підготовлених проксі-інструментів на ранній стадії, щоб перевірити придатність цієї системи, а потім масштабованість означає, що Transformer Agents можуть вільно використовувати величезну бібліотеку інструментів моделі huggingface.
Я вважаю, що це рішення, створене в документі «HuggingGPT: вирішення завдань AI за допомогою ChatGPT і його друзів у Hugging Face», яке полягає в тому, щоб підключити величезну бібліотеку моделей через LLM для вирішення складних завдань у багатьох сферах і різними способами. Ця уява насправді дуже величезна. Перша бібліотека моделей штучного інтелекту, яка об’єднує першокласний людський інтелект, використовується у формі агентів для обслуговування складних завдань у різних галузях. Важко не сподіватися на таке майбутнє. **
Звичайно, це захоплююче реалізувати це бачення, але на поточному етапі я все ще з нетерпінням чекаю, що Transformer Agents зможе запропонувати вражаючу структуру агентів, щоб врахувати приплив розробників у цю екологію, яка містить величезні золоті копальні. Можливо, HuggingFace скорегував власну стратегію розвитку.
WebArena
**WebArena — це автономне веб-середовище для створення автономних агентів. **WebArena створює чотири популярні категорії веб-сайтів із функціями та даними, які імітують їх реальні аналоги.
Щоб імітувати вирішення проблем людиною, WebArena також вбудовує інструменти та ресурси знань як окремі веб-сайти. WebArena представляє тест для інтерпретації високорівневих команд природної мови реального світу в конкретних веб-взаємодіях. Дослідники надали анотовані програми для програмної перевірки функціональної коректності кожного завдання.
Огляд цитованих робіт:
«Поточні агенти в основному створюються та тестуються в спрощених синтетичних середовищах, які значною мірою обмежують представлення сценаріїв реального світу. У цій статті ми створюємо командно-контрольне середовище агента, яке є дуже реалістичним і відтворюваним. Зокрема, ми зосередилися на агенти, які виконують завдання в Інтернеті, і створили середовище, яке включає повнофункціональні веб-сайти в чотирьох загальних областях: електронна комерція, обговорення на соціальних форумах, спільна розробка програмного забезпечення та керування вмістом. Наше середовище багате та різноманітне, включаючи деякі інструменти (наприклад, карти ) і зовнішні бази знань (наприклад, посібники користувача), щоб заохотити розв’язувати завдання, схожі на людину.
Базуючись на нашому середовищі, ми публікуємо набір контрольних завдань, зосереджених на оцінці функціональної правильності виконання завдань. Завдання в нашому тесті різноманітні та охоплюють тривалий час, і розроблено для імітації завдань, які часто виконують люди в Інтернеті. Ми розробляємо та впроваджуємо кілька автономних агентів, інтегруючи найсучасніші методи, такі як «Думай, перш ніж діяти».
Результати показують, що розв’язувати складні завдання складно: наш найкращий агент на базі GPT-4 досягає лише 10,59 % успіху наскрізного виконання завдань. Ці результати підкреслюють необхідність подальшого розвитку потужних агентів, поточні найсучасніші мовні моделі далекі від досконалості для цих реальних завдань, і WebArena можна використовувати для вимірювання такого прогресу. "
Назва дисертації: WebArena: реалістичне веб-середовище для створення автономних агентів
Адреса дипломної роботи:
Це результат академічного дослідження дослідника штучного інтелекту з Carnegie Mellon. Насправді WebArena доповнює добре відому наразі архітектуру розробки Langchain або різні проекти, пов’язані з командою агентів. Нам потрібна тестова платформа моделювання агентів, яка використовується для забезпечення надійності та ефективність агентів.
Основною функцією цієї платформи є перевірка можливості реалізації різних проектів Агентів. Один із сценаріїв, який я можу навіть уявити, полягає в тому, що коли я найму Агента на певній платформі в майбутньому, ми використовуватимемо Агентів через платформу, як-от WebArena, для тестування реальна працездатність Агентів також означає, що люди мають право висловлюватись щодо цінових рішень Агентів ШІ.
**Як на все вплинуть AI-Agents? **
Автоматизована мережа для співпраці на основі агентів
Завдяки нашому представленню та аналізу понад дюжини проектів, наведених вище, ці різні проекти нагадують шматочки головоломки, що складають наше відносне загальне розуміння агентів. Агенти насправді є напрямком справжнього виявлення потенціалу LLM, а LLM є the center , агенти наділяють LLM руками та ногами. Завдяки функціональному різноманіттю агентів, керованих LLM, агенти будуть схожі на біологічний вибух, а люди та агенти стануть цифровим компаньйоном/симбіотичним розвитком.
Спільна мережа людського суспільства також сформує автоматизовану мережу співпраці між людьми та агентами завдяки широкомасштабному застосуванню агентів.Продукційна структура людського суспільства буде вдосконалена, і всі аспекти суспільства будуть вплинути та змінені;
Зміна всього в Інтернеті
AI-Agentи повністю змінили спосіб, у який ми отримуємо інформацію, обробляємо інформацію, створюємо інформацію та використовуємо інформацію в Інтернеті, а також змінили нашу поточну бізнес-модель, яка покладається на Інтернет. Інтелектуальна мережа з можливостями зв’язку та автономним/автоматичним виконанням Інтернет-агенти — це інтелектуальне середовище, з яким ми спілкуємося та виконуємо його.
Реформування наративу для Web3
Мережа зашифрованої валюти стане природною валютною мережею Агентів, а обчислювальні ресурси, які споживає вся мережа співпраці AI-Agents, зроблять Token важливим економічним ресурсом AI; право власності на персональні дані, представлене Web3, також зіткнеться з новою людиною-комп’ютером. взаємодія Серед них, абсолютно нова пропозиція про те, що люди та агенти штучного інтелекту мають спільні права власності на дані. Поява агентів із незалежними правами власності (радикальний рух за звільнення штучного інтелекту), DAO, повністю автоматизованих агентами штучного інтелекту, і суперособи монополізують більшість прав власності на мережеві дані та ефективні обчислювальні ресурси.
Рух за підтримку даних під хвилею Web3 повернув право власності на дані для кожного. Насправді більшість людей не обов’язково мають цінні ресурси даних. Повернення власності на дані стало політичним закликом наративізму Web3, але воно ігнорує AGI Виробнича структура є нерівною; агенти штучного інтелекту представляють собою те, що хоча штучний інтелект є надпродуктивним, він також будує нові виробничі відносини взаємодії людини та комп’ютера та автоматичної співпраці, що змушує нас змінювати наративну логіку Web3 ;
Прискорити будівництво метавсесвіту
Розробка та еволюція генеративних агентів, дослідження цифрових нативних цифрових мешканців і побудова ряду соціальних дій у середовищі метавсесвіту рідних цифрових людей (AI-агентів з особистісними характеристиками та автономною свідомістю) фактично прискорюють метавсесвіт. Всесвіт еволюціонував від цифрового простору до цифрової території з соціальними функціями та формами. Концепція обчислювального простору також дозволить Агентам отримати цифровий мультимодальний простір розробки, тим самим прискоривши появу втіленого інтелекту Агентів у цифровому середовищі.
Побудова метавсесвіту більше не є завданням людей, а завданням постійного саморозширення як життєвого простору AI-Agent;
Будьте обережні з викраденням оповіді однієї технології
Насправді, в останні роки різні технологічні гарячі точки з’являлися одна за одною, і, здається, людство вступило в період частих технологічних революцій.Насправді, три наративи Metaverse, Web3 і AGI з’явилися одна за одною, що призвело до справді створив багато для людей у виборі напрямків кар’єри. Через те, що більшість людей на ринку орієнтовані на проектне мислення, позиціонування самого проекту можна легко віднести до певної категорії, наприклад Web3 або AI Ось де дупа вирішує голова, ігноруючи технології Об'єктивний закон розвитку історії.
**Розвиток науки і техніки ніколи не був фрагментованим, а рухався до міждисциплінарної інтеграції в діалектичній єдності. **Наприклад, наративний атрибут NFT у Web3 природно відповідає наративу Метавсесвіту. На початку Web3 деякі люди свідомо протиставляли ці два аспекти. Це дуже вузькі перспективи. Те саме стосується і сьогоднішнього наративу AGI. Практики Web3 знають лише інструменти штучного інтелекту, але не замислюються глибоко про логіку розповіді AGI. Вони навмисно створюватимуть когнітивний опір між штучним інтелектом і Web3. Наприклад, багато людей Web3 розуміють DAO у оригінальний Мало хто має сміливість зупинитися та переосмислити вплив AGI на DAO.
Web3, Metaverse та AGI – це три тісно пов’язані напрямки. Традиційні мейнстрімові технологічні медіа-організації чи інвестиційні установи ще не створили нову концепцію парадигми для майбутніх технологічних наративів і використовують старі наративні парадигми, щоб впливати на ринок. Ресурси науки та Практики технологій у цьому напрямку розпорошені, а їхні ідеї недостатньо відкриті. Ми не виключаємо, що нові технологічні наративи продовжуватимуть з’являтися в майбутньому, але якщо стара парадигма технологічних наративів продовжуватиметься, ресурси наукових і технологічних талантів будуть лише розщеплюватися та розсіюватися знову і знову.Стара парадигма технологічного пізнання є відпрацьованим ресурсом невидимих речей.
Ключове питання, з яким зараз стикається вся китайська технологічна індустрія, полягає в тому, що таке технологія? Не вистачає нових наративних парадигм і нових наративних концепцій, які б скеровували нас, щоб краще впоратися з наступною хвилею технологій. Ми завжди занурені в проекти, але нам не вистачає наративів, які могли б сконцентрувати силу науки та технологій.Три основні наративи Web3, Metaverse та AGI не виникли в Китаї.
Я справді з нетерпінням чекаю початку ери, коли сотні квітів розквітають і сотні шкіл думки змагаються в наукових і технологічних наративах. Нам терміново потрібно сформувати нове розуміння технологічних наративів, щоб ми могли знайти правильний шлях для розвитку та визначити нашу позицію щодо сталого розвитку в усій технологічній екосистемі.
Звісно, апеляція сама по собі марна, і комусь все одно потрібно це робити, тому я зроблю це першим, і я довго терпів ці однотехнологічні наративні роздуми!
Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
10 представників AI-Agents, як змінять Інтернет / Web3
ДЖЕРЕЛО: ВІОН ВІЛЬЯМС
Досліджуйте інноваційні можливості AI-Agents
Консенсус і неконсенсус AI-Agents
Причина, чому агенти штучного інтелекту стали напрямком, який привертає все більше уваги, значною мірою пов’язана з тим, що LLM забезпечує можливий шлях технічної реалізації для застосування агентів штучного інтелекту, а по-друге, існує багато проектів, пов’язаних із агентами штучного інтелекту. .замкнути.
Хоча LiLian Weng у своїй статті визначає, що таке LLM-керовані AI-агенти? Але Deepmind також намагається визначити концепцію єдиного агента. Я вважаю, що концепція AI-Agents також сформує різні типи диференціації з розумінням різних компаній AI.
Більш чіткий ключовий консенсус полягає в тому, що на основі агентів, керованих LLM, для реалізації автоматичної обробки загальних проблем, саме агенти штучного інтелекту ми визначили в цьому циклі вибуху великомасштабної мовної моделі та сформували спільне розуміння.
Знайти можливість із кореляції агентів
На прикладному рівні AI-Agents, на поточному етапі, ми повинні дивитися на AI-Agents з точки зору «релевантності», наскільки це можливо, тобто ми повинні бути терпимими до проб і помилок і інноваційним у можливих формах. Можливість**, ви не повинні шукати стандартизовану відповідь у вузькій позиції, як деякі критики, це не рекомендується.
Наприклад, Auto-GTP як можливість насправді надихнула багато проектів агентів, але вузька критика втратить можливість захопити нові можливості, що є поширеним явищем серед китайських розробників. Як розробник без креативності, як ви будете покладатися на свою традиційну конкурентоспроможність в епоху програмування природною мовою?
Незважаючи на те, що існує багато вступів щодо проектів, пов’язаних із AI-Agents, я вважаю, що існує проблема однорідного списку та вступу. Цей вміст дає нам знати, які проекти належать до напрямку AI-Agents, але немає пов’язаних із природою, він показує потенціал AI-Agents у різних сферах застосування та екологічну позицію певних типів AI-Agents проектів.
Наприклад, у моєму вступі Auto-GPT, BabayAGI та MetaGPT я буду класифікувати як один тип екології, оскільки вони мають безперервність певного шляху;
Побудова цілісного пізнання в головоломці Агентів
Загалом, у представленні репрезентативних проектів про AI-Agents я використав точки зору «релевантності», «екологічної позиції» та «безперервності», щоб представити репрезентативні проекти, щоб ми могли нечітко бачити майбутній розвиток тренд AI-агентів.
З’являються наступні 10 репрезентативних пов’язаних проектів, у тому числі деякі пов’язані довідкові проекти. Я використаю цей випадок як пазл, щоб скласти відносно повну карту, якої достатньо, щоб більше людей чітко усвідомили, як потенціал агентів може змінити все в Інтернеті Включаючи зміну ландшафту Web3.
Два основні напрямки майбутнього AI-Agents
AI-Agents можна грубо розділити на два напрямки: **Автономні агенти та генеративні агенти. **
Автономні агенти беруть як приклад Auto-GPT, який представляє здатність автоматично виконувати різноманітні завдання для досягнення цільових результатів за допомогою описів вимог природною мовою. У цих відносинах співпраці автономні агенти служать людям і мають чіткі атрибути інструментів;
Generative Agents бере за приклад віртуальне місто з 25 інтелектуальних агентів, опубліковане Стенфордом. Generative Agents, як агенти ШІ з особистісними характеристиками, здатністю автономного прийняття рішень і довготривалою пам’яттю, більше схиляються до концепції У цих взаємовідносинах спільної роботи Агенти мають цифрові рідні соціальні відносини, а не просто інструменти для обслуговування людей;
Автоматичний GPT
Один із найвідоміших проектів з відкритим кодом Auto-GPT, його презентація на GitHub дуже проста: «Експериментальна спроба з відкритим кодом зробити GPT-4 повністю автономним». Експериментальна спроба з відкритим кодом зробити GPT-4 повністю автономним. автономний .
Короткий підсумок полягає в тому, що Auto-GTP може повністю автоматизувати кінцевий результат завдання за допомогою вимоги до завдання, що складається з одного речення; основна логіка здатності Auto-GPT виконувати завдання незалежно лежить у здатності мовної моделі планувати завдання за допомогою завдання Carry поетапне розбирання та аналіз, а також автоматично вдосконалювати кроки виконання завдання. У процесі результати пошуку в Інтернеті будуть передані назад до мовної моделі, а завдання буде далі розібрано та виконано.
Якщо використовувати популярну народну мову як метафору, **Auto-GPT виконав завдання в процесі «самоопитування та самовідповіді», без потреби людей надавати підказки. **
адреса проекту:
**BabyAGI може автоматично створювати, сортувати та виконувати нові завдання на основі результатів попередніх завдань і наших попередньо встановлених цілей. **Він використовує технологію обробки природної мови для створення нових завдань на основі цілей і збереження результатів завдань у базі даних, щоб за потреби можна було знайти відповідну інформацію.
BabyAGI насправді є сценарієм Python, який запускає нескінченний цикл для виконання наступних кроків:
І Auto-GPT, і BabyAGI теоретично являють собою початковий період нашого поточного спалаху LLM.Наше дослідження AGI на основі LLM і процесора загального призначення для вирішення завдань, керованого LLM, є, на мою думку, святим Граалем у галузі штучного інтелекту. Агенти в майбутньому.
Генератори
Стаття «Генеративні агенти: інтерактивні симулякри людської поведінки», опублікована Стенфордським університетом і дослідниками Google, уже є дуже відомим проектом AI-Agent. Загалом, це дослідження помістило 25 агентів AI у віртуальну малу віртуальну мережу у стилі пікселів. , інтелектуальні агенти можуть реалізувати змодельовану взаємодію життєвої поведінки людини, а також можуть взаємодіяти з середовищем віртуального міста, а також можуть взаємодіяти з людьми поза віртуальним світом. **
У цьому документі є два ключових рішення, які найбільше варті нашої уваги:
1, Архітектура генераторного агента
2, потік пам'яті
Виходячи з двох вищезазначених ключових компонентів, фактично загальна поведінка генеративного агента поділяється на три частини: [пам’ять і пошук] [рефлексія] [планування та реакція]. Для отримання додаткової інформації зверніться до змісту оригінальної статті .
Ця стаття та цей експеримент підтвердили, що можна довіряти інтерактивній поведінці, створеній агентом, сформованим на основі LLM, для моделювання поведінки людської взаємодії в цифровому середовищі. Генеративний агент може відігравати важливу роль у багатьох цифрових середовищах, особливо створених Це взаємодія між людиною та комп’ютером, сформована між людьми та людьми.
Що ми можемо найбільш інтуїтивно відчути, так це те, що генеративний агент створюється як роль рідного цифрового мешканця метавсесвіту та створює різні взаємодії з середовищем людського метавсесвіту. Фактично, ми можемо симулювати високорозвинений цифровий віртуальний світ AI-Agents, і люди можуть витягувати з цього світу цифрові результати праці AI-Agents;
Як агенти стають робочими партнерами
Оскільки цього разу агенти перекладаються як «агенти» в багатьох контекстах, агенти легко асоціюються з поняттям ролі посередника, що ускладнює для багатьох людей інтуїтивне встановлення зв’язку із застосуванням сцени агентів; у цих трьох випадках відповідно Він показує, як Агенти можуть стати «людьми-експертами», яких можна найняти, автоматизованою маркетинговою компанією, яка взагалі не вимагає людської участі, і як Агенти формують команду для співпраці один з одним.
У наступному прикладі ми можемо використовувати NexusGPT для створення кількох експертів, а GPTeam — для формування команди, яку наймають люди, і ця команда AI працює в повністю автоматизованій компанії, такій як AutoCorp. Коли ми складаємо ці частини пазла, ми можемо інтуїтивно відчути, що майбутнє настало;
NexusGPT
Це так звана перша у світі платформа позаштатного AI, створена незалежним розробником Assem. NexusGPT базується на фреймворку LangChainAI, використовує API GPT-3.5 і Chroma (вбудовану базу даних з відкритим вихідним кодом на основі штучного інтелекту) на платформі NexuseGPT з більш ніж вісімсот агентів ШІ зі спеціальними навичками.
Але всі вони покладаються на підтримку викликів функцій OpenAI і LangchainAI;
NexusGPT представляє майбутню бізнес-модель для найму агентів. Цей проект насправді має багато можливостей для вдосконалення, наприклад поєднання агентів і експертних модулів (експертної системи та експертної моделі). Метод ціноутворення Сторони А для найму агентів на основі розрахунку споживання токенів тощо, це змінить наш традиційний спосіб найму на ринку праці, а також змінить спосіб співпраці DAO;
AutoCorp
Створено за 5 годин AutoCorpmina fahmi та їх командою під час хакатону GPT/LLM у Нью-Йорку. AutoCorp є повністю незалежною компанією з маркетингу брендів. AutoCorp автоматично створюватиме рекламу брендів і дизайн продуктів для компанії, яка безпосередньо продає футболки. Коли клієнти виявлятимуть нові споживчі потреби, AutoCorp оновлюватиме свою тему та створюватиме нові ресурси дизайну. Безперервна самоітерація до кращого напрямку бізнесу.
Цей абзац цитується з твіттера Міни Фахмі, і AutoCorp також була створена Міною Фахмі та їхньою командою під час хакатону GPT/LLM у Нью-Йорку за 5 годин, і їхньою метою створення AutoCorp є просування концепції «автономії» до крайність.
Насправді мета AutoCorp і DAO дуже узгоджується.**Якщо кінцевою метою децентралізованої організації є усунення «людського» фактора, то повна автоматизація виробничих операцій насправді є розумною привабливістю для розвитку концепції DAO. **AutoCorp фактично представляє майбутній напрямок розвитку бізнесу DAO.
GPTeam
GPTeam — це багатоагентна система моделювання з відкритим кодом. GPTeam використовує GPT-4 для створення кількох агентів, які співпрацюють для досягнення заздалегідь визначених цілей. Основна мета цього проекту — дослідити потенціал моделей GPT у покращенні мультиагентної продуктивності та ефективної комунікації.
адреса проекту:
Насправді існує ще багато проектів з відкритим кодом, таких як GPTeam, наприклад Dev-GPT, автоматизована команда розробників, яка створює індивідуальні мікросервіси для користувачів. Команда складається з трьох віртуальних ролей: менеджера продукту, розробника та оператора та технічного обслуговування розробки. Технічна ідея Dev-GPT полягає в основному у визначенні та тестуванні ефективних стратегій виконання завдань. Якщо він зазнає невдачі 10 разів поспіль, він переключиться до наступного методу.
Усе це змушує мене думати про DAO, автоматизовану організацію для спільної роботи, засновану на автоматизованій логіці управління;
Як агенти замінюють повторювану роботу
Перш ніж штучний інтелект повністю замінить нашу роботу, агенти замінять більшість нашої поточної повторюваної праці – це наступний напрямок розвитку агентів у сфері бізнесу. До появи агентів на базі LLM RPA (автоматизація процесів роботів) була першим пошуковим рішенням у галузі, але Традиційний RPA має високий поріг і не може бути популяризований серед громадськості. RPA є засобом від відсутності автоматизації традиційної логіки взаємодії ІТ, і поточні агенти можуть спілкуватися природною мовою для реалізації функції RPA.
Наступні два проекти показують нам, як LLM-агенти допоможуть нам звільнитися від повторюваної праці в нашій щоденній роботі та академічних дослідженнях. (Насправді, потенціал цих двох проектів більший, ніж це)
Cheat Layer
«Автоматизуйте свій бізнес, використовуючи природну мову», використовуючи природну мову для автоматизації свого бізнесу, це слоган бренду Cheat Layere. Рівень чітів вирішує неможливі проблеми автоматизації бізнесу за допомогою спеціально навчених моделей машинного навчання GPT-4, які слугують інженерами програмного забезпечення ШІ для кожного користувача.
Cheat Layer автоматизує роботу всієї веб-сторінки через режим плагіна Google Chrome і використовує природну мову. Наприклад, більшість наших рутинних операцій на веб-сторінці насправді можуть виконуватися автоматично. Cheat Layer легко нагадує RPA, тобто роботизовану автоматизацію процесів. Було багато дискусій про відносини між Агентами та RPA. Беззаперечним фактом є те, що традиційні RPA були ліквідовані Агентами.
Використовуйте природну мову через Cheat Layer для налаштування автоматизації бізнес-процесів і використовуйте агенти Project Atlas для керування різними процесами автоматизації. Загалом, ми можемо використовувати режим природної мови для створення агентів для керування автоматизованим виконанням певного бізнесу, як складність бізнесу зростає, ми можемо неодноразово вдосконалювати агентів.
Дослідник GPT
GPT Researcher — це автономний агент на базі GPT, здатний проводити онлайн-дослідження на будь-яку задану тему. Представлення проекту на Github:
«Агент здатний генерувати докладні, об’єктивні та неупереджені звіти про дослідження з параметрами налаштування, щоб зосередитися на відповідних ресурсах, планах і уроках. Натхненний AutoGPT і нещодавньою статтею Plan and Solve, GPT Researcher вирішує проблеми швидкості та детермінізму. , розпаралелюючи роботу агента, а не синхронні операції, забезпечуючи більш стабільну продуктивність і вищу швидкість».
Архітектура GPT Researcher в основному виконується за допомогою двох агентів, **один є «планувальником», а інший — «виконавцем»; **Планувальник відповідає за генерування запитань для дослідження, тоді як виконавець базується на дослідженні запитання, створені планувальником. Знайти релевантну інформацію, нарешті відфільтрувати та узагальнити всю релевантну інформацію за допомогою планувальника, а потім створити звіт про дослідження;
Створіть набір дослідницьких запитань, які разом формують об’єктивну думку щодо будь-якого завдання.
Для кожного досліджуваного питання запустіть агента сканера, щоб отримати інформацію, що стосується даного завдання, з онлайн-ресурсів.
Для кожного просканованого ресурсу підсумуйте на основі відповідної інформації та відстежте його джерело.
Нарешті, усі узагальнені ресурси перевіряються та агрегуються, і створюється остаточний звіт про дослідження.
Особливості цього проекту
Зробіть дослідження, плани, ресурси та звіти про отримані уроки
Кожне дослідження об’єднує понад 20 інтернет-джерел для формування об’єктивних і фактичних висновків
Включає простий у використанні веб-інтерфейс (HTML/CSS/JS)
Веб-збирання з підтримкою Java
Реєстрація та відстеження контекстної інформації про відвідані та використані веб-джерела
Експортуйте звіти про дослідження у такі формати, як PDF...
Хоча GPT Researcher є академічним дослідницьким інструментом, заснованим на GPT, і це проект з відкритим кодом для академічних цілей за ліцензією MIT. З точки зору створення контенту, цей відкритий код має високу комерційну цінність. Наприклад, якщо цей проект із відкритим кодом застосовувати до звітів про бізнес-аналіз, він все ще може заощадити багато часу. По-друге, перетворити цей проект з відкритим кодом на ШІ для поглиблене написання контенту - агенти також повністю змінять структуру медіаіндустрії контенту;
адреса проекту:
Екологія інфраструктури AI-Agents
Очевидне майбутнє полягає в тому, що відносини співпраці між людьми в майбутньому — це вже не відносини співпраці між людьми та людьми, а відносини співпраці між людьми та ШІ-агентами, і кожен матиме якомога більше ШІ-агентів. Агенти допомагають собі самі виконувати якомога більше завдань, таким чином формуючи велику та складну інтелектуальну структуру соціальної співпраці;**
Відносини співпраці між людьми та агентами відрізняються від теорії співпраці людей та інструментів у попередніх теоріях соціальних наук. Ключовим є те, що агенти, як свого роду людиноподібний інтелект, мають певні незалежні можливості приймати рішення та довіряють людям Агенти також стали ключовим питанням, не кажучи вже про самосвідомість агентів, а про вплив агентів на поведінку соціальної взаємодії під час прийняття рішень замість людей.
Виходячи з розгляду двох наведених вище пропозицій, ми повинні усвідомити, що люди можуть створювати своїх власних агентів ШІ ефективно та зручно, дозволяючи своїм власним агентам мати більш потужні можливості, і в той же час агенти Надання підтримки невіддільне від хорошої інфраструктури. Запровадження наступних трьох проектів, я думаю, представляє напрямок будівництва майбутньої інфраструктури AI-Agents;
langchain
LangChain — це основа розробки додатків на основі мовної моделі. Він може виконувати такі функції
З урахуванням даних: підключіть мовні моделі до інших джерел даних
Агент: дозволяє мовній моделі взаємодіяти з її середовищем.
Основна цінність LangChain полягає в:
Компонент: надає абстракції для роботи з мовними моделями та серію реалізацій для кожної абстракції. Ці компоненти є модульними та простими у використанні, незалежно від того, використовуєте ви решту фреймворку LangChain чи ні.
Готові ланцюжки: структурований набір компонентів для реалізації конкретних завдань високого рівня.
Готові ланцюги дозволяють швидко почати роботу. Для більш складних додатків і детальних випадків використання компоненти дозволяють легко налаштовувати існуючі ланцюжки або створювати нові.
langchain забезпечує стандартні розширювані інтерфейси та зовнішню інтеграцію, надаючи наступні модулі
Модель вводу/виводу: взаємодія інтерфейсу з мовною моделлю
З’єднання для передачі даних: взаємодія інтерфейсу з даними певної програми
Ланцюжки ланцюжків: побудуйте послідовність викликів
*Агенти: дозвольте ланцюгу вибирати, які інструменти використовувати на основі інструкцій високого рівня. *
*Зворотні виклики Зворотні виклики: записуйте та транслюйте проміжні кроки будь-якого ланцюжка. *
Завдяки відносно активній екології розробників Langchain в англійській спільноті існує відносно багато випадків розробки додатків агентів за допомогою Langchain. Визначення структури агентів і створення структури розробки з нульовим кодом є тенденцією майбутнього.
Виробництво агентів, засноване на певній структурній системі, схоже на складання кубиків Lego. На відміну від модульної структури Web3, модулі агентів не обов’язково мають бути готовими, але звичайні люди також можуть розробляти окремі компоненти за допомогою програмування природною мовою Додано до фреймворку Агентів.
Наприклад, багато людей використовують фреймворк langchain для розробки чат-ботів, розробляють компонент перетворення тону за допомогою програмування на природній мові та додають його до чат-бота, а потім вихідний тон діалогу за замовчуванням можна змінити на тон діалогу, який відповідає власним уподобанням користувача.
Просвітлення, дане нам langchain, полягає в тому, що фреймворк розробки агентів для програмування без коду + компонентні модулі для програмування природною мовою можуть бути необхідним інструментом розробки для популяризації агентів.
Агенти-трансформери
Transformer Agents — це система AI-Agents, запущена hungging Face. Хоча поточна функція не дуже хороша, головна причина, чому ми повинні стежити за нею, полягає в тому, що huggingFace — це величезна бібліотека моделей спільноти з відкритим кодом.
Transformer Agents фактично базується на структурі Transformer, додаючи API на основі природної мови: huggingface визначає набір інструментів і розробляє агент для інтерпретації природної мови та використання цих інструментів. Найважливіше те, що ця система має розширюваний дизайн.
Тобто Transformer Agents використовували невелику кількість добре підготовлених проксі-інструментів на ранній стадії, щоб перевірити придатність цієї системи, а потім масштабованість означає, що Transformer Agents можуть вільно використовувати величезну бібліотеку інструментів моделі huggingface.
Звичайно, це захоплююче реалізувати це бачення, але на поточному етапі я все ще з нетерпінням чекаю, що Transformer Agents зможе запропонувати вражаючу структуру агентів, щоб врахувати приплив розробників у цю екологію, яка містить величезні золоті копальні. Можливо, HuggingFace скорегував власну стратегію розвитку.
WebArena
**WebArena — це автономне веб-середовище для створення автономних агентів. **WebArena створює чотири популярні категорії веб-сайтів із функціями та даними, які імітують їх реальні аналоги.
Щоб імітувати вирішення проблем людиною, WebArena також вбудовує інструменти та ресурси знань як окремі веб-сайти. WebArena представляє тест для інтерпретації високорівневих команд природної мови реального світу в конкретних веб-взаємодіях. Дослідники надали анотовані програми для програмної перевірки функціональної коректності кожного завдання.
Огляд цитованих робіт:
«Поточні агенти в основному створюються та тестуються в спрощених синтетичних середовищах, які значною мірою обмежують представлення сценаріїв реального світу. У цій статті ми створюємо командно-контрольне середовище агента, яке є дуже реалістичним і відтворюваним. Зокрема, ми зосередилися на агенти, які виконують завдання в Інтернеті, і створили середовище, яке включає повнофункціональні веб-сайти в чотирьох загальних областях: електронна комерція, обговорення на соціальних форумах, спільна розробка програмного забезпечення та керування вмістом. Наше середовище багате та різноманітне, включаючи деякі інструменти (наприклад, карти ) і зовнішні бази знань (наприклад, посібники користувача), щоб заохотити розв’язувати завдання, схожі на людину.
Базуючись на нашому середовищі, ми публікуємо набір контрольних завдань, зосереджених на оцінці функціональної правильності виконання завдань. Завдання в нашому тесті різноманітні та охоплюють тривалий час, і розроблено для імітації завдань, які часто виконують люди в Інтернеті. Ми розробляємо та впроваджуємо кілька автономних агентів, інтегруючи найсучасніші методи, такі як «Думай, перш ніж діяти».
Результати показують, що розв’язувати складні завдання складно: наш найкращий агент на базі GPT-4 досягає лише 10,59 % успіху наскрізного виконання завдань. Ці результати підкреслюють необхідність подальшого розвитку потужних агентів, поточні найсучасніші мовні моделі далекі від досконалості для цих реальних завдань, і WebArena можна використовувати для вимірювання такого прогресу. "
Адреса дипломної роботи:
Це результат академічного дослідження дослідника штучного інтелекту з Carnegie Mellon. Насправді WebArena доповнює добре відому наразі архітектуру розробки Langchain або різні проекти, пов’язані з командою агентів. Нам потрібна тестова платформа моделювання агентів, яка використовується для забезпечення надійності та ефективність агентів.
Основною функцією цієї платформи є перевірка можливості реалізації різних проектів Агентів. Один із сценаріїв, який я можу навіть уявити, полягає в тому, що коли я найму Агента на певній платформі в майбутньому, ми використовуватимемо Агентів через платформу, як-от WebArena, для тестування реальна працездатність Агентів також означає, що люди мають право висловлюватись щодо цінових рішень Агентів ШІ.
**Як на все вплинуть AI-Agents? **
Автоматизована мережа для співпраці на основі агентів
Завдяки нашому представленню та аналізу понад дюжини проектів, наведених вище, ці різні проекти нагадують шматочки головоломки, що складають наше відносне загальне розуміння агентів. Агенти насправді є напрямком справжнього виявлення потенціалу LLM, а LLM є the center , агенти наділяють LLM руками та ногами. Завдяки функціональному різноманіттю агентів, керованих LLM, агенти будуть схожі на біологічний вибух, а люди та агенти стануть цифровим компаньйоном/симбіотичним розвитком.
Спільна мережа людського суспільства також сформує автоматизовану мережу співпраці між людьми та агентами завдяки широкомасштабному застосуванню агентів.Продукційна структура людського суспільства буде вдосконалена, і всі аспекти суспільства будуть вплинути та змінені;
Зміна всього в Інтернеті
AI-Agentи повністю змінили спосіб, у який ми отримуємо інформацію, обробляємо інформацію, створюємо інформацію та використовуємо інформацію в Інтернеті, а також змінили нашу поточну бізнес-модель, яка покладається на Інтернет. Інтелектуальна мережа з можливостями зв’язку та автономним/автоматичним виконанням Інтернет-агенти — це інтелектуальне середовище, з яким ми спілкуємося та виконуємо його.
Реформування наративу для Web3
Мережа зашифрованої валюти стане природною валютною мережею Агентів, а обчислювальні ресурси, які споживає вся мережа співпраці AI-Agents, зроблять Token важливим економічним ресурсом AI; право власності на персональні дані, представлене Web3, також зіткнеться з новою людиною-комп’ютером. взаємодія Серед них, абсолютно нова пропозиція про те, що люди та агенти штучного інтелекту мають спільні права власності на дані. Поява агентів із незалежними правами власності (радикальний рух за звільнення штучного інтелекту), DAO, повністю автоматизованих агентами штучного інтелекту, і суперособи монополізують більшість прав власності на мережеві дані та ефективні обчислювальні ресурси.
Рух за підтримку даних під хвилею Web3 повернув право власності на дані для кожного. Насправді більшість людей не обов’язково мають цінні ресурси даних. Повернення власності на дані стало політичним закликом наративізму Web3, але воно ігнорує AGI Виробнича структура є нерівною; агенти штучного інтелекту представляють собою те, що хоча штучний інтелект є надпродуктивним, він також будує нові виробничі відносини взаємодії людини та комп’ютера та автоматичної співпраці, що змушує нас змінювати наративну логіку Web3 ;
Прискорити будівництво метавсесвіту
Розробка та еволюція генеративних агентів, дослідження цифрових нативних цифрових мешканців і побудова ряду соціальних дій у середовищі метавсесвіту рідних цифрових людей (AI-агентів з особистісними характеристиками та автономною свідомістю) фактично прискорюють метавсесвіт. Всесвіт еволюціонував від цифрового простору до цифрової території з соціальними функціями та формами. Концепція обчислювального простору також дозволить Агентам отримати цифровий мультимодальний простір розробки, тим самим прискоривши появу втіленого інтелекту Агентів у цифровому середовищі.
Побудова метавсесвіту більше не є завданням людей, а завданням постійного саморозширення як життєвого простору AI-Agent;
Будьте обережні з викраденням оповіді однієї технології
Насправді, в останні роки різні технологічні гарячі точки з’являлися одна за одною, і, здається, людство вступило в період частих технологічних революцій.Насправді, три наративи Metaverse, Web3 і AGI з’явилися одна за одною, що призвело до справді створив багато для людей у виборі напрямків кар’єри. Через те, що більшість людей на ринку орієнтовані на проектне мислення, позиціонування самого проекту можна легко віднести до певної категорії, наприклад Web3 або AI Ось де дупа вирішує голова, ігноруючи технології Об'єктивний закон розвитку історії.
**Розвиток науки і техніки ніколи не був фрагментованим, а рухався до міждисциплінарної інтеграції в діалектичній єдності. **Наприклад, наративний атрибут NFT у Web3 природно відповідає наративу Метавсесвіту. На початку Web3 деякі люди свідомо протиставляли ці два аспекти. Це дуже вузькі перспективи. Те саме стосується і сьогоднішнього наративу AGI. Практики Web3 знають лише інструменти штучного інтелекту, але не замислюються глибоко про логіку розповіді AGI. Вони навмисно створюватимуть когнітивний опір між штучним інтелектом і Web3. Наприклад, багато людей Web3 розуміють DAO у оригінальний Мало хто має сміливість зупинитися та переосмислити вплив AGI на DAO.
Web3, Metaverse та AGI – це три тісно пов’язані напрямки. Традиційні мейнстрімові технологічні медіа-організації чи інвестиційні установи ще не створили нову концепцію парадигми для майбутніх технологічних наративів і використовують старі наративні парадигми, щоб впливати на ринок. Ресурси науки та Практики технологій у цьому напрямку розпорошені, а їхні ідеї недостатньо відкриті. Ми не виключаємо, що нові технологічні наративи продовжуватимуть з’являтися в майбутньому, але якщо стара парадигма технологічних наративів продовжуватиметься, ресурси наукових і технологічних талантів будуть лише розщеплюватися та розсіюватися знову і знову.Стара парадигма технологічного пізнання є відпрацьованим ресурсом невидимих речей.
Ключове питання, з яким зараз стикається вся китайська технологічна індустрія, полягає в тому, що таке технологія? Не вистачає нових наративних парадигм і нових наративних концепцій, які б скеровували нас, щоб краще впоратися з наступною хвилею технологій. Ми завжди занурені в проекти, але нам не вистачає наративів, які могли б сконцентрувати силу науки та технологій.Три основні наративи Web3, Metaverse та AGI не виникли в Китаї.
Я справді з нетерпінням чекаю початку ери, коли сотні квітів розквітають і сотні шкіл думки змагаються в наукових і технологічних наративах. Нам терміново потрібно сформувати нове розуміння технологічних наративів, щоб ми могли знайти правильний шлях для розвитку та визначити нашу позицію щодо сталого розвитку в усій технологічній екосистемі.
Звісно, апеляція сама по собі марна, і комусь все одно потрібно це робити, тому я зроблю це першим, і я довго терпів ці однотехнологічні наративні роздуми!