Під керівництвом команди Tsinghua вийшов перший систематичний порівняльний тест агента ШІ

2023-08-09 02:18:36

Агенти штучного інтелекту або автономні інтелектуальні агенти є не лише суперпомічниками людини в науково-фантастичних фільмах, таких як Джарвіс, але також є гарячою точкою досліджень у сфері штучного інтелекту в реальному світі. Зокрема, поява великих моделей ШІ, представлених GPT-4, висунула концепцію агентів ШІ на передній план технологій.

У раніше популярному Стенфордському «віртуальному місті» 25 агентів штучного інтелекту вільно розвивалися у віртуальному місті та влаштовували вечірку до Дня святого Валентина; втілена модель агента «Вояджер», запропонована Nvidia та інші, також вивчала «Мій світ» Різні навички виживання створили власні Крім того, AutoGPT, BabyAGI і AgentGPT, які можуть виконувати завдання самостійно, також викликали широкий інтерес і бурхливі дискусії серед громадськості.

Навіть Андрій Карпаті, колишній директор Tesla AI, який повертається до OpenAI, розповів на заході для розробників, що щоразу, коли з’явиться новий документ агента AI, OpenAI буде дуже зацікавлений і серйозно обговорюватиме його**.

Незважаючи на те, що поточні дослідження агентів штучного інтелекту надзвичайно гарячі, На даний момент індустрії штучного інтелекту не вистачає систематичного та стандартизованого тесту для оцінки рівня інтелекту LLM як агентів.

З цією метою дослідницька група з Університету Цінхуа, Університету штату Огайо та Університету Каліфорнії в Берклі запропонувала перший систематичний порівняльний тест – AgentBench, щоб оцінити LLM як агентів у різноманітних реальних викликах і продуктивності (таких як навички міркування та прийняття рішень) у 8 різних середовищах.

Результати показують, що найкращі моделі комерційних мов, такі як GPT-4, добре працюють у складних середовищах, маючи значну перевагу між моделями з відкритим кодом. З цією метою дослідницька група припускає, що необхідні подальші зусилля для покращення можливостей навчання LLM з відкритим кодом.

Пов’язану дослідницьку статтю під назвою «AgentBench: uating LLMs as Agents» було опубліковано на веб-сайті препринтів arXiv. Крім того, Пов’язані набори даних, середовища та інтегровані пакети оцінки також опубліковано на GitHub.

Перший систематичний тест

У попередніх дослідженнях і практиці текстові ігрові середовища використовувалися для оцінки мовної волі. Однак вони часто обмежені закритими дискретними просторами дій, і їхня увага зосереджена головним чином на можливостях моделей, заснованих на здоровому глузді.

Деякі нещодавні спроби втілених агентів використовують складні мультимодальні симулятори, засновані на іграх, графічних інтерфейсах користувача (GUI) і сценах у приміщенні. Однак, незважаючи на складність цих симуляторів, вони не можуть точно відобразити використання LLM у реальних випадках використання, а їх мультимодальний характер також створює перешкоди для швидкої оцінки LLM з простим текстом.

Крім того, більшість контрольних тестів агентів зосереджено на одному середовищі, що обмежує їхню здатність надавати повний огляд LLM у різних прикладних сценаріях.

У цій роботі дослідницька група працювала над операційною системою (ОС), базою даних (БД), графіком знань (KG), картковою грою (DCG), вгадуванням сценарію (LTP), домашніми меблями (Alfworld), онлайн-магазинами (WebShop) ) і перегляд веб-сторінок (Mind2Web) ** 25 різних мовних моделей (як на основі API, так і моделі з відкритим кодом) були всебічно оцінені за допомогою AgentBench у 8 різних завданнях середовища.

Результати випробувань показують, що найсучасніші моделі, такі як GPT-4, здатні вирішувати широкий спектр реальних завдань, тоді як більшість LLM з відкритим кодом працюють набагато гірше, ніж LLM на основі API в AgentBench; навіть, найздатніший Існує також значна різниця в продуктивності між моделлю з відкритим кодом openchat-13b-v3.2 і gpt-3.5-turbo.

Незважаючи на те, що завдяки інтенсивному навчанню вирівнювання, LLM можуть не лише освоїти традиційні завдання НЛП, такі як відповіді на запитання, міркування природною мовою та резюмування тексту, але й продемонструвати здатність розуміти людські наміри та виконувати інструкції, вони погано виконують завдання AgentBench, такі як Ефективність дій. , довгий контекст, узгодженість кількох раундів і навчання коду) продуктивність відносно відстає.

За словами дослідницької групи, потрібна додаткова робота в майбутньому для проведення більш ретельного та систематичного оцінювання, а також для забезпечення потужних інструментів з відкритим кодом для полегшення таких оцінок, таких як безперервне вдосконалення AgentBench, щоб зробити його більш всеосяжним і інклюзивним, і створення більш систематичної системи оцінювання для магістрів права тощо.

Гонка за «автономними» агентами ШІ охоплює Кремнієву долину

Безперервна еволюція великих моделей ШІ призвела до появи нових помічників. Гонка за «автономними» агентами штучного інтелекту наразі розпалює божевілля в Кремнієвій долині. Він не тільки залучив окремих розробників, але й такі гігантські компанії, як Microsoft і Alphabet, материнська компанія Google, а також багато стартапів також взяли активну участь.

Візьмемо стартап Inflection AI, співзасновники якого Рейд Хоффман і Мустафа Сулейман розповіли в подкасті, що вони розробляють персонального помічника, який може виступати в ролі наставника та виконувати такі завдання, як організація кредитів на рейси та готелі.

Розробник компанії MultiOn Дів Гарг заявив, що мета полягає в тому, щоб перетворити його на персонального друга ШІ, схожого на віртуального помічника «Джарвіс». Вони хочуть, щоб цей проксі міг підключатися до окремих служб.

Генеральний директор Generally Intelligent Канджунь Цю сказав: «Речі, які легкі для людей, все ще дуже складні для комп’ютерів, такі як планування зустрічі для боса з групою важливих клієнтів. Це вимагає дуже складних можливостей міркування, включаючи доступ до вподобань кожного, вирішення конфлікти, а також нюанси під час роботи з клієнтами».

Цю та чотири інші розробники агентства прогнозують, що перші системи, які можуть надійно виконувати багатоетапні завдання з певною автономією, будуть доступні протягом року, зосереджуючись на таких вертикалях, як кодування та маркетинг.

Генеральний директор Microsoft Сатья Наделла одного разу сказав в інтерв’ю Financial Times: «Незалежно від того, чи це Cortana від Microsoft, Alexa від Amazon, Google Assistant або Siri від Apple, вони недостатньо розумні, щоб виправдати початкові очікування».

**Не дивлячись на існуючі проблеми, агенти штучного інтелекту показали великий потенціал і ринок. **Хоча ми можемо зіткнутися з деякими труднощами в процесі дослідження та застосування, як і багато інновацій в історії, з часом ми очікуємо, що ці агенти штучного інтелекту принесуть позитивні та позитивні переваги людському суспільству шляхом постійної оптимізації та вдосконалення. глибокий вплив.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
Gate 2025 Q2 Report Released
9k Популярність
Gate Derivatives Volume Hits New High
12k Популярність
CPI Data Incoming
41k Популярність
4Join Gate VIP to Win MacBook
30k Популярність
5MicroStrategy Buys More Bitcoin
672 Популярність
6BTC Hits New High
115k Популярність
7My Gate Moments
28k Популярність
8VIP Exclusive Airdrop Carnival
26k Популярність
9Fed June Meeting Minutes
7k Популярність
10Gate Alpha Trading Share
15k Популярність

Закріпити

карта сайту