ChatGPT подолає тест Тюрінга, настав час знайти новий спосіб оцінки технології ШІ

**Джерело: **AI Frontline

** автор | Селеста Бівер**

Перекладач|Nucle-Cola

Планування|Dongmei

Джерело зображення: створено інструментом Unbounded AI, загальна модель (вирізка з паперу)

Великі мовні моделі мають відмінні можливості моделювання людської мови, але вчені все ще розходяться в думках щодо їх ефективності висновків.

25 липня видання «Nature» у статті заявило, що ChatGPT зламав тест Тюрінга, і настав час включити інші нові методи оцінки технології штучного інтелекту.

Найпотужніша у світі система штучного інтелекту (ШІ) може складати суворі іспити, писати переконливі роботи та безперешкодно брати участь у чатах. Багато людей навіть не можуть відрізнити ШІ від людини з точки зору мовного вираження. Чи є щось, що вони не можуть зробити? Звичайно, є, і це дуже прості запитання.

На екрані розміщено серію яскравих зображень, і більшість людей можуть швидко знайти відповідь на цей тип візуального логічного тесту. Але GPT-4, очевидно, не в змозі робити те, що хоче, будучи світлом технології, що стоїть за чат-роботом ChatGPT і пошуковою системою Bing, а також найвищим шедевром сучасного ШІ. Дослідження, проведене в травні цього року, показало, що GPT-4 був правильний лише в третині випадків на одному типі тесту шаблонів і лише в 3% — на іншому.

Дослідницька група, яка розробляє логічну головоломку, сподівається, що тест забезпечить кращий еталон для систем штучного інтелекту та допоможе усунути притаманні недоліки великих мовних моделей, таких як GPT-4. Підводячи підсумок: у мовному тесті велика мовна модель легко завершила інтелектуальний подвиг, який колись вважався віхою; але в тесті на візуальну логіку їх ефективність досить слабка, є очевидні сліпі плями, і вони не можуть бути засновані на абстракції Поняття роблять висновки.

«Практики в області штучного інтелекту стикаються зі складною проблемою оцінки великих систем мовної моделі», — каже Мелані Мітчелл, комп’ютерний спеціаліст з Науково-дослідного інституту Санта-Фе в Нью-Мексико. Для цього її команда зібрала цей набір логічних задач.

За останні два-три роки велика мовна модель повністю розтрощила попередню систему штучного інтелекту з точки зору можливостей крос-багатозадачності. Їхній принцип роботи нескладний: на основі мільярдів онлайн-речень, з якими вони познайомилися під час навчання, вони підсумовують статистичну кореляцію між кожним словом, а потім генерують обґрунтоване наступне слово для заданого вхідного тексту. Для чат-ботів, створених на основі великих мовних моделей, додається додатковий елемент: тренери-люди надають розширений зворотний зв’язок, таким чином точно налаштовуючи, як бот відповідає.

Варто зазначити, що алгоритми, навчені на таких масивних корпусах людської мови з властивостями, подібними до автозаповнення, успішно продемонстрували широкий спектр можливостей вирішення проблем. У той час як застарілі системи штучного інтелекту можуть бути в змозі перемогти великі мовні моделі для конкретного завдання, перші повинні бути навчені в конкретних для проблеми кількостях, і цю здатність неможливо швидко перенести від одного завдання до іншого.

Загалом, дослідники з цих двох таборів дотримуються діаметрально протилежних поглядів на те, як великі мовні моделі працюють під капотом, каже Томер Уллман, когнітивіст із Гарвардського університету. Деякі приписують досягнення алгоритму справжнім міркуванням або розумінню, але інші (включаючи самого Ульмана та дослідників, таких як Мітчелл вище) більш обережні.

За словами Улламна, «обидві сторони цієї дискусії є блискучими та на високому рівні». Основною причиною розбіжностей є відсутність вагомих доказів на підтримку їхніх відповідних поглядів. «Зрештою, немає стабільного та надійного інтелектуального детектора, такого як лічильник Гейгера, який міг би чітко дати відповідь, розумний або нерозумний».

Дослідники з обох сторін дискусії кажуть, що використання таких тестів, як логічні запитання, для виявлення відмінностей у здібностях між людьми та системами ШІ має стати важливим кроком у правильному напрямку. Бренден Лейк, вчений з когнітивних обчислень з Нью-Йоркського університету, каже, що такі тести також можуть допомогти виявити можливості, яких бракує сьогоднішнім системам машинного навчання, і прояснити, з чого саме складається людський інтелект.

Крім того, цей тест великих мовних моделей і тестування здатності має інше практичне значення. Мітчелл зазначив, що якщо ви хочете застосувати великі мовні моделі до реальних сценаріїв, таких як медицина та право, ви повинні спочатку уточнити, де пролягають межі їх можливостей. «Ми повинні з’ясувати, що він може, а що ні, перш ніж ми зможемо визначити, як ним безпечно користуватися».

Тест Тюрінга застарів?

У сфері тестування машинного інтелекту найвідомішою схемою завжди був тест Тюрінга. Тест був запропонований британським математиком і піонером комп’ютерів Аланом Тьюрингом у 1950 році, коли комп’ютери були в зародковому стані. Тьюрінг запропонував метод оцінки так званої «імітаційної гри». У цьому сценарії суддя-людина веде короткий текстовий діалог із комп’ютером і людиною, схованими за екраном, щоб перевірити, чи зможе він точно ідентифікувати машину та людину. . Тьюрінг вважав, що це має відповісти на питання «Чи мають машини здатність мислити?»

Мітчелл зазначив, що Тюрінг не вказав багато деталей про сценарій, тому не було точних правил, яких слід дотримуватися. За словами Франсуа Шолле, інженера-програміста Google, «тест Тюрінга не є конкретним тестом, який можна запустити на машині — це скоріше уявний експеримент».

Але цей погляд на використання мови для перевірки здатності машини мислити глибоко вкорінився в галузі технологій. Десятиліттями бізнесмен і філантроп Г’ю Лебнер фінансував щорічний тест Тюрінга, відомий як Премія Лобнера. Але комп’ютерний науковець Роб Вортем сказав, що кампанія припинилася після 2019 року, оскільки фінансування кампанії закінчилося після смерті самого Лебнера. Вортхем є співдиректором Товариства дослідження штучного інтелекту та поведінкового моделювання Великобританії, яке проводить конкурс від імені Лебнера з 2014 року. Він пояснив, що велика мовна модель зараз в основному має здатність обманювати людей, тому премія Лоебнера була змушена припинити напередодні повного зльоту великої мовної моделі, що є досить чорним гумором.

Інші дослідники також вважають, що великі мовні моделі, такі як GPT-4, вже здатні пройти тест Тьюринга. Принаймні в коротких розмовах більшості людей, ймовірно, важко розрізнити, хто тут людина, а хто велика модель. У травні дослідники лабораторії AI21 у Тель-Авіві, Ізраїль, повідомили, що понад 1,5 мільйона людей грали в онлайн-гру, засновану на тесті Тюрінга. Користувачі будуть брати участь у двохвилинному чаті або з іншим користувачем, або з великою мовною моделлю, яка маскується під реальну людину на основі підказок дослідників. Імовірність того, що гравець правильно ідентифікує робота, становить лише 60%, що майже дорівнює випадковому вгадуванню3.

Однак дослідники, які більше знайомі з великими мовними моделями, все ж можуть відрізнити чат-ботів від різних деталей. Шолле зазначив, що він виявив, що легко визначити, хто є великою мовною моделлю, просто використовуючи відомі слабкі сторони системи. «Якби мені довелося перевірити себе на те, чи розмовляю я з великою мовною моделлю, я точно отримав би правильну відповідь».

Головне — дозволити великій мовній моделі вийти із зони комфорту. Його хитрість полягає в тому, щоб запропонувати відмінні сценарії для великої мовної моделі, ніж звичайні сценарії навчання. У більшості випадків велика мовна модель виводить найбільш вірогідне слово на основі навчальних даних, а не справді дає правильну відповідь відповідно до нової сцени.

Крім того, Шолле та інші скептично ставляться до цього методу тестування, заснованого на оманливій продуктивності. «Це, очевидно, існує для того, щоб обманювати суддів.» Такі тести лише заохочуватимуть розробників прищепити ШІ більше навичок маскування, а не створюватимуть більше корисних чи цікавих функцій.

Бенчмарки ненадійні

Дослідники часто оцінюють системи штучного інтелекту за допомогою тестів, які оцінюють конкретні здібності, такі як мова, здоровий глузд і математика, а технологічні команди все частіше приймають академічні та професійні іспити, розроблені для людей.

Коли GPT-4 було вперше випущено в березні, компанія OpenAI з Сан-Франциско, штат Каліфорнія, оцінила продуктивність нової моделі за серією тестів, розроблених для машин, включаючи розуміння прочитаного, математику та кодування. Як повідомляє OpenAI, GPT-4 показав хороші результати в більшості тестів4. Вони також встановлюють близько 30 іспитів для GPT-4, включаючи: різні іспити для американських учнів середньої школи, відомі як Advanced Placement; іспит для оцінки клінічних знань американських лікарів; і критерії, які використовуються в процесі відбору для американських випускників. студентський тест (GRE). GPT-4 вдалося потрапити до 10% кращих на єдиному іспиті адвоката (який входить до іспиту адвоката в кількох штатах США).

Продуктивність системи штучного інтелекту - витяг із результатів

Джерело: OpenAI/ Reference 4

Процентиль рейтингу тут — це позиція кандидатів-людей, які отримали цей бал серед усіх суб’єктів.

Мітчелл визнає, що «багато мовних моделей добре справляються з цими тестами. Але в більшості випадків цього недостатньо, щоб показати, що вони перевершують людей у загальних здібностях, а скоріше, що існує обмеження в самому тесті». Випадок Є сумніви, що оскільки модель навчалася на великій кількості текстового матеріалу, ймовірно, що подібні проблеми спостерігалися в навчальних даних. Висновки бенчмаркінгу, зроблені в цій ситуації, називаються «забрудненням» і, очевидно, не заслуговують на довіру.

OpenAI каже, що вони перевірили це, шукаючи схожі рядки в проблемних і навчальних даних. Тестування великих мовних моделей до та після видалення подібних рядків показує незначні зміни в продуктивності. Це свідчить про те, що надзвичайно високі бали не мають нічого спільного із забрудненням, але деякі дослідники поставили під сумнів, чи був тест достатньо суворим.

Сем Боумен — науковець з мовних технологій у Нью-Йоркському університеті, який також працює в Anthropic, компанії ШІ в Сан-Франциско. Він застеріг від простого сприйняття результатів тесту GPT-4 як результату «побачених подібних проблем» і заперечення здатності GPT-4. На його думку, «розмова про забруднення трохи ускладнює ситуацію, але я не думаю, що це справді впливає на ширшу картину».

Дослідники також відзначили, що здатність великих мовних моделей складати високі іспити також відносно крихка, і її, можливо, не вдасться трансформувати в здатність робити правильні судження в реальному світі. За словами Мітчелла, лише невелике корегування екзаменаційних питань може зробити великі моделі неприйнятними. Наприклад, вона взяла запитання з іспиту MBA, який склав ChatGPT, і трохи змінила його.Люди могли легко змінити відповідь відповідно до змін, але ChatGPT з тріском провалився.

Існує ще одна, більш глибока проблема, коли справа доходить до розшифровки наслідків бенчмаркінгу. Для людей високі бали в цих тестах зазвичай означають високий рівень інтелекту. Насправді рівень інтелекту сам по собі також є розпливчастим поняттям, яке в основному відображає здатність адаптуватися до різних умов, показану в серії завдань. Іншими словами, високий бал на тесті демонструє, що людина має хороші когнітивні здібності та добре володіє певними абстрактними поняттями. Але це не стосується великих мовних моделей. Мітчелл підкреслив, що методи судження великих моделей дуже відрізняються від людських: «У більшості випадків системи штучного інтелекту не обґрунтовують так, як люди знайомі».

Це може бути тому, що великі мовні моделі можуть навчатися лише на мовному досвіді; через відсутність каналів для зв’язку з реальним світом вони не можуть відчувати зв’язок між мовою та об’єктами, атрибутами та емоціями, як люди. «Зрозуміло, що вони не розуміють слів так, як люди», — каже Лейк. На його думку, поточні дані свідчать про те, що великі мовні моделі «можуть дуже вільно використовувати мову, фактично не розуміючи, що вони говорять».

З іншого боку, великі мовні моделі також показали деякі здібності, яких немає у людей, наприклад, розуміння зв’язку між майже кожним словом, яке люди записують. Мітчелл сказав, що це може означати, що модель покладається на певні характеристики мови або інші показники для вирішення проблеми, не потребуючи розуміння ширшої здатності міркувати.

Нік Райдер, дослідник OpenAI, погоджується з цим судженням, кажучи, що продуктивність штучного інтелекту в одному тесті недостатня, щоб довести його загальні здібності, як у людей. «Я не думаю, що люди повинні безпосередньо порівнювати оцінки людини з оцінками великих мовних моделей.» Оцінки, опубліковані OpenAI, «не описують людські здібності чи людський рівень міркування великих мовних моделей, а просто показують, що ці моделі добре працюють у цих завданнях."

На додаток до традиційних машинних тестів і професійних іспитів, дослідники також ширше досліджували великі мовні моделі. У березні цього року Себастьян Бубек з Microsoft Research та його колеги випустили попередньо опубліковану версію 5 під назвою «Іскра загального штучного інтелекту: ранні експерименти GPT-4», яка викликала гарячі дискусії в галузі. Використовуючи ранню версію GPT-4, вони задокументували дивовижний набір функцій, багато з яких не були прямо або явно пов’язані з мовою. Однією з особливостей, яка заслуговує на увагу, є те, що він проходить тести, які використовуються для оцінки психологічних теорій. Психологічна теорія — це основна людська здатність передбачати та міркувати про психічні стани інших. «Враховуючи широту та глибину можливостей GPT-4, у нас є підстави вважати, що він уже являє собою ранню (але ще не досконалу) версію системи штучного загального інтелекту (AGI)», — пишуть вони в статті.

Але сам Бубек пізніше уточнив, підкресливши, що «GPT-4, безумовно, не мислить як людина, і він має власний унікальний і інший спосіб реалізації будь-якої функції, яку він демонструє».

Мітчелл вважає, що хоча звіт досить радикальний, він не досліджує систематично можливості великих мовних моделей. «Це більше схоже на антропологічне дослідження.» Уллман також сказав, що для того, щоб довести, що машини можуть освоїти психологічні теорії, принаймні вони повинні надати докази відповідного основного когнітивного процесу, замість того, щоб просто покладатися на те, що машина виведе ту саму відповідь. як люди Грубе твердження.

Дослідники штучного інтелекту вважають, що для розуміння сильних і слабких сторін великих мовних моделей необхідний більш широкий і ретельний аналіз. Логічна проблема кольору може бути важливою частиною цього.

Свіжі головоломки

У 2019 році, безпосередньо перед вибухом великих мовних моделей, Шолле випустив новий набір логічних тестів, спеціально скомпільованих для систем ШІ в Інтернеті, під назвою Abstract and Reasoning Corpus (ARC). Розв’язувач представлений із візуальною демонстрацією, у якій кілька квадратних сіток перетворюються на інший шаблон, який вказує наступній сітці, як змінити, щоб продемонструвати, що вони зрозуміли правила змін. «Це перевірка нашої здатності пристосовуватися до речей, яких ми раніше не бачили», — каже Шолле, який вважає, що здатність знаходити закономірності є суттю інтелекту.

За словами Лейка, ARC фіксує «відмінну рису людського інтелекту»: абстрагування від повсякденних знань і застосування їх до проблем, які ніколи раніше не бачили.

Шолле організував змагання з робототехніки ARC у 2020 році, перш ніж великі мовні моделі набули широкого поширення. Система ШІ-переможця була спеціально навчена, щоб добре справлятися з такими завданнями, як ARC. Але на відміну від великої мовної моделі, він не має загальної функції, і він дав правильні відповіді лише на 21% питань. Для порівняння, люди правильно вирішують проблеми ARC у 80% випадків7. Кілька дослідницьких груп зараз використовують ARC для перевірки можливостей великих мовних моделей, і жодна з них не наблизилася до продуктивності людини.

Мітчелл та її колеги розробили новий набір головоломок (під назвою ConceptARC), натхненний ARC, з двома основними відмінностями. ConceptARC ще простіше: команда Мітчелла хотіла, щоб контрольні показники відображали прогрес у можливостях машини, навіть незначний. По-друге, команда вибрала конкретні концепції для перевірки, а потім створила серію тематичних варіацій головоломки навколо кожної концепції.

Наприклад, щоб перевірити концепцію ідентичності, одна задача вимагає, щоб розв’язувач утримував об’єкти однакової форми на місці, а інша задача вимагає від розв’язувача вирівняти об’єкти однакової форми вздовж осі. Ідея полягає в тому, щоб зменшити шанси системи штучного інтелекту пройти тест без розуміння концепції.

Що означає погана продуктивність?

Дослідники випустили завдання ConceptARC для GPT-4 і залучили 400 суб’єктів. Люди набрали в середньому 91% для всіх концептуальних груп (97% для групи з найвищими балами); 33% для групи з найвищими балами GPT-4 і не більше 30% для решти концептуальних груп.

"Ми показали, що машина все ще не досягає інтелекту людського рівня, - сказав Мітчелл. - Але дивно, що вона змогла вирішити деякі з цих проблем, незважаючи на те, що її ніколи не навчали".

Команда також випробувала роботів, які виграли конкурс Chollet, які не є системами загального використання, як великі мовні моделі, а були навчені спеціально для проблем із зором, таких як ARC. Загалом вони показали кращі результати, ніж GPT-4, але все ж поступалися людям, набравши 77% у найкращій концептуальній групі, але нижче 60% у більшості концептуальних груп1.

Однак Боумен вважає, що те, що GPT-4 не пройшов навчання ConceptARC, не доводить, що йому бракує потенційних можливостей абстрактного міркування. На його думку, існує упередження між ConceptARC і GPT-4, який, зрештою, є візуальним тестом. «Навіть якщо ці моделі справді добре справляються з таким концептуальним обґрунтуванням, малоймовірно, що вони отримають хороші результати в таких тестах з першого разу».

Обмеження методу тестування також може бути фактором, що впливає на низьку продуктивність GPT-4. Загальнодоступна версія Big Language Model може приймати лише текстове введення, тому дослідники представили масиви чисел, що описують зображення. (Наприклад, порожній піксель може бути представлений 0, а кольоровий квадрат може бути представлений відповідним числом.) Навпаки, люди могли бачити зображення безпосередньо. Мітчелл також визнає: «Ми порівнюємо чисту мовну систему з людиною, а люди мають високорозвинену зорову систему, тому я боюся, що порівняння не зовсім справедливе».

OpenAI створив «мультимодальну» версію GPT-4, яка може приймати зображення безпосередньо. Команда Мітчелла чекає офіційного оприлюднення технології, щоб вона могла зробити ще один раунд ConceptARC. Але вона не вважає мультимодальний GPT-4 набагато кращим: «Я не думаю, що ці системи все ще мають рівень абстракції та міркування, який можна порівняти з людським».

Сем Аквавіва, вчений з обчислювальної когнітивної галузі з Массачусетського технологічного інституту, погоджується.І шаблон обмежений одним рядком замість сітки8. Це повинно усунути деякі проблеми несправедливості, але Acquaviva бачить, що хоча продуктивність GPT-4 покращилася, цього також недостатньо для демонстрації надійного розуміння правил і міркувань для великих мовних моделей.

аргумент міркування

Боумен також згадав деякі інші експерименти.Згідно з вичерпними результатами, велика мовна модель принаймні оволоділа базовою здатністю міркувати про абстрактні поняття. В одному випадку комп’ютерний науковець з Гарварду Кеннет Лі та його колеги використовували цифрову версію Reversi, у якій гравці розміщують чорні та білі фігури на сітці 8 x 8. Вони сподіваються оцінити, чи спираються великі мовні моделі на запам’ятовані лінгвістичні статистичні зв’язки для генерування тексту, чи вони справді можуть будувати внутрішні уявлення явищ, таких як люди.

Після передачі навчального набору дій гравців-людей у велику мовну модель ШІ швидко оволодів здатністю вибирати правильну стратегію для наступного кроку. Дослідники вважають, що це показує, що велика мовна модель може навіть розуміти ситуацію на шахівниці та давати пропозиції щодо шахових ходів на основі поточних особливостей, що, очевидно, прориває обмеження текстової форми9.

Боумен визнає, що здатність до міркування великих мовних моделей можна описати як «різноманітну» в цілому, і вона не досягає висоти людського міркування. Але він вважає, що здатність міркувати існує, і, здається, вона покращується разом із розміром моделі. Іншими словами, майбутні великі мовні моделі працюватимуть усе краще. «Ці системи не настільки надійні чи загальні, як нам би хотілося, і вони повністю заплутані щодо певних видів абстрактного міркування. Але я думаю, що їхні фундаментальні здібності до міркування існують об’єктивно».

Дослідники, такі як Боумен і Мітчелл, також погоджуються, що питання про те, як краще тестувати великі мовні моделі на предмет абстрактних міркувань та інших показників інтелекту, залишається відкритим. Майкл Франк, вчений-когнітивіст зі Стенфордського університету, вважає, що не існує єдиного всеохоплюючого тесту, який міг би повністю замінити тест Тьюринга. Натомість він стверджує, що дослідникам необхідно розробити масштабні тести для кількісного визначення сильних і слабких сторін різних систем. «Ці агенти чудові, вони просто багатьма недоліками, тому найважливіше — систематично досліджувати це».

Вортем радить новачкам у системах ШІ триматися подалі від одержимості антропоморфізмом. «Ми завжди намагаємося зрозуміти все, що демонструє інтелект людини, що насправді непотрібно».

«Це навіть проклято, тобто ми не можемо уявити будь-яку форму інтелекту, яка демонструє чітку цільову орієнтацію, окрім нашої власної. Ми завжди приймаємо бажане за дійсне, що він робить це таким же глибоким способом мислення, як і ми».

посилання:

Москвічев, А., Одуард, В. В. та Мітчелл, М. Препринт у (2023).

Turing, AM Mind LIX, 433–460 (1950).

Стаття Google Scholar

Jannai, D., Meron, A., Lenz, B., Levine, Y. & Shoham, Y. Препринт у (2023).

OpenAI. Препринт у (2023).

Bubeck, S. та ін. Препринт у (2023).

Шолле, Ф. Препринт на (2019).

Джонсон, А., Вонг, В. К., Лейк, Б. М. і Гурекіс, TM Препринт у (2021).

Сюй, Ю., Лі, В., Ваезіпур, П., Саннер. S. & Khalil, EB Preprint at (2023).

Li, K. та ін. Proc. Одинадцятий міжн. конф. вчитися. Представляти. (2023).

Оригінальне посилання:

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити