ChatGPT преодолевает тест Тьюринга, пора найти новый способ оценки технологии ИИ

**Источник: **Линия фронта ИИ

** автор | Селеста Бивер**

Переводчик|Нукле-Кола

Планирование|Дунмей

Источник изображения: сгенерировано инструментом Unbounded AI, общая модель (вырезанная из бумаги)

Большие языковые модели обладают превосходными возможностями имитации человеческого языка, но ученые по-прежнему расходятся во мнениях относительно их эффективности логического вывода.

25 июля издание Nature сообщило в статье, что ChatGPT нарушил тест Тьюринга и пора включить другие новые методы для оценки технологий искусственного интеллекта.

Самая мощная в мире система искусственного интеллекта (ИИ) может сдавать строгие экзамены, писать убедительные работы и без проблем участвовать в чатах.Многие люди даже не могут отличить ИИ от людей с точки зрения языкового выражения. Есть ли что-то, что они не могут сделать? Конечно, есть, и это очень простые вопросы.

На экране расположены ряды ярких рисунков, и большинство людей могут быстро найти ответ на этот тип визуального логического теста. Но как свет технологии, стоящей за чат-роботом ChatGPT и поисковой системой Bing, и высшим шедевром современного ИИ, GPT-4 явно не в состоянии делать то, что хочет. Исследование, проведенное в мае этого года, показало, что GPT-4 был верен только в трети случаев в одном типе шаблонного теста и в ничтожных 3% — в другом.

Исследовательская группа, разработавшая логическую головоломку, надеется, что этот тест станет лучшим эталоном для систем ИИ и поможет устранить присущие им недостатки больших языковых моделей, таких как GPT-4. Подводя итог: в языковом тесте большая языковая модель легко выполнила интеллектуальный подвиг, который когда-то считался вехой; но в тесте на визуальную логику их производительность довольно слаба, есть очевидные белые пятна, и они не могут быть основаны на абстракцию Понятия делают выводы.

«Практики в области искусственного интеллекта пытаются решить сложную проблему оценки больших систем языковых моделей, — говорит Мелани Митчелл, ученый-компьютерщик из Исследовательского института Санта-Фе в Нью-Мексико. логических задач.

За последние два-три года крупноязыковая модель полностью вытеснила предыдущую систему ИИ с точки зрения возможностей многозадачности. Их принцип работы прост: на основе миллиардов онлайн-предложений, с которыми они столкнулись во время обучения, они суммируют статистическую корреляцию между каждым словом, а затем генерируют разумное следующее слово для заданного входного текста. Для чат-ботов, построенных на основе больших языковых моделей, добавляется дополнительный элемент: инструкторы-люди обеспечивают обширную обратную связь, тем самым точно настраивая реакцию бота.

Стоит отметить, что алгоритмы, обученные на таких массивных корпусах человеческого языка со свойствами, подобными автодополнению, успешно продемонстрировали широкий спектр возможностей решения задач. В то время как устаревшие системы ИИ могут быть в состоянии превзойти большие языковые модели в конкретной задаче, первые должны обучаться в количествах, специфичных для конкретной задачи, и эту способность нельзя быстро перенести с одной задачи на другую.

Вообще говоря, исследователи из этих двух лагерей придерживаются диаметрально противоположных взглядов на то, как работают большие языковые модели под капотом, говорит Томер Уллман, когнитивист из Гарвардского университета. Некоторые приписывают достижения алгоритма подлинному рассуждению или пониманию, но другие (включая самого Ульмана и таких исследователей, как Митчелл выше) более осторожны.

По словам Улламна, «обе стороны в этом споре блестящие и высокопоставленные». Коренной причиной разногласий является отсутствие веских доказательств, подтверждающих их точку зрения. «Ведь не существует стабильного и надежного интеллектуального детектора, подобного счетчику Гейгера, который мог бы четко дать ответ об интеллекте или неразумии».

Исследователи с обеих сторон дискуссии говорят, что использование тестов, таких как логические вопросы, для выявления различий в возможностях между людьми и системами ИИ должно стать важным шагом в правильном направлении. Бренден Лейк, специалист по когнитивным вычислениям из Нью-Йоркского университета, говорит, что такие тесты также могут помочь выявить возможности, отсутствующие в современных системах машинного обучения, и прояснить, из чего именно состоит человеческий интеллект.

Кроме того, эта проверка больших языковых моделей и исследование эталонных способностей имеют и другое практическое значение. Митчелл указал, что если вы хотите применить большие языковые модели к сценариям реального мира, таким как медицина и юриспруденция, вы должны сначала уточнить, где лежат границы его возможностей. «Мы должны выяснить, что он может и чего не может сделать, прежде чем мы сможем судить, как его безопасно использовать».

Является ли тест Тьюринга устаревшим?

В области тестирования машинного интеллекта самой известной схемой всегда был тест Тьюринга. Тест был предложен британским математиком и пионером компьютеров Аланом Тьюрингом в 1950 году, когда компьютеры только зарождались. Тьюринг предложил метод оценки так называемой «имитационной игры», в которой судья-человек ведет короткий текстовый диалог с компьютером и человеком, скрытым за экраном, чтобы увидеть, может ли он точно идентифицировать машину и человека. . Тьюринг считал, что это должно ответить на вопрос: «Умеют ли машины мыслить?»

Митчелл отметил, что Тьюринг не уточнил подробностей сценария, поэтому не существовало точных правил, которым нужно было следовать. По словам Франсуа Шолле, инженера-программиста Google, «тест Тьюринга — это не конкретный тест, который можно запустить на машине, — это скорее мысленный эксперимент».

Но этот взгляд на использование языка для проверки способности машины мыслить глубоко укоренился в области технологий. На протяжении десятилетий бизнесмен и филантроп Хью Лебнер долгое время финансировал ежегодное мероприятие «Тест Тьюринга», известное как Премия Лебнера. Но ученый-компьютерщик Роб Уортам сказал, что кампания остановилась после 2019 года, потому что финансирование кампании закончилось после смерти Лебнера. Уортэм является содиректором Британского общества исследований искусственного интеллекта и поведенческого моделирования, которое проводит конкурс от имени Лебнера с 2014 года. Он пояснил, что модель большого языка теперь в основном способна обманывать людей, поэтому премия Лёбнера была вынуждена остановиться накануне полного взлета модели большого языка, что является довольно черным юмором.

Другие исследователи также считают, что большие языковые модели, такие как GPT-4, уже способны пройти тест Тьюринга. По крайней мере, в коротких разговорах большинству людей, вероятно, трудно сказать, кто человек, а кто большая модель. В мае исследователи из лаборатории AI21 в Тель-Авиве, Израиль, сообщили, что более 1,5 миллиона человек сыграли в онлайн-игру, основанную на тесте Тьюринга. Пользователи будут участвовать в двухминутном чате либо с другим пользователем, либо с большой языковой моделью, маскирующейся под реального человека на основе подсказок исследователей. Вероятность того, что игрок правильно идентифицирует робота, составляет всего 60%, что почти равносильно полностью случайному угадыванию3.

Однако исследователи, более знакомые с большими языковыми моделями, все же могут различать чат-ботов по разным деталям. Шолле отметил, что он обнаружил, что легко определить, кто является большой языковой моделью, просто используя известные слабости системы. «Если бы я подверг себя испытанию, чтобы увидеть, говорю ли я с большой языковой моделью, я бы определенно получил правильный ответ».

Ключ в том, чтобы позволить большой языковой модели выйти из зоны комфорта. Его хитрость заключается в том, чтобы предложить различные сценарии для большой языковой модели, чем обычные сценарии обучения. В большинстве случаев большая языковая модель выводит наиболее вероятное слово на основе обучающих данных, а не дает действительно правильный ответ в соответствии с новой сценой.

Более того, Шолле и др. скептически относятся к этому методу тестирования, основанному на ложных характеристиках. «Это, очевидно, существует для того, чтобы обмануть судей-людей.» Такие тесты только побудят разработчиков привить ИИ больше навыков маскировки и не вдохновят на более полезные или интересные функции.

Бенчмарки ненадежны

Исследователи часто оценивают системы ИИ с помощью эталонных тестов, которые оценивают определенные способности, такие как язык, здравое мышление и математика, а технологические группы все чаще принимают академические и профессиональные экзамены, предназначенные для людей.

Когда GPT-4 был впервые выпущен в марте, компания OpenAI из Сан-Франциско, штат Калифорния, оценила производительность новой модели с помощью ряда тестов, разработанных для машин, включая понимание прочитанного, математику и кодирование. Как сообщает OpenAI, GPT-4 показал хорошие результаты в большинстве тестов4. Они также установили около 30 экзаменов для GPT-4, в том числе: различные экзамены для американских старшеклассников, известные как Advanced Placement; экзамен для оценки клинических знаний американских врачей; и критерии, используемые в процессе отбора американских выпускников. студенческий тест (GRE). GPT-4 удалось войти в 10% лучших на Едином экзамене на адвоката (который включен в экзамен на адвоката в нескольких штатах США).

Производительность системы ИИ — выдержка из результатов

Источник: OpenAI/Справочник 4

Процентиль ранжирования здесь представляет собой позицию кандидатов-людей, набравших этот балл среди всех испытуемых.

Митчелл признает, что «довольно много языковых моделей хорошо справляются с этими тестами. Но в большинстве случаев этого недостаточно, чтобы показать, что они превосходят людей в общих возможностях, а скорее то, что в самом тесте есть ограничение». случай Сомневаюсь, что, поскольку модель обучалась на большом количестве текстового материала, вполне вероятно, что подобные проблемы были замечены в обучающих данных. Выводы сравнительного анализа, сделанные в этой ситуации, называются «загрязнением» и явно не заслуживают доверия.

OpenAI говорит, что они проверили это, ища похожие строки в задаче и данных обучения. Тестирование больших языковых моделей до и после удаления похожих строк показывает незначительное изменение производительности. Это предполагало, что чрезвычайно высокие оценки не имели ничего общего с загрязнением окружающей среды, но некоторые исследователи задавались вопросом, был ли тест достаточно строгим.

Сэм Боуман — специалист по языковым технологиям из Нью-Йоркского университета, который также работает в компании Anthropic, занимающейся искусственным интеллектом, в Сан-Франциско. Он предостерег от простого получения результатов теста GPT-4 в результате «наблюдения похожих проблем» и отрицания возможностей GPT-4. По его мнению, «разговоры о загрязнении немного усложняют ситуацию, но я не думаю, что это действительно влияет на общую картину».

Исследователи также указали, что способность больших языковых моделей получать высокие оценки на экзаменах также относительно хрупка и, возможно, не сможет быть преобразована в способность выносить правильные суждения в реальном мире. По словам Митчелла, небольшая корректировка экзаменационных вопросов может сделать большие модели неприемлемыми. Например, она взяла вопрос из экзамена MBA, который ChatGPT сдал, и немного изменила его.Люди могли легко скорректировать ответ в соответствии с изменением, но ChatGPT с треском провалился.

Существует еще одна, более глубокая проблема, связанная с расшифровкой последствий бенчмаркинга. Для людей высокие баллы в этих тестах обычно представляют высокий уровень интеллекта — на самом деле уровень интеллекта сам по себе также является расплывчатым понятием, в основном отражающимся в способности адаптироваться к различным условиям, показанным в серии заданий. Другими словами, высокий балл по тесту свидетельствует о том, что человек обладает хорошими когнитивными способностями и хорошо владеет некоторыми абстрактными понятиями. Но это не относится к большим языковым моделям. Митчелл подчеркнул, что метод суждения больших моделей сильно отличается от человеческого: «В большинстве случаев системы ИИ не рассуждают так, как люди знакомы».

Это может быть связано с тем, что большие языковые модели могут учиться только на языковом опыте; из-за отсутствия каналов для связи с реальным миром они не могут испытывать связь между языком и объектами, атрибутами и эмоциями, как люди. «Очевидно, что они не понимают слова так, как люди», — говорит Лейк. По его мнению, текущие данные свидетельствуют о том, что большие языковые модели «могут использовать язык очень бегло, не понимая, что они говорят».

С другой стороны, большие языковые модели также продемонстрировали некоторые способности, которых нет у людей, например, понимание связи между почти каждым словом, которое люди записывают. Митчелл сказал, что это может означать, что модель полагается на определенные характеристики языка или другие индикаторы для решения проблемы, без необходимости понимать более широкие способности к рассуждениям.

Ник Райдер, исследователь OpenAI, согласен с этим суждением, говоря, что производительности ИИ в одном тесте недостаточно, чтобы доказать его общие способности, как у людей. «Я не думаю, что люди должны напрямую сравнивать человеческие оценки с оценками больших языковых моделей». Оценки, опубликованные OpenAI, «не описывают человеческие способности или человеческий уровень мышления больших языковых моделей, а просто показывают, что эти модели хорошо справляются с этими задачами».

Помимо традиционных машинных тестов и профессиональных экзаменов, исследователи также более широко изучили большие языковые модели. В марте этого года Себастьен Бюбек из Microsoft Research и его коллеги выпустили предварительно опубликованную версию 5 под названием «Искра общего искусственного интеллекта: ранние эксперименты GPT-4», вызвавшую бурные дискуссии в отрасли. Используя раннюю версию GPT-4, они задокументировали удивительный набор функций, многие из которых не были прямо или явно связаны с языком. Одна примечательная особенность заключается в том, что он проходит тесты, используемые для оценки психологических теорий. Психологическая теория — это основная человеческая способность предсказывать и рассуждать о психических состояниях других. «Учитывая широту и глубину возможностей GPT-4, у нас есть основания полагать, что она уже представляет собой раннюю (но еще не совершенную) версию системы общего искусственного интеллекта (AGI)», — написали они в статье.

Но позже сам Бубек пояснил, подчеркнув, что «GPT-4 определенно не думает как человек, и у него есть свой уникальный и отличный способ реализации любой функции, которую он демонстрирует».

Митчелл считает, что, хотя отчет довольно радикален, он не исследует систематически возможности больших языковых моделей. «Это больше похоже на антропологическое исследование». как люди.Грубое утверждение.

Исследователи ИИ считают, что для понимания сильных и слабых сторон больших языковых моделей необходимо более широкое и тщательное изучение. Проблема цветовой логики может быть важной частью этого.

Свежие головоломки

В 2019 году, как раз перед взрывом больших языковых моделей, Шолле выпустил новый набор наборов логических тестов, специально скомпилированных для систем ИИ в Интернете, под названием Abstract and Reasoning Corpus (ARC). Решателю предоставляется визуальная демонстрация, в которой несколько квадратных сеток преобразуются в другой шаблон, который указывает следующей сетке, как измениться, чтобы продемонстрировать, что они поняли правила изменения. «Это проверка нашей способности приспосабливаться к вещам, которых мы раньше не видели», — говорит Шолле, который считает, что эта способность находить закономерности и есть сущность интеллекта.

По словам Лейка, ARC отражает «отличительную черту человеческого интеллекта»: абстрагирование от повседневных знаний и применение их к невиданным ранее проблемам.

Шолле организовал соревнование по робототехнике ARC в 2020 году, до того, как большие языковые модели получили широкое распространение. Система искусственного интеллекта-победителя была специально обучена, чтобы хорошо справляться с такими задачами, как ARC. Но в отличие от большой языковой модели, у него нет общей функции, и он правильно ответил только на 21% вопросов. Для сравнения, люди правильно решают задачи АРО в 80% случаев7. Несколько исследовательских групп в настоящее время используют ARC для проверки возможностей больших языковых моделей, и ни одна из них не приблизилась к производительности человека.

Митчелл и ее коллеги разработали новый набор головоломок (названный ConceptARC), вдохновленный ARC, с двумя основными отличиями. ConceptARC еще проще: команда Митчелла хотела, чтобы эталонные тесты отражали прогресс в возможностях машин, пусть даже небольшой. Во-вторых, команда выбрала определенные концепции для тестирования, а затем создала серию вариантов головоломок, связанных с темой, вокруг каждой концепции.

Например, чтобы проверить концепцию идентичности, в одной задаче решатель должен удерживать на месте объекты одинаковой формы, а в другой задаче решатель должен выровнять объекты одинаковой формы вдоль оси. Идея состоит в том, чтобы уменьшить шансы системы ИИ пройти тест без понимания концепции.

Что означает низкая производительность?

Исследователи выпустили задачу ConceptARC для GPT-4 и набрали 400 испытуемых. Люди набрали в среднем 91% по всем группам концепций (97% для группы с наивысшим баллом), 33% для группы с наивысшим баллом GPT-4 и не более 30% для остальных групп концепций.

"Мы показали, что машина по-прежнему не дотягивает до уровня человеческого интеллекта, - сказал Митчелл. - Но, что удивительно, она смогла решить некоторые из этих проблем, несмотря на то, что никогда не обучалась им".

Команда также протестировала роботов, победивших в конкурсе Шолле, которые не являются системами с общими возможностями, такими как большие языковые модели, но были обучены специально для решения проблем со зрением, таких как ARC. В целом, они работали лучше, чем GPT-4, но все же уступали людям, набрав 77% в группе лучших концепций, но ниже 60% в большинстве групп концепций1.

Однако Боуман считает, что неспособность GPT-4 пройти обучение ConceptARC не доказывает, что ему не хватает потенциальных возможностей абстрактного мышления. По его мнению, между ConceptARC и GPT-4 существует некоторая несоответствие, которое, в конце концов, является визуальным тестом. «Даже если эти модели действительно хороши в такого рода концептуальных рассуждениях, маловероятно, что они получат хорошие результаты в таких тестах с первого раза».

Ограничение метода испытаний также может быть фактором, влияющим на плохую работу GPT-4. Общедоступная версия Big Language Model может принимать только текстовый ввод, поэтому исследователи представили массивы чисел, описывающих изображения. (Например, пустой пиксель может быть представлен 0, а цветной квадрат может быть представлен соответствующим числом.) Напротив, люди могли видеть изображение напрямую. Митчелл также признает: «Мы сравниваем чистую языковую систему с человеком, а у людей хорошо развита зрительная система, поэтому я боюсь, что это сравнение не совсем справедливо».

OpenAI создала «мультимодальную» версию GPT-4, которая может напрямую принимать ввод изображения. Команда Митчелла ждет официального раскрытия технологии, чтобы провести еще один раунд ConceptARC. Но она не думает, что мультимодальная GPT-4 намного лучше: «Я не думаю, что эти системы все еще имеют уровень абстракции и рассуждений, сравнимый с человеческим».

Сэм Аквавива, специалист по вычислительной когнитивистике из Массачусетского технологического института, соглашается с этим: шаблон ограничен одной строкой, а не сеткой8. Это должно устранить некоторые проблемы с несправедливостью, но Acquaviva видит, что, хотя производительность GPT-4 улучшилась, этого недостаточно для демонстрации надежного понимания правил и рассуждений для больших языковых моделей.

аргумент рассуждения

Боуман также упомянул о некоторых других экспериментах: судя по всеобъемлющим результатам, модель большого языка, по крайней мере, овладела базовой способностью рассуждать об абстрактных понятиях. В одном случае ученый-компьютерщик из Гарварда Кеннет Ли и его коллеги использовали цифровую версию Reversi, в которой игроки размещают черные и белые фигуры на сетке 8 x 8. Они надеются оценить, полагаются ли большие языковые модели на заученные лингвистические статистические отношения для генерации текста, или они действительно могут строить внутренние представления таких явлений, как люди.

После отправки тренировочного набора действий игроков-людей в большую языковую модель ИИ быстро освоил способность выбирать правильную стратегию для следующего хода. Исследователи считают, что это показывает, что модель большого языка может даже понимать ситуацию на шахматной доске и давать предложения для шахматных ходов на основе текущих особенностей, что явно нарушает ограничения текстовой формы9.

Боумен признает, что способность к рассуждению больших языковых моделей в целом можно охарактеризовать как «различную», и она не достигает высоты человеческого мышления. Но он считает, что способность к рассуждению существует, и кажется, что она улучшается с увеличением размера модели. Другими словами, будущие большие языковые модели будут работать все лучше и лучше. «Эти системы не так надежны или универсальны, как нам хотелось бы, и они совершенно не понимают некоторые виды абстрактных рассуждений. Но я думаю, что их фундаментальные способности к рассуждениям существуют объективно».

Такие исследователи, как Боуман и Митчелл, также согласны с тем, что вопрос о том, как лучше тестировать большие языковые модели для абстрактного мышления и других показателей интеллекта, остается открытым. Майкл Франк, когнитивист из Стэнфордского университета, считает, что не существует единого всеобъемлющего теста, который мог бы полностью заменить тест Тьюринга. Вместо этого он утверждает, что исследователям необходимо разработать обширные тесты для количественной оценки сильных и слабых сторон различных систем. «Эти агенты великолепны, просто у них много недостатков, поэтому самое главное — исследовать это систематически».

Уортэм советует новичкам в системах ИИ держаться подальше от одержимости антропоморфизмом. «Мы всегда пытаемся понять все, что показывает человеческий интеллект, что на самом деле не нужно».

«Это даже проклятие, а это означает, что мы не можем представить себе какую-либо форму интеллекта, которая демонстрирует четкую целевую ориентацию, кроме нашей собственной. Мы всегда выдаем желаемое за действительное, что он делает это таким же глубоким образом мышления, как и мы».

Рекомендации:

Москвичев А., Одуар В. В. и Митчелл М. Препринт в (2023).

Тьюринг, AM Mind LIX, 433–460 (1950).

Статья Google Scholar

Джаннаи, Д., Мерон, А., Ленц, Б., Левин, Ю. и Шохам, Ю. Препринт в (2023).

OpenAI. Препринт в (2023).

Бубек С. и соавт. Препринт в (2023).

Шолле, Ф. Препринт в (2019).

Джонсон, А., Вонг, В.К., Лейк, Б.М. и Гуреккис, Т.М. Препринт в (2021 г.).

Сюй Ю., Ли В., Ваэзипур П., Саннер. С. и Халил, Препринт EB в (2023).

Ли, К. и др. проц. Одиннадцатый междунар. конф. Учиться. Представлять. (2023).

Исходная ссылка:

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить