Может ли ИИ понять, что он генерирует? После экспериментов на GPT-4 и Midjourney кто-то раскрыл дело

Question

Источник статьи: Сердце машиныРедактировать: Большая тарелка курицы, яичный соус> Без «понимания» не может быть «созидания».![](https://appserversrc.8btc.cn/886188AC950B2D808EFEBF7B16AE4F27/1699088713/Frj5XEx_RLitHEYwOR5CssjlqHEX.png) *Источник изображения: Сгенерировано Unbounded AI*От ChatGPT до GPT4, от DALL・E 2/3 до Midjourney — генеративный ИИ привлек беспрецедентное внимание во всем мире. Потенциал ИИ огромен, но большой интеллект также может вызывать страх и беспокойство. В последнее время идут ожесточенные дебаты по этому вопросу. Сначала «потасовались» победители «Тьюринга», а затем подключился Эндрю Нг.В области языка и зрения современные генеративные модели могут быть выведены за считанные секунды и могут бросить вызов даже экспертам с многолетним опытом и знаниями. Это, по-видимому, дает убедительную мотивацию для утверждения, что модели превзошли человеческий интеллект. Однако также важно отметить, что в выходных данных модели часто встречаются основные ошибки понимания.Таким образом, возникает парадокс: как примирить кажущиеся сверхчеловеческими способности этих моделей с фундаментальными ошибками, которые большинство людей может исправить?Недавно Вашингтонский университет и Институт искусственного интеллекта Аллена совместно опубликовали статью, посвященную изучению этого парадокса.![](https://appserversrc.8btc.cn/FpX4d1rJntUgGSw_gBBuHxgGsGPX) Адрес:В данной работе утверждается, что это явление происходит из-за того, что конфигурация способностей в современных генеративных моделях отклоняется от конфигурации человеческого интеллекта. В данной статье предлагается и проверяется парадоксальная гипотеза генеративного ИИ: генеративные модели обучаются на непосредственный вывод экспертных результатов, что упускает из виду способность генерировать качественный результат. Однако для людей это совсем другое, и базовое понимание часто является предпосылкой для вывода на экспертном уровне.В этой работе исследователи проверяют эту гипотезу с помощью контролируемых экспериментов и анализируют способность генеративной модели генерировать и понимать текст и видение. В этой статье мы сначала поговорим о «понимании» концептуализации генеративных моделей с двух точек зрения:* 1) Заданная задача генерации, степень, в которой модель может выбрать правильный ответ в дискриминантном варианте той же задачи;* 2) При правильно сгенерированном ответе, степень, в которой модель может ответить на содержание и вопросы об этом ответе. Это приводит к двум экспериментальным установкам: селективной и опросной.Исследователи обнаружили, что при выборочной оценке модель часто работала так же хорошо или даже лучше, чем люди, в постановке задачи генерации, но в условиях дискриминанта (понимания) модель работала меньше, чем люди. Дальнейший анализ показывает, что по сравнению с GPT-4 способность человека к различению более тесно связана с генеративной способностью, а способность человека к различению более устойчива к состязательному вводу, и разрыв между моделью и способностью человека к различению увеличивается с увеличением сложности задачи.Аналогичным образом, в вопросительных оценках, в то время как модели могут выдавать высококачественные результаты в различных задачах, исследователи заметили, что модели часто ошибаются в ответах на вопросы об этих результатах, и что понимание модели опять-таки ниже, чем у людей. В данной статье обсуждается ряд потенциальных причин расхождения между генеративными моделями и людьми с точки зрения конфигурации возможностей, включая цели обучения модели, размер и характер входных данных.Значение этого исследования заключается в том, что, во-первых, оно означает, что существующие концепции интеллекта, основанные на человеческом опыте, могут быть неприменимы к ИИ, и хотя возможности ИИ, казалось бы, во многом имитируют или превосходят человеческий интеллект, его возможности могут фундаментально отличаться от ожидаемых моделей поведения человека. С другой стороны, результаты этой работы также предполагают осторожность при изучении генеративных моделей, чтобы получить представление о человеческом интеллекте и познании, поскольку кажущиеся экспертными результаты, подобные человеческим, могут скрывать нечеловеческие механизмы. В заключение, парадокс генеративного ИИ побуждает людей изучать модели как интересную антитезу человеческого интеллекта, а не как параллельную антитезу.«Парадокс генеративного ИИ подчеркивает интересную идею о том, что модели ИИ могут создавать контент, который они сами могут не полностью понимать. Это поднимает потенциальные проблемы, связанные с ограничениями понимания ИИ и его мощных генеративных возможностей». — заявили пользователи сети.![](https://appserversrc.8btc.cn/Fm7pO0ct1pT3ENFgSqZgauWjdNNw)   ## **Что такое парадокс генеративного ИИ**  Давайте начнем с рассмотрения парадокса генеративного ИИ и плана эксперимента для его проверки.![](https://appserversrc.8btc.cn/FmhVyTSB8JioRLI95KhTkAXJMf5A) *Рисунок 1: Генеративный ИИ в области языка и зрения может давать высококачественные результаты. Парадоксально, однако, что модель испытывает трудности с демонстрацией выборочного (A,C) или вопросительного (B,D) понимания этих паттернов. *Генеративные модели, по-видимому, более эффективны для приобретения генеративных способностей, чем для понимания, в отличие от человеческого интеллекта, который часто труднее приобрести.Для проверки этой гипотезы требуется операциональное определение различных аспектов парадокса. Во-первых, для данной модели и задачи t, с человеческим интеллектом в качестве базового уровня, что значит быть «более эффективным», чем понимать способности. Используя g и u в качестве некоторых показателей производительности для генерации и понимания, исследователи формализовали гипотезу парадокса генеративного ИИ следующим образом:![](https://appserversrc.8btc.cn/Fvp6z1bdmtv-GHGupI571K0D8fiw) Проще говоря, для задачи t, если человеческая генеративная производительность g такая же, как у модели, то производительность понимания человеком u будет значительно выше, чем у модели (> ε при разумном ε). Другими словами, модель показала худшие результаты с точки зрения понимания, чем исследователи ожидали бы от людей с такими же мощными генеративными способностями.Операционное определение генерации простое: при наличии входных данных задачи (вопрос/подсказка) генерация заключается в генерировании наблюдаемого контента для удовлетворения этих входных данных. В результате, производительность g (например, стиль, правильность, предпочтения) может оцениваться автоматически или людьми. Несмотря на то, что понимание не определяется несколькими наблюдаемыми результатами, его можно проверить, четко определив его эффекты:1. Выборочная оценка. В какой степени модель все еще может выбрать точный ответ из предоставленного набора кандидатов в дискриминантной версии одной и той же задачи для данной задачи, которая может сгенерировать ответ? Распространенным примером являются ответы с несколькими вариантами ответов, которые являются одним из наиболее распространенных способов проверки человеческого понимания и понимания естественного языка в языковых моделях. (рис. 1, столбцы А, В)2. Вопросное оценивание. В какой степени модель может точно ответить на вопросы о содержании и целесообразности данных сгенерированных выходных данных модели? Это похоже на устный экзамен в образовании. (Рисунок 1, столбцы Б, Г).Эти определения понимания обеспечивают схему оценки «парадокса генеративного ИИ» и позволяют исследователям проверить, верна ли гипотеза 1 для различных шаблонов, задач и моделей.  ## Когда модели могут быть сгенерированы, можно ли их различать? **  Во-первых, исследователи провели параллельный анализ производительности вариантов генеративной задачи и дискриминативной задачи в селективной оценке, чтобы оценить способность модели к генерации и пониманию в языковом и визуальном режимах. Они сравнили это поколение и показатели дискриминации с людьми.На рисунке 2 ниже приведено сравнение производительности генерации и дискриминации GPT-3.5, GPT-4 и людей. Вы можете видеть, что в 10 из 13 наборов данных есть, по крайней мере, одна модель, которая поддерживает подгипотезу 1, причем модели лучше, чем люди, с точки зрения генерации, но менее дискриминационны, чем люди. Из 13 наборов данных 7 наборов данных поддерживают подгипотезу 1 для обеих моделей.![](https://appserversrc.8btc.cn/Fo1PsqIi-GHyNYkr3Ydj6dU_r0lC) Ожидать, что люди будут создавать детализированные изображения, такие как визуальные модели, нереалистично, и средний человек не может сравниться со стилистическим качеством таких моделей, как Midjourney, поэтому предполагается, что люди имеют более низкую генеративную производительность. Только точность генерации и различения модели сравнивается с точностью дискриминации людей. Как и в случае с языковой областью, на рисунке 3 показано, что CLIP и OpenCLIP также менее точны, чем люди, с точки зрения дискриминантной производительности. Предполагается, что люди менее способны к генерации, что согласуется с подгипотезой 1: Vision AI выше среднего по человеку с точки зрения генерации, но отстает от человека с точки зрения понимания.![](https://appserversrc.8btc.cn/Ftpy7pu3_t4-mbeDfTq8jLXRWZxD) На рисунке 4 (слева) показан GPT-4 в сравнении с человеком. Взглянув на нее, можно увидеть, что когда ответы длинные и сложные, например, резюмирование длинного документа, модель имеет тенденцию делать больше всего ошибок в дискриминантной задаче. ** Люди, напротив, способны поддерживать стабильно высокий уровень точности в задачах различной сложности.На рисунке 4 (справа) показана дискриминантная производительность OpenCLIP по сравнению с людьми на разных уровнях сложности. Взятые вместе, эти результаты подчеркивают способность людей различать правильный ответ даже перед лицом сложных или враждебных выборок, но эта способность не так сильна в языковых моделях. Это несоответствие вызывает вопросы о том, насколько хорошо эти модели действительно поняты.![](https://appserversrc.8btc.cn/Fn6ptJJYnqmdCsVa0AYaIhpfgwBF) На рисунке 5 показана заметная тенденция: оценщики, как правило, отдают предпочтение ответам GPT-4, а не ответам, сгенерированным человеком.![](https://appserversrc.8btc.cn/FqryMtoaUeoLZvTHEKUHdcMX4szq)   ## Понимает ли модель результаты, которые она генерирует? **  В предыдущем разделе было показано, что модели, как правило, хорошо генерируют точные ответы, но отстают от людей в задаче на различение. Теперь, при оценке на основе вопросов, исследователи задают модели вопросы непосредственно о сгенерированном контенте, чтобы выяснить, в какой степени модель может продемонстрировать осмысленное понимание сгенерированного контента, что является сильной стороной человека.![](https://appserversrc.8btc.cn/Fho2w3W3iisqzkVZsOD330WpurNL) На рисунке 6 (слева) показаны результаты языковой модальности. Несмотря на то, что модель превосходно справляется с генерацией, она часто допускает ошибки при ответах на вопросы о своей генерации, что говорит о том, что модель совершает ошибки в понимании. Предполагая, что человек не может генерировать такой текст с той же скоростью или в том же масштабе, хотя вопрос заключается в выходных данных самой модели, точность контроля качества человеком была неизменно высокой по сравнению с моделью. Как описано в подгипотезе 2, исследователи ожидают, что люди достигнут более высокой точности в своем собственном сгенерированном тексте. В то же время можно отметить, что люди, участвовавшие в этом исследовании, не являются экспертами, и создание такого сложного текста, как результат работы модели, может оказаться огромной проблемой.В результате, исследователи ожидают, что если сравнивать модель с человеком-экспертом, разрыв в производительности в понимании контента, который они генерируют, увеличится, поскольку человек-эксперт, скорее всего, ответит на такие вопросы с почти идеальной точностью.На рисунке 6 (справа) показаны результаты вопроса в визуальном режиме. Как видите, модели понимания изображений по-прежнему не могут сравниться с человеческими по точности при ответах на простые вопросы об элементах сгенерированных изображений. В то же время модели SOTA генерации изображений превосходят большинство обычных людей по качеству и скорости генерации изображений (ожидается, что обычным людям будет сложно генерировать подобные реалистичные изображения), что говорит о том, что визуальный ИИ относительно сильно отстает от человека по уровню генерации (сильнее) и понимания (слабее). Удивительно, но существует меньший разрыв в производительности между простыми моделями и людьми по сравнению с продвинутыми мультимодальными LLM (например, Bard и BingChat), которые обладают некоторым увлекательным визуальным пониманием, но все еще не могут ответить на простые вопросы о сгенерированных изображениях.