Может ли ИИ понять, что он генерирует? После экспериментов на GPT-4 и Midjourney кто-то раскрыл дело

Источник статьи: Сердце машины

Редактировать: Большая тарелка курицы, яичный соус

Без «понимания» не может быть «созидания».

Источник изображения: Сгенерировано Unbounded AI

От ChatGPT до GPT4, от DALL・E 2/3 до Midjourney — генеративный ИИ привлек беспрецедентное внимание во всем мире. Потенциал ИИ огромен, но большой интеллект также может вызывать страх и беспокойство. В последнее время идут ожесточенные дебаты по этому вопросу. Сначала «потасовались» победители «Тьюринга», а затем подключился Эндрю Нг.

В области языка и зрения современные генеративные модели могут быть выведены за считанные секунды и могут бросить вызов даже экспертам с многолетним опытом и знаниями. Это, по-видимому, дает убедительную мотивацию для утверждения, что модели превзошли человеческий интеллект. Однако также важно отметить, что в выходных данных модели часто встречаются основные ошибки понимания.

Таким образом, возникает парадокс: как примирить кажущиеся сверхчеловеческими способности этих моделей с фундаментальными ошибками, которые большинство людей может исправить?

Недавно Вашингтонский университет и Институт искусственного интеллекта Аллена совместно опубликовали статью, посвященную изучению этого парадокса.

Адрес:

В данной работе утверждается, что это явление происходит из-за того, что конфигурация способностей в современных генеративных моделях отклоняется от конфигурации человеческого интеллекта. В данной статье предлагается и проверяется парадоксальная гипотеза генеративного ИИ: генеративные модели обучаются на непосредственный вывод экспертных результатов, что упускает из виду способность генерировать качественный результат. Однако для людей это совсем другое, и базовое понимание часто является предпосылкой для вывода на экспертном уровне.

В этой работе исследователи проверяют эту гипотезу с помощью контролируемых экспериментов и анализируют способность генеративной модели генерировать и понимать текст и видение. В этой статье мы сначала поговорим о «понимании» концептуализации генеративных моделей с двух точек зрения:

    1. Заданная задача генерации, степень, в которой модель может выбрать правильный ответ в дискриминантном варианте той же задачи;
    1. При правильно сгенерированном ответе, степень, в которой модель может ответить на содержание и вопросы об этом ответе. Это приводит к двум экспериментальным установкам: селективной и опросной.

Исследователи обнаружили, что при выборочной оценке модель часто работала так же хорошо или даже лучше, чем люди, в постановке задачи генерации, но в условиях дискриминанта (понимания) модель работала меньше, чем люди. Дальнейший анализ показывает, что по сравнению с GPT-4 способность человека к различению более тесно связана с генеративной способностью, а способность человека к различению более устойчива к состязательному вводу, и разрыв между моделью и способностью человека к различению увеличивается с увеличением сложности задачи.

Аналогичным образом, в вопросительных оценках, в то время как модели могут выдавать высококачественные результаты в различных задачах, исследователи заметили, что модели часто ошибаются в ответах на вопросы об этих результатах, и что понимание модели опять-таки ниже, чем у людей. В данной статье обсуждается ряд потенциальных причин расхождения между генеративными моделями и людьми с точки зрения конфигурации возможностей, включая цели обучения модели, размер и характер входных данных.

Значение этого исследования заключается в том, что, во-первых, оно означает, что существующие концепции интеллекта, основанные на человеческом опыте, могут быть неприменимы к ИИ, и хотя возможности ИИ, казалось бы, во многом имитируют или превосходят человеческий интеллект, его возможности могут фундаментально отличаться от ожидаемых моделей поведения человека. С другой стороны, результаты этой работы также предполагают осторожность при изучении генеративных моделей, чтобы получить представление о человеческом интеллекте и познании, поскольку кажущиеся экспертными результаты, подобные человеческим, могут скрывать нечеловеческие механизмы.

В заключение, парадокс генеративного ИИ побуждает людей изучать модели как интересную антитезу человеческого интеллекта, а не как параллельную антитезу.

«Парадокс генеративного ИИ подчеркивает интересную идею о том, что модели ИИ могут создавать контент, который они сами могут не полностью понимать. Это поднимает потенциальные проблемы, связанные с ограничениями понимания ИИ и его мощных генеративных возможностей». — заявили пользователи сети.

Что такое парадокс генеративного ИИ

Давайте начнем с рассмотрения парадокса генеративного ИИ и плана эксперимента для его проверки.

*Рисунок 1: Генеративный ИИ в области языка и зрения может давать высококачественные результаты. Парадоксально, однако, что модель испытывает трудности с демонстрацией выборочного (A,C) или вопросительного (B,D) понимания этих паттернов. *

Генеративные модели, по-видимому, более эффективны для приобретения генеративных способностей, чем для понимания, в отличие от человеческого интеллекта, который часто труднее приобрести.

Для проверки этой гипотезы требуется операциональное определение различных аспектов парадокса. Во-первых, для данной модели и задачи t, с человеческим интеллектом в качестве базового уровня, что значит быть «более эффективным», чем понимать способности. Используя g и u в качестве некоторых показателей производительности для генерации и понимания, исследователи формализовали гипотезу парадокса генеративного ИИ следующим образом:

Проще говоря, для задачи t, если человеческая генеративная производительность g такая же, как у модели, то производительность понимания человеком u будет значительно выше, чем у модели (> ε при разумном ε). Другими словами, модель показала худшие результаты с точки зрения понимания, чем исследователи ожидали бы от людей с такими же мощными генеративными способностями.

Операционное определение генерации простое: при наличии входных данных задачи (вопрос/подсказка) генерация заключается в генерировании наблюдаемого контента для удовлетворения этих входных данных. В результате, производительность g (например, стиль, правильность, предпочтения) может оцениваться автоматически или людьми. Несмотря на то, что понимание не определяется несколькими наблюдаемыми результатами, его можно проверить, четко определив его эффекты:

  1. Выборочная оценка. В какой степени модель все еще может выбрать точный ответ из предоставленного набора кандидатов в дискриминантной версии одной и той же задачи для данной задачи, которая может сгенерировать ответ? Распространенным примером являются ответы с несколькими вариантами ответов, которые являются одним из наиболее распространенных способов проверки человеческого понимания и понимания естественного языка в языковых моделях. (рис. 1, столбцы А, В)
  2. Вопросное оценивание. В какой степени модель может точно ответить на вопросы о содержании и целесообразности данных сгенерированных выходных данных модели? Это похоже на устный экзамен в образовании. (Рисунок 1, столбцы Б, Г).

Эти определения понимания обеспечивают схему оценки «парадокса генеративного ИИ» и позволяют исследователям проверить, верна ли гипотеза 1 для различных шаблонов, задач и моделей.

Когда модели могут быть сгенерированы, можно ли их различать? **

Во-первых, исследователи провели параллельный анализ производительности вариантов генеративной задачи и дискриминативной задачи в селективной оценке, чтобы оценить способность модели к генерации и пониманию в языковом и визуальном режимах. Они сравнили это поколение и показатели дискриминации с людьми.

На рисунке 2 ниже приведено сравнение производительности генерации и дискриминации GPT-3.5, GPT-4 и людей. Вы можете видеть, что в 10 из 13 наборов данных есть, по крайней мере, одна модель, которая поддерживает подгипотезу 1, причем модели лучше, чем люди, с точки зрения генерации, но менее дискриминационны, чем люди. Из 13 наборов данных 7 наборов данных поддерживают подгипотезу 1 для обеих моделей.

Ожидать, что люди будут создавать детализированные изображения, такие как визуальные модели, нереалистично, и средний человек не может сравниться со стилистическим качеством таких моделей, как Midjourney, поэтому предполагается, что люди имеют более низкую генеративную производительность. Только точность генерации и различения модели сравнивается с точностью дискриминации людей. Как и в случае с языковой областью, на рисунке 3 показано, что CLIP и OpenCLIP также менее точны, чем люди, с точки зрения дискриминантной производительности. Предполагается, что люди менее способны к генерации, что согласуется с подгипотезой 1: Vision AI выше среднего по человеку с точки зрения генерации, но отстает от человека с точки зрения понимания.

На рисунке 4 (слева) показан GPT-4 в сравнении с человеком. Взглянув на нее, можно увидеть, что когда ответы длинные и сложные, например, резюмирование длинного документа, модель имеет тенденцию делать больше всего ошибок в дискриминантной задаче. ** Люди, напротив, способны поддерживать стабильно высокий уровень точности в задачах различной сложности.

На рисунке 4 (справа) показана дискриминантная производительность OpenCLIP по сравнению с людьми на разных уровнях сложности. Взятые вместе, эти результаты подчеркивают способность людей различать правильный ответ даже перед лицом сложных или враждебных выборок, но эта способность не так сильна в языковых моделях. Это несоответствие вызывает вопросы о том, насколько хорошо эти модели действительно поняты.

На рисунке 5 показана заметная тенденция: оценщики, как правило, отдают предпочтение ответам GPT-4, а не ответам, сгенерированным человеком.

Понимает ли модель результаты, которые она генерирует? **

В предыдущем разделе было показано, что модели, как правило, хорошо генерируют точные ответы, но отстают от людей в задаче на различение. Теперь, при оценке на основе вопросов, исследователи задают модели вопросы непосредственно о сгенерированном контенте, чтобы выяснить, в какой степени модель может продемонстрировать осмысленное понимание сгенерированного контента, что является сильной стороной человека.

На рисунке 6 (слева) показаны результаты языковой модальности. Несмотря на то, что модель превосходно справляется с генерацией, она часто допускает ошибки при ответах на вопросы о своей генерации, что говорит о том, что модель совершает ошибки в понимании. Предполагая, что человек не может генерировать такой текст с той же скоростью или в том же масштабе, хотя вопрос заключается в выходных данных самой модели, точность контроля качества человеком была неизменно высокой по сравнению с моделью. Как описано в подгипотезе 2, исследователи ожидают, что люди достигнут более высокой точности в своем собственном сгенерированном тексте. В то же время можно отметить, что люди, участвовавшие в этом исследовании, не являются экспертами, и создание такого сложного текста, как результат работы модели, может оказаться огромной проблемой.

В результате, исследователи ожидают, что если сравнивать модель с человеком-экспертом, разрыв в производительности в понимании контента, который они генерируют, увеличится, поскольку человек-эксперт, скорее всего, ответит на такие вопросы с почти идеальной точностью.

На рисунке 6 (справа) показаны результаты вопроса в визуальном режиме. Как видите, модели понимания изображений по-прежнему не могут сравниться с человеческими по точности при ответах на простые вопросы об элементах сгенерированных изображений. В то же время модели SOTA генерации изображений превосходят большинство обычных людей по качеству и скорости генерации изображений (ожидается, что обычным людям будет сложно генерировать подобные реалистичные изображения), что говорит о том, что визуальный ИИ относительно сильно отстает от человека по уровню генерации (сильнее) и понимания (слабее). Удивительно, но существует меньший разрыв в производительности между простыми моделями и людьми по сравнению с продвинутыми мультимодальными LLM (например, Bard и BingChat), которые обладают некоторым увлекательным визуальным пониманием, но все еще не могут ответить на простые вопросы о сгенерированных изображениях.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить