Чи може ШІ зрозуміти, що він генерує? Після експериментів над GPT-4 та Midjourney хтось вирішив справу

Question

Джерело статті: Серце машиниРедагувати: Велика тарілка курки, яєчний соус> Без «розуміння» не може бути «творіння».![](https://appserversrc.8btc.cn/886188AC950B2D808EFEBF7B16AE4F27/1699088713/Frj5XEx_RLitHEYwOR5CssjlqHEX.png) *Джерело зображення: Створено Unbounded AI*Від ChatGPT до GPT4, від DALL・E 2/3 до Midjourney, генеративний штучний інтелект привернув безпрецедентну глобальну увагу. Потенціал штучного інтелекту величезний, але великий інтелект також може викликати страх і занепокоєння. Останнім часом точаться запеклі дебати з цього питання. Спочатку «побилися» переможці Тюрінга, а потім до них приєднався Ендрю Нг.У сфері мови та зору сучасні генеративні моделі можуть бути виведені за лічені секунди і можуть кинути виклик навіть експертам з багаторічними навичками та знаннями. Це, здається, є переконливою підставою для твердження, що моделі перевершили людський інтелект. Однак важливо також відзначити, що у виході моделі часто зустрічаються основні помилки розуміння.Таким чином, здається, виникає парадокс: як примирити, здавалося б, надлюдські здібності цих моделей з фундаментальними помилками, які зберігаються, і які більшість людей можуть виправити?Нещодавно Вашингтонський університет та Інститут штучного інтелекту Аллена спільно випустили статтю для вивчення цього парадоксу.![](https://appserversrc.8btc.cn/FpX4d1rJntUgGSw_gBBuHxgGsGPX) Адреса:У цій статті стверджується, що це явище відбувається тому, що конфігурація можливостей у сучасних генеративних моделях відрізняється від конфігурації людського інтелекту. У цій статті пропонується та перевіряється парадоксальна гіпотеза генеративного ШІ: генеративні моделі навчаються безпосередньо виводити результати, подібні до експертів, процес, який пропускає здатність зрозуміти здатність генерувати такий якісний результат. Однак для людей це зовсім інше, і базове розуміння часто є передумовою для вихідних можливостей експертного рівня.У цій статті дослідники перевіряють цю гіпотезу за допомогою контрольованих експериментів та аналізують здатність генеративної моделі генерувати та розуміти текст і зображення. У цій статті ми спочатку поговоримо про «розуміння» концептуалізації генеративних моделей з двох точок зору:* 1) Задана задача генерації, ступінь, в якій модель може вибрати правильну відповідь в дискримінантному варіанті одного і того ж завдання;* 2) Дано правильно згенеровану відповідь, ступінь, в якій модель може відповісти на зміст і питання про цю відповідь. Це призводить до двох експериментальних установок: вибіркової та питальної.Дослідники виявили, що при селективній оцінці модель часто показала себе так само добре або краще, ніж люди, в постановці завдань генерації, але в дискримінантній (розуміючій) обстановці модель показала себе менше, ніж людина. Подальший аналіз показує, що порівняно з GPT-4, здатність до дискримінації людини більш тісно пов'язана з генеративними здібностями, а здатність до дискримінації людини є більш стійкою до змагального внеску, і розрив між моделлю та здатністю до дискримінації людини збільшується зі збільшенням складності завдання.Аналогічно, в опитувальних оцінках, хоча моделі можуть давати високоякісні результати для різних завдань, дослідники помітили, що моделі часто помиляються, відповідаючи на запитання про ці виходи, і що розуміння моделі знову ж таки нижче, ніж у людей. У цій статті обговорюється ряд потенційних причин розбіжностей між генеративними моделями та людьми з точки зору конфігурації потенціалу, включаючи цілі навчання моделі, розмір та характер вхідних даних.Значення цього дослідження полягає в тому, що, перш за все, це означає, що існуючі концепції інтелекту, отримані з людського досвіду, можуть бути не узагальнені для ШІ, і навіть незважаючи на те, що можливості ШІ, здається, багато в чому імітують або перевершують людський інтелект, його можливості можуть докорінно відрізнятися від очікуваних моделей людини. З іншого боку, висновки цієї статті також пропонують бути обережними при вивченні генеративних моделей, щоб отримати уявлення про людський інтелект і пізнання, оскільки, здавалося б, результати на рівні експерта можуть приховувати нелюдські механізми. Підсумовуючи, парадокс генеративного ШІ спонукає людей вивчати моделі як цікаву антитезу людського інтелекту, а не як паралельну антитезу.«Парадокс генеративного штучного інтелекту підкреслює цікаву ідею про те, що моделі штучного інтелекту можуть створювати контент, який вони самі можуть не до кінця розуміти. Це піднімає потенційні проблеми, пов'язані з обмеженнями розуміння штучного інтелекту та його потужними генеративними можливостями». – розповіли користувачі мережі.![](https://appserversrc.8btc.cn/Fm7pO0ct1pT3ENFgSqZgauWjdNNw)   ## **Що таке парадокс генеративного штучного інтелекту**  Почнемо з розгляду парадоксу генеративного штучного інтелекту та експериментального дизайну для його перевірки.![](https://appserversrc.8btc.cn/FmhVyTSB8JioRLI95KhTkAXJMf5A) *Малюнок 1: Генеративний штучний інтелект у мові та зорі може давати високоякісні результати. Парадоксально, але модель має труднощі з демонстрацією вибіркового (A, C) або питального (B, D) розуміння цих закономірностей. *Генеративні моделі виявляються більш ефективними в набутті генеративних здібностей, ніж розуміння, на відміну від людського інтелекту, який часто важче отримати.Для перевірки цієї гіпотези необхідне оперативне визначення різних аспектів парадоксу. По-перше, для даної моделі і завдання t, де за основу береться людський інтелект, що означає бути «більш ефективним», ніж розуміти здібності. Використовуючи g і u як деякі показники продуктивності для генерації та розуміння, дослідники формалізували гіпотезу парадоксу генеративного ШІ як:![](https://appserversrc.8btc.cn/Fvp6z1bdmtv-GHGupI571K0D8fiw) Простіше кажучи, для задачі t, якщо генеративна продуктивність людини g збігається з моделлю, то продуктивність людського розуміння U буде значно вищою, ніж модель (> ε при розумному ε). Іншими словами, модель показала гірші результати з точки зору розуміння, ніж дослідники очікували б від людей з такими ж потужними генеративними здібностями.Операційне визначення генерації просте: якщо отримати вхідні дані завдання (питання/підказка), генерація полягає у генерації спостережуваного контенту для задоволення цього входу. В результаті продуктивність g (наприклад, стиль, правильність, перевага) може бути оцінена автоматично або людиною. Хоча розуміння не визначається кількома спостережуваними результатами, його можна перевірити, чітко визначивши його ефекти:1. Вибіркове оцінювання. Якою мірою модель ще може вибрати точну відповідь із наданого набору кандидатів у дискримінантному варіанті одного і того ж завдання для заданого завдання, яка може генерувати відповідь? Поширеним прикладом є відповіді з кількома варіантами відповідей, які є одним із найпоширеніших способів перевірки людського розуміння та розуміння природної мови в мовних моделях. (Рис. 1, колонки А, В)2. Оцінка на основі запитань. Якою мірою модель може точно відповісти на питання про зміст і доцільність даного згенерованого модельного результату? Це схоже на усний іспит в освіті. (Малюнок 1, колонки Б, Г).Ці визначення розуміння надають план для оцінки «парадоксу генеративного штучного інтелекту» та дозволяють дослідникам перевірити, чи справедлива гіпотеза 1 для різних моделей, завдань і моделей.  ## Коли моделі можуть бути згенеровані, чи можна їх дискримінувати? **  По-перше, дослідники провели паралельний аналіз продуктивності варіантів генеративного завдання та дискримінаційного завдання у вибірковому оцінюванні, щоб оцінити здатність моделі генерувати та розуміти її в мовному та візуальному режимах. Вони порівняли це покоління та показники дискримінації з людьми.На малюнку 2 нижче порівнюється продуктивність генерації та дискримінації GPT-3.5, GPT-4 та людей. Ви можете побачити, що в 10 з 13 наборів даних є принаймні одна модель, яка підтримує субгіпотезу 1, з моделями, які кращі за людей з точки зору генерації, але менш дискримінаційні, ніж люди. З 13 наборів даних 7 наборів даних підтверджують субгіпотезу 1 для обох моделей.![](https://appserversrc.8btc.cn/Fo1PsqIi-GHyNYkr3Ydj6dU_r0lC) Очікувати, що люди будуть генерувати деталізовані зображення, такі як візуальні моделі, нереалістично, і середньостатистична людина не може відповідати стилістичним якостям таких моделей, як Midjourney, тому передбачається, що люди мають нижчу генеративну продуктивність. Тільки генерація і точність дискримінації моделі порівнюється з точністю дискримінації людей. Подібно до мовної області, рисунок 3 ілюструє, що CLIP та OpenCLIP також менш точні, ніж люди, з точки зору дискримінантної продуктивності. Передбачається, що люди менш здатні генерувати, що узгоджується з підгіпотезою 1: Vision AI вище середнього людського показника з точки зору генерації, але відстає від людини в плані розуміння.![](https://appserversrc.8btc.cn/Ftpy7pu3_t4-mbeDfTq8jLXRWZxD) На малюнку 4 (ліворуч) показаний GPT-4 у порівнянні з людьми. Подивившись на нього, можна побачити, що коли відповіді є довгими та складними, наприклад, узагальнення довгого документа, модель, як правило, робить найбільше помилок у дискримінантному завданні. ** Люди, навпаки, здатні підтримувати стабільно високий рівень точності в завданнях різної складності.На малюнку 4 (праворуч) показана дискримінантна продуктивність OpenCLIP у порівнянні з людьми на різних рівнях складності. У сукупності ці результати підкреслюють здатність людей розпізнавати правильну відповідь навіть перед обличчям складних або змагальних вибірок, але ця здатність не така сильна в мовних моделях. Ця розбіжність піднімає питання про те, наскільки добре ці моделі насправді зрозумілі.![](https://appserversrc.8btc.cn/Fn6ptJJYnqmdCsVa0AYaIhpfgwBF) Малюнок 5 ілюструє помітну тенденцію: оцінювачі, як правило, віддають перевагу відповідям GPT-4, а не відповідям, створеним людиною.![](https://appserversrc.8btc.cn/FqryMtoaUeoLZvTHEKUHdcMX4szq)   ## Чи розуміє модель результати, які вона генерує? **  Попередній розділ показав, що моделі, як правило, добре генерують точні відповіді, але відстають від людей у завданні дискримінації. Тепер, в оцінках, заснованих на питаннях, дослідники ставлять моделі запитання безпосередньо про згенерований контент, щоб дослідити, якою мірою модель може продемонструвати осмислене розуміння згенерованого контенту – що є сильною стороною людей.![](https://appserversrc.8btc.cn/Fho2w3W3iisqzkVZsOD330WpurNL) На малюнку 6 (зліва) показані результати мовної модальності. Незважаючи на те, що модель перевершує генерацію, вона часто робить помилки, відповідаючи на запитання про її генерацію, що свідчить про те, що модель робить помилки в розумінні. Якщо припустити, що людина не може генерувати такий текст з тією ж швидкістю або в тому ж масштабі, хоча питання йде про вихід самої моделі, точність гарантії якості людини була незмінно високою в порівнянні з моделлю. Як описано в підгіпотезі 2, дослідники очікують, що люди досягнуть більш високої точності у власному згенерованому тексті. У той же час можна відзначити, що люди в цьому дослідженні не є експертами, і створення такого складного тексту, як вихід моделі, може бути величезною проблемою.В результаті дослідники очікують, що якщо модель порівнювати з людиною-експертом, розрив у продуктивності в розумінні контенту, який вони генерують, збільшиться, оскільки експерт-людина, швидше за все, відповість на такі запитання з майже ідеальною точністю.На малюнку 6 (праворуч) показані результати питання в наочному режимі. Як бачите, моделі, що розуміють зображення, все ще не можуть зрівнятися з людьми за точністю, відповідаючи на прості запитання про елементи на згенерованих зображеннях. При цьому моделі SOTA, що генерують зображення, перевершують більшість звичайних людей за якістю та швидкістю генерації зображень (очікується, що звичайним людям буде складно генерувати подібні реалістичні зображення), що свідчить про те, що візуальний ШІ відносно далеко відстає від людини з точки зору генерації (сильніше) і розуміння (слабше). Дивно, але існує менший розрив у продуктивності між простими моделями та людьми порівняно з просунутими мультимодальними LLM (тобто Bard та BingChat), які мають захоплююче візуальне розуміння, але все ще не можуть відповісти на прості запитання про згенеровані зображення.