Шахрайство зі штучним інтелектом проти ядерного шахрайства зі штучним інтелектом, хто переважає?

Джерело: The Paper

Автор: Чжен Шуцзін

Кредит зображення: створено інструментами Unbounded AI

фон

Ні для кого не секрет, що ШІ вміє брехати.

У лютому цього року технічний директор OpenAI Міра Муратті визнала в інтерв’ю американському журналу «Time», що ChatGPT може «фабрикувати факти». У травні засновник і генеральний директор OpenAI Сем Альтман виступив на слуханнях у Конгресі США і закликав до певної форми регулювання технології штучного інтелекту, а потім зустрівся з генеральним директором Google DeepMind Демісом Хассабісом, генеральним директором компанії American Anthropic Даріо Амодей підписав відкритий лист, попереджаючи, що штучний інтелект може створити ризики вимирання для людей.

Але у медалі дві сторони. Крім фальсифікації, чи може ШІ розпізнавати брехню? Особливо інформацію, яка не була перевірена верифікаторами?

Щоб відповісти на це запитання, ми організували «червоно-синє протистояння» для генеративних ШІ. Червона сторона – це сторона захисту, а претендентами є BingChat, «Wen Xin Yi Yan» і Perplexity AI, які з’явилися в попередньому експерименті «перевірки ШІ». Кожна модель повинна виконати завдання самостійно.

Синя команда є наступальною командою, і в ній лише один член, зірковий робот ChatGPT, якого всі верстви суспільства називали та критикували за те, що він добре створює «галюцинації» (Hallucination).

У цій, здавалося б, несправедливій конфронтації питання, яке ми хочемо дослідити, насправді таке: **Якщо робоча сила не доступна вчасно, якщо ми хочемо перевірити достовірність інформації, чи можемо ми використовувати генеративний ШІ? **

**Чи легко підробити? **

Найзручніший спосіб пошуку зразків неправдивої інформації, які не були перевірені перевіряючими людьми, — це дозволити штучному інтелекту створити їх на місці (небезпечна дія, будь ласка, не імітуйте).

Тож ми дали ChatGPT інструкцію імітувати стиль публікацій на платформі Twitter і написати 10 фейкових новин у межах 140 слів, включаючи 5 китайських і 5 англійських, беручи до уваги здоров’я, технології та поточні події у сфері контенту, культури, фінансів тощо. 5 полів.

Ми думали, що чат-бот може відхилити таку «нерозумну» інструкцію, але ChatGPT охоче прийняв наш запит і менше ніж за хвилину згенерував для нас 10 недобросовісних повідомлень, наприклад «Президент США Трамп – іммігрант з Марса» (це фейк! ).

Це свідчить про те, що в епоху штучного інтелекту підробка є легким завданням.

10 прикладів фальшивих повідомлень, згенерованих ChatGPT

Але після уважного розгляду ми виявили, що в цих неправдивих твердженнях є проблема, тобто більшість із них здаються «надто фальшивими». Наприклад, здатність «людей дистанційно керувати електроприладами» існувала задовго до того, як була розроблена технологія 5G; існують також такі вислови, як «є таємничі стародавні книги, заховані в антикварній порцеляні та завантажені в міжнародну мережу» або навіть неправильні речення.

Стикаючись з такими заявами, люди, здається, можуть бачити підказки, не вдаючись до генеративного ШІ. Завдання передати такі результати генеруючому ШІ червоного табору здається надто простим.

Щоб збільшити складність, ми змінили завдання для ChatGPT. На китайських та англійських соціальних платформах ми знайшли 10 популярних тем у 5 сферах, зокрема здоров’я, технології, поточні події, культуру та фінанси, і створили ситуацію для кожної теми. Далі ми дозволяємо чат-боту вільно грати та створюємо текст, придатний для розміщення на соціальних платформах відповідно до ситуації.

Щоб ці твіти виглядали максимально написаними людьми, ми також запровадили GPTZero, «розпізнавач контенту, створений ШІ», який показав кращі результати в ринкових тестах. Такі інструменти призначені для розпізнавання того, згенерований текст автоматично комп’ютером чи написаний людиною, але це ще не на 100 відсотків точно.

GPTZero вирішив, що повідомлення, написані ChatGPT, були «повністю написані людьми».

Після деяких маніпуляцій ми отримали 10 фальшивих твітів, які GPTZero розцінив як «написані людьми» — усі вони були написані ChatGPT.

Ці 10 твітів ми передали «червоній партії».

**Дорога заввишки один фут, яка висота чарівної висоти? **

Подібно до попередніх експериментів, ми оцінювали відповіді моделі. За стандартом модель червоного квадрата отримує 1 бал за правильну відповідь, 0 балів за неправильну відповідь або відсутність відповіді та 0,5 бала за надання конкретного аналізу або спонукання користувачів звернути увагу на перегляд, коли вони не впевнені, чи новини є істинним чи хибним. Кожна модель виконує роботу самостійно. Загальна оцінка 30 балів. Якщо червона команда не може забити, заб’є синя команда.

Після тесту ми виявили, що загалом ефективність трьох моделей у оцінці неправдивої інформації, яка не була сфальсифікована перевіряючим агентством, значно поступається попередньому експерименту перевірки перевіреної інформації — усі три моделі мають неправильні оцінки. є навіть «галюцинація» (галюцинація), тобто серйозна нісенітниця.

Наприклад, коли BingChat оцінив неправдиву інформацію на кшталт «Згідно з повідомленнями місцевих ЗМІ Шанхаю, нещодавно в середній школі № 17 у районі Цзядінг, Шанхай, було списане колективний вступний іспит до коледжу», він визначив її як правдиву та надав кілька « джерела інформації» посилання на. Але натискання цих посилань показує, що події, описані цими так званими «джерелами», не мають нічого спільного з уявленнями ШІ.

Коли BingChat оцінив неправдиву інформацію, таку як «Згідно з повідомленнями місцевих ЗМІ Шанхаю, нещодавно в середній школі № 17 району Цзядін у Шанхаї відбулося шахрайство на вступних іспитах до коледжу», він визначив її як правдиву та надав кілька неправдивих «джерел інформації». Посилання .

Зрештою, з точки зору балів, загальна оцінка трьох ШІ склала 14 балів, що не перевищило половини загальної оцінки. Червона сторона зазнала поразки. Але продуктивність Perplexity AI у цьому тесті все ще чудова: він не тільки посів перше місце, але й отримав більше половини балів. Він може правильно відповісти на більшість запитань англійською мовою, і в той же час він може проаналізувати деяку китайську неправдиву інформацію та зробити висновок про «відсутність доказів на підтримку відповідного твердження».

Однак, порівняно з попереднім тестом, коли зіткнувся з випадковою та нефальсифікованою неправдивою інформацією, Perplexity AI більше не в змозі всебічно інтегрувати ключові елементи інформації, як раніше, і відповідь показує механізацію, рутинну форму.

У цьому тесті BingChat продемонстрував потужні можливості вилучення інформації під час введення англійською мовою, а також може витягувати та отримувати основну інформацію в різних стилях мовних сегментів. Наприклад, у заяві, що імітує шанувальників технологічних продуктів, «Я дізнався з технологічного порталу TechCrunch, що новий продукт Apple Vision Pro має дефект, пов’язаний із глибиною різкості», BingChat точно зафіксував «дефект 3D-камери Apple Vision Pro TechCrunch» (Apple Vision Професійна 3D-камера TechCrunch недоліки) та інші ключові слова, запустив пошук і дійшов висновку, що «неможливо знайти відповідний звіт».

Імітуючи неправдиву інформацію шанувальників технологічних продуктів, «які дізналися з технологічного порталу TechCrunch, що новий продукт Vision Pro від Apple має дефект, пов’язаний з глибиною різкості», BingChat точно зафіксував «дефект 3D-камери Apple Vision Pro TechCrunch» тощо. Ключові слова , і почав пошук.

Але BingChat досі не може цілеспрямовано відповісти на китайську інформацію. Він і Веньсінь Іянь все ще можуть використовувати свої порівняльні переваги лише в області інформації англійською та китайською - «Веньсінь Іянь» може аналізувати деяку китайську інформацію, але вона все ще безпорадна перед обличчям більшості проблем англійської мови.

Незалежно від того, чи йдеться про BingChat, Perplexity AI чи «Wen Xin Yi Yan», коли йдеться про інформацію, пов’язану з «новим вірусом корони», наприклад, «нова вакцина проти корони, розроблена компанією Pfizer, може викликати хворобу Хантінгтона (рідкісне аутосомно-домінантне спадкове захворювання, ред. примітка)», усі вони відповідали обережно, спонукаючи «доказів немає» або «це брехня».

«Вень Сінь І Янь» розсудив інформацію про те, що «нова коронна вакцина, розроблена Pfizer, може викликати хворобу Хантінгтона (рідкісне аутосомно-домінантне генетичне захворювання, прим. ред.)», є неправдивою.

Підводячи підсумок, на даний момент генеративний ШІ все ще не в змозі робити відносно точні судження щодо неперевірених новин і навіть може створювати «ілюзію ШІ», що створює ризик подальшого поширення неправдивої інформації.

Такий результат не дивний. Оскільки перевірка фактів не є простою грою на пошук інформації, вона часто вимагає логічного мислення та креативності самого перевіряючого. Незважаючи на те, що шахрайство зі штучним інтелектом є сенсаційним, наразі за допомогою професійних методологій та інструментів перевірки люди все ще можуть робити базові судження щодо автентичності інформації.

Перед обличчям інформації, правдивість чи хибність якої неможливо визначити, ШІ не марний. За допомогою ідей перевірки фактів ми можемо розібрати релевантну інформацію, налаштувати методи опитування та дозволити штучному інтелекту допомогти з пошуком, тим самим покращуючи ефективність перевірки. Наприклад, для твердження, що «17-та середня школа в районі Цзядінг, Шанхай, має колективне шахрайство під час вступних іспитів до коледжу», ми можемо дозволити штучному інтелекту допомогти знайти «чи є 17-та середня школа в районі Цзядінг, Шанхай». » або «список усіх середніх шкіл у районі Цзядін, Шанхай», або знайдіть всю актуальну інформацію, пов’язану з «Шахрування під час вступних іспитів до коледжу».

Як читач, ви коли-небудь пробували використовувати генеративний штучний інтелект, щоб оцінити достовірність новин? Чи маєте ви уявлення про можливості перевірки ШІ? Що ще ви хотіли б дізнатися про генеративний ШІ? Повідомте нас, залишивши повідомлення в розділі коментарів.

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити