Десятки мільйонів людей дивляться картину «згоріла дитина»! Професор Берклі розвінчує чутки про те, що детектори зображень зі штучним інтелектом марні

Джерело статті: Shin Ji Yuan

Не дарма ШІ не може перемогти ШІ. Останнім часом десятки мільйонів людей дивляться фотографії дитячих смертей, а інструменти виявлення ШІ не можуть дати послідовну відповідь.

Детектор зображень зі штучним інтелектом знову миється!

Останнім часом в інтернеті з'явилася велика кількість фотографій конфліктів на Близькому Сході, які показують світові, наскільки крихким і безпорадним є життя в таких екстремальних умовах.

Серед них фото «обгорілої дитини» занадто жорстоке, щоб бути правдою.

Отже, хтось помістив фотографії в детектор зображень зі штучним інтелектом, щоб визначити, чи ці фотографії згенеровані штучним інтелектом.

Звичайно, фотографія була ідентифікована як «згенерована штучним інтелектом» детектором штучного інтелекту Optic.

На 4чані є навіть "оригінальна картинка", а оригінальне розташування тіла - це власне собака.

Тож користувачі мережі гнівно розійшлися по суті твіту видавця, накинувшись на нього за використання фотографій, згенерованих штучним інтелектом, для поширення фальшивої паніки кінця світу.

Твіт, який вважає, що фотографія була згенерована штучним інтелектом, менш ніж за 2 дні прочитали 21 мільйон людей.

Але незабаром користувачі мережі виявили, що вони розмістили фотографії на одному і тому ж детекторі штучного інтелекту, і результати були майже випадковими, як ШІ, так і людей.

Хтось виявив, що поки одне і те ж зображення обрізане, або колір фону змінюється на чорно-білий, детектор буде думати, що знімок зроблений людиною.

Навіть іноді, коли детектор «підкине монетку», монета встане...

Отже, цей графік згенерований штучним інтелектом?

Нарешті, представник детектора ШІ також написав у Твіттері про цей інцидент, вважаючи, що у них немає можливості визначити, чи згенерована картинка штучним інтелектом, і сподівається, що всі обговорять це раціонально.

**Детектор зображень зі штучним інтелектом, наскільки він ненадійний? **

Хані Фарід, професор Каліфорнійського університету в Берклі та один із провідних світових експертів із цифрової обробки зображень, сказав, що зображення не показує жодних ознак того, що воно було згенероване штучним інтелектом.

«Однією з найбільших проблем генераторів зображень зі штучним інтелектом є високоструктуровані форми та прямі лінії», — сказав Фарід. «Якщо ви подивитеся на ніжки та гвинти, і все виглядає ідеально, майже неможливо, щоб зображення було згенеровано штучним інтелектом».

Наприклад, на цій знаменитій картині «Губка Боб Квадратні Штани 9/1» лінії веж-близнюків за вікном не прямі, а приладові панелі на площині скручені між собою, що виглядає як «А в А».

«На цій фотографії ми побачили, що структура об'єкта була точною, тіні точними, артефактів не було — це наштовхнуло мене на думку, що зображення має бути повністю реальним», — сказав Фарід.

Фарід також ідентифікував зображення за допомогою своїх власних інших детекторів зображень зі штучним інтелектом, а чотири інші інструменти виявлення зображень зі штучним інтелектом також припускали, що зображення не було згенероване штучним інтелектом.

«Детектори штучного інтелекту — це інструмент, але це лише частина набору інструментів», — сказав Фарід. Користувачам потрібно провести серію тестів на всьому зображенні, а отримати відповідь одним натисканням кнопки неможливо».

А інструмент виявлення ШІ Optic не надав конкретних подробиць власної технології виявлення.

На сайті Optic також зазначено, що «детектори штучного інтелекту можуть давати неточні результати».

Технологія виявлення зображень зі штучним інтелектом

Минулого року професор Фарід написав статтю про те, як оцінювати узгодженість зображень у біографічних інструментах штучного інтелекту.

Оцінюючи послідовність зображення, він може допомогти визначити, чи створене зображення штучним інтелектом.

Посилання на папір:

Професор починає з опису трьох відповідних методів аналізу, заснованих на фізиці, кожен з яких спирається на ту саму фундаментальну геометрію перспективи, притаманну процесу формування зображення.

Точка сходження

  1. Паралельні лінії відступу сходяться в точці зникнення.

瓷砖之间的线图1(a) є паралельним. Під час зображення всі ці лінії сходяться в точці зникнення. Якщо паралельні лінії в сцені знаходяться далеко від об'єктива в глибину, то є точка сходження, хоча вона може випасти за межі зображення.

Якщо паралельні лінії в сцені не відступають у глибину, тобто якщо вони ідеально паралельні сенсору об'єктива (на будь-якій відстані), то паралельні лінії будуть зображені як паралельні лінії, і для практичних цілей точку сходження можна вважати нескінченною. Ця геометрія випливає з основ перспективної проекції.

Під час перспективної проекції точки (X, Y, Z) у сцені зображуються до точок (f X/Z, f Y/Z), де f — фокусна відстань об'єктива.

Оскільки положення точки на зображенні обернено пропорційне відстані Z, то проектована точка стискається як функція відстані, що призводить до збіжності ліній на зображенні;

  1. Паралельні прямі на паралельних площинах сходяться до однієї і тієї ж точки сходження

Далека коробка вирівнюється з плиткою на підлозі на малюнку 1 (б) так, щоб краї коробки були паралельні лінії між плитками. Оскільки паралельні прямі на паралельних площинах мають спільну точку сходження, точка сходження однакова збоку коробки і на кахельній підлозі;

  1. Точка сходження всіх ліній на площині розташована на лінії сходження.

Багато груп паралельних прямих, кожна з яких сходяться до іншої точки сходження, як показано на малюнку 1 (в). Якщо групи паралельних прямих охоплюють одну і ту ж площину сцени, то їх точки сходження будуть знаходитися на лінії зникнення. Напрямок лінії сходження визначається поворотом лінзи щодо площини, поперек якої перетинається паралельна пряма

Тіні

Дещо дивно, але та сама геометрія за точкою зникнення працює і для відкидання тіней.

На зображенні вище показані три промені, що з'єднують точки на коробці і їх аналоги на відкидають тіні. Розширюючи межу зображення, виявляється, що три промені перетинаються в точці, яка відповідає проекції джерела світла, що висвітлює сцену.

Це геометричне обмеження, пов'язане з тінями, об'єктами та світлом, діє незалежно від розташування та орієнтації поверхні, на яку відкидається тінь, незалежно від того, чи знаходиться джерело світла поблизу (настільна лампа) чи далеко (сонце).

Звичайно, аналіз передбачає, що сцена освітлюється одним головним джерелом світла, що видно з наявності лише однієї відкинутої тіні на об'єкт.

У наведеному вище прикладі джерело світла, яке висвітлює сцену, знаходиться перед об'єктивом, тому проекція джерела світла знаходиться у верхній половині площини зображення.

Однак, якщо світло знаходиться за лінзою, проекція джерела світла буде знаходитися в нижній половині площини зображення. Через цю інверсію тінь примусу об'єкта також має бути інвертована.

Тому аналіз відкидної тіні зображення повинен враховувати три можливості:

(1) Світло розташоване перед об'єктивом, проекція джерела світла розташована у верхній частині площини зображення, а примус закріплений до тіні, що відкидається, і охоплює об'єкт;

  1. світло знаходиться позаду об'єктива, а джерело світла проектується в нижній половині площини зображення, утримуючи прив'язане до об'єкта і огортаючи відкинуту тінь;

(3) Світло розташоване безпосередньо над або під центром лінзи, проекція джерела світла знаходиться на нескінченності, а обмеження перетинаються на нескінченності. Якщо будь-який з цих випадків призводить до загального перетину всіх обмежень, фізично розумно відкидати тіні.

Рефлексія

Сцена, показана на малюнку 2 нижче, показує три прямокутники, відбиті в плоскому дзеркалі.

Нижня половина цієї діаграми показує геометричний зв'язок між реальною коробкою та віртуальною коробкою.

Помаранчева лінія позначає дзеркало, розташоване в середній точці між двома наборами коробок. Жовта лінія з'єднує відповідні точки на реальному та віртуальному полях. Ці лінії паралельні один одному і перпендикулярні дзеркалу.

Тепер розглянемо, як з'являються ці паралельні лінії, коли вони накладаються на сцену. Якщо дивитися з дзеркальної площини, паралельні лінії вже не паралельні. Натомість, через перспективну проекцію, ці паралельні лінії сходяться до точки, подібно до того, як паралельні лінії у світі сходяться до точки зникнення.

Оскільки лінії, які з'єднують відповідні точки сцени та їх відображення, завжди паралельні, лінії повинні мати спільний перетин на зображенні, щоб бути фізично правдоподібними.

Аналіз екземплярів

На малюнку 3 вище показано три репрезентативні приклади композитних зображень зі штучним інтелектом і проаналізовано узгодженість геометричної перспективи підлоги та стільниць.

Кожне зображення (в межах декількох пікселів) точно відображає перспективну геометрію кахельної підлоги, що свідчить про постійну точку зникнення (відтворено синім кольором). Однак точка сходження паралельної стільниці (відтворена блакитним кольором) геометрично несумісна з точкою сходження стільниці.

Вирівняйте плитку відповідним чином. Навіть якщо стільниця не паралельна плитці, блакитна точка сходження повинна знаходитися на лінії зникнення (виділена червоним кольором), визначеній точкою сходження кахельної підлоги. Зверніть увагу, що для зображення у верхньому правому куті малюнка 3 горизонтальні лінії на кахельній підлозі майже паралельні, тому відповідні точки сходження знаходяться на нескінченності і тому не перетинаються.

Хоча точки зникнення на цих зображеннях локально узгоджені, вони не є глобально узгодженими. На кожному з 25 композиційних зображень кухні був виявлений один і той же візерунок.

Зображення вище є квадратним зображенням, згенерованим за допомогою підказки, і в тінях є явна невідповідність.

На малюнку 8 вище показаний результат застосування геометричного аналізу до зображення, створеного штучним інтелектом, що містить досить точне відображення.

Хоча ці відображення візуально виправдані, вони геометрично непослідовні.

На відміну від відкидання тіней і геометрії в попередніх розділах, DALL· E-2 важко синтезувати обґрунтовані відображення, імовірно, тому, що такі відображення рідше зустрічаються в його наборі даних навчальних зображень.

Ґрунтуючись на цих розуміннях обмежень зображень, створених штучним інтелектом, дуже корисно визначити, чи синтезується зображення штучним інтелектом через виявлення узгодженості зображення.

Розпізнавання зображень складне, ШІ перемагає ШІ

Генератори зображень зі штучним інтелектом постійно розвиваються.

У першій половині року Midjourney вибухнув і зміг згенерувати досить реалістичні картинки, але обдурив багатьох.

86-річний Папа Римський одягнений у білий динний капелюх, розкльошений білий пуховик і відкрите намисто з металевим хрестом, а також серйозний вираз обличчя.

Тоді, як тільки фото було оприлюднено, воно обдурило всіх у соцмережах, і його гарячково пересилали багато користувачів мережі, а деякі навіть назвали папу занадто трендовим.

Коли всі повірили в неї, хтось раптом вказав на те, що вона згенерована штучним інтелектом, і багато людей миттєво ошелешилися.

Це лише один із каштанів, а різні фальшиві картинки на кшталт Барри, генерального директора нової дівчини Маска GM, вийшли на рівень фальшивої реальності.

Цей інцидент безпосередньо спонукав Маска, співзасновника Apple Стівена Возняка та інших технологічних лідерів закликати до призупинення досліджень і розробок штучного інтелекту.

Хоча генерація штучного інтелекту є веселою та зручною, вона створює ризики для галузі в цілому.

Якщо він не маленький, то буде використовуватися людьми з прихованими мотивами для поширення неправдивої інформації, порушення прав інтелектуальної власності або використання для створення «фотографій фруктів» і так далі.

У найближчі кілька місяців Midjourney випустить останню версію V6, яка була вдосконалена з точки зору генерації образів.

Інші генератори зображень зі штучним інтелектом також швидко вдосконалюються. Деякий час тому OpenAI щойно випустила DALL· E 3, в той же час генерація зображень Microsoft Bing також використовувала DALL· E 3。

Звичайно, дослідники також намагаються створити інструменти, які можуть розрізняти зображення, головне – як не відставати від темпів створення зображень зі штучним інтелектом?

Конкурс інструментів інспекції штучного інтелекту

Тепер більше десятка компаній надали інструменти для визначення того, чи було зображення згенероване штучним інтелектом, і їхні назви включають Sensity AI (виявлення глибини), Fictitious.AI (виявлення плагіату), Originality.AI тощо.

Компанія Optic, що займається довірою та безпекою штучного інтелекту, запустила веб-сайт «AI or Not».

На цьому веб-сайті ви можете завантажити фотографію або вставити URL-адресу зображення, і веб-сайт автоматично визначить, чи була фотографія згенерована штучним інтелектом. Кількість зображень, які ви можете завантажити, не обмежена.

Крім того, ви можете опублікувати або ретвітнути зображення в обліковому записі Optic у Twitter @optic_xyz, або додати #aiornot, і ви отримаєте відповідь із відсотком достовірності зображення.

Андрій Доронічев, виконавчий директор компанії, сказав, що інструменти штучного інтелекту Optic можуть перевіряти кожне зображення на наявність артефактів, невидимих для людського ока, таких як зміни яскравості та кольору на зображенні.

Дивно, але інструмент має точність 95%.

Однак з оновленням та ітерацією інструментів генерації зображень зі штучним інтелектом, таких як Midjourney, рівень точності «AI or Not» впав до 88,9%.

Наприклад, на знімку Папи Римського ШІ вважає, що існує 87% ймовірності, що це зроблять люди.

Образ папи в білому пуховику обдурили перед оновленням Optic

Насправді, деякі користувачі мережі заявили, що якщо ви уважно подивитеся на цю картинку, то виявите очевидні ознаки, згенеровані штучним інтелектом, включаючи кілька явно розмитих областей деталей:

  • Здавалося б, неповна рука намагається схопити щось, що не зовсім нагадує кавову чашку з плямою поруч

  • Хрест, який носив Папа Римський, не має форми прямого кута, але також має гравіювання сидячого Ісуса, яке, здається, вирізане з глини

  • Окуляри не поєднуються з тінями обличчя

Всі ці моменти вказують на те, що це генерується штучним інтелектом. Він розуміє лише поверхню реальності, але не основні правила, які регулюють взаємодію фізичних об'єктів.

На додаток до інструментів Optic, Hive, компанія зі штучним інтелектом, яка позначає контент, нещодавно оновила власний безкоштовний детектор контенту, згенерований штучним інтелектом.

Інструмент штучного інтелекту був навчений на мільйонах зображень з DALL-E, Stable Diffusion і Midjourney.

Hive очікує, що він точно виявлятиме близько 95 відсотків зображень, створених штучним інтелектом, особливо поширених зображень, які стають вірусними в Інтернеті, часто краще, ніж інші способи розпізнавання зображень.

Генеральний директор Кевін Го сказав, що коли люди діляться зображеннями штучного інтелекту, вони вибирають найбільш реалістичні підроблені зображення, щоб люди могли розрізнити, що є справжнім.

Зображення ліворуч — це зображення, створене штучним інтелектом, яке можна розрізнити за двома пальцями, а непарна п'ятірка, тоді як справжня річ виглядає як на звичайній фотографії iStock, показана праворуч.

Як і Optic, Hive не зміг виявити зображення з Bing Image Creator.

Однак ці інструменти виявлення не стоять на місці, і вони будуть оновлюватися та оновлюватися в міру ітерації моделі зображень ШІ.

Фактично, розпізнавання зображень зі штучним інтелектом може не тільки покладатися на інструменти виявлення в галузі, але й встановлювати огорожі під час навчання моделей.

Багато генераторів зображень зі штучним інтелектом також мають «чорний список», який обмежує можливість створення певного контенту.

Наприклад, Bing Image Creator позначає та блокує запити користувачів, які просять його створити зображення відомих громадських діячів.

Midjourney має «модераторів-людей» і впроваджує спосіб використання алгоритмів для модерації запитів користувачів.

І ДАЛЛ· Згідно з технічним звітом E 3, коли ви просите ChatGPT згенерувати якісь «фруктові карти» або зображення з чорно-білим зображенням, вхідні дані безпосередньо переписуються.

** Додайте водяний знак до ШІ, це роблять великі виробники **

Крім того, цифрові водяні знаки також є одним із важливих засобів підвищення генеративної безпеки штучного інтелекту, і такі технологічні гіганти, як Microsoft і Google, використовувалися в продуктах.

Корпорація Майкрософт представила DALL· на конференції Surface у вересні. E 3 наділений здатністю Bing генерувати зображення.

У той же час, щоб гарантувати, що зображеннями не зловживають, команда Microsoft використовує методи шифрування для створення невидимих водяних знаків для кожного зображення, включаючи час і дату створення.

Будь-хто може натиснути на кожне зображення та легко визначити, чи було воно згенероване штучним інтелектом.

Meta також відкрила вихідний код Stable Signature, який вбудовує цифрові водяні знаки безпосередньо в зображення, автоматично згенеровані штучним інтелектом.

Паперова адреса:

Варто зазначити, що на цифровий водяний знак, згенерований Stable Signature, не впливають руйнівні операції, такі як обрізання, стиснення, зміна кольору тощо, і його можна простежити до першоджерела зображення.

Він може бути застосований до таких моделей, як дифузія та GAN, таких як стабільна дифузія.

А Google на Google Cloud Next також випустив SynthID, який додає водяні знаки, створені штучним інтелектом, а також виявляє та ідентифікує їх.

SynthID використовує дві моделі глибокого навчання, одну для додавання водяних знаків, а іншу для розпізнавання. Їх можна тренувати разом на наборі різних образів.

Комбінована модель оптимізована для цілого ряду цілей, включаючи правильну ідентифікацію вмісту водяних знаків і поліпшення приховування водяних знаків шляхом візуального вирівнювання водяного знака з оригінальним вмістом.

Цифровий водяний знак, згенерований SynthID, вбудований безпосередньо в пікселі зображення і непомітний для людського ока. Але SynthID може їх виявляти та ідентифікувати.

SynthID може допомогти оцінити ймовірність того, що зображення було створено Imagen

Аміт Рой-Чоудхурі, професор електротехніки та комп'ютерної інженерії в Каліфорнійському університеті в Ріверсайді, сказав, що, уважно придивляючись до фону зображення, ми можемо краще виявляти фальшиві зображення на власні очі.

Однак у той момент, коли моделі ШІ прискорюють ітерацію, мати «золоте око» надто складно.

Ресурси:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити