Десятки миллионов людей наблюдают за картиной «сгоревшего младенца»! Профессор Беркли опровергает слухи о том, что детекторы изображений с искусственным интеллектом бесполезны

2023-10-15 08:45:32

Источник статьи: Синь Цзи Юань

Не зря ИИ не может победить ИИ. В последнее время десятки миллионов людей смотрят фотографии детских смертей, а средства обнаружения ИИ не могут дать последовательного ответа.

Детектор изображения с искусственным интеллектом снова промыт!

В последнее время в интернете появилось большое количество фотографий конфликтов на Ближнем Востоке, показывающих миру, насколько хрупка и беспомощна жизнь в таких экстремальных условиях.

Среди них фотография «сожженного младенца» слишком жестока, чтобы быть правдой.

Итак, кто-то поместил фотографии в детектор изображений с искусственным интеллектом, чтобы определить, были ли эти фотографии сгенерированы искусственным интеллектом.

Конечно же, фотография была идентифицирована как «сгенерированная искусственным интеллектом» детектором искусственного интеллекта Optic.

На 4chan есть даже «оригинальная картинка», а оригинальное местоположение тела на самом деле собака.

Поэтому пользователи сети в гневе дошли до конца твита издателя, нападая на него за использование фотографий, сгенерированных искусственным интеллектом, для распространения ложной паники конца света.

Твит, в котором утверждается, что фотография была сгенерирована искусственным интеллектом, был прочитан 21 миллионом человек менее чем за 2 дня.

Но вскоре пользователи сети обнаружили, что они поместили фотографии на один и тот же детектор ИИ, и результаты были почти случайными, как ИИ, так и людей.

Кто-то обнаружил, что до тех пор, пока одно и то же изображение обрезано или цвет фона изменен на черно-белый, детектор будет думать, что снимок был сделан человеком.

Даже иногда, когда детектор «подбрасывает монетку», монета встанет...

Так сгенерирован ли этот график искусственным интеллектом?

Наконец, представитель детектора ИИ также написал в Твиттере об этом инциденте, полагая, что у них нет возможности определить, сгенерирована ли картинка искусственным интеллектом, и надеясь, что все будут обсуждать рационально.

Детектор изображений с искусственным интеллектом, насколько он ненадежен?

Хани Фарид, профессор Калифорнийского университета в Беркли и один из ведущих мировых экспертов в области цифровой обработки изображений, сказал, что изображение не показывает никаких признаков того, что оно было сгенерировано искусственным интеллектом.

«Одна из самых больших проблем с генераторами изображений с искусственным интеллектом — это высокоструктурированные формы и прямые линии», — сказал Фарид. «Если вы посмотрите на ножки и винты и увидите, что все выглядит идеально, то практически невозможно, чтобы изображение было сгенерировано искусственным интеллектом».

Например, на этой знаменитой картине «Губка Боб Квадратные Штаны сделал 9/1» линии башен-близнецов за окном не прямые, а приборные панели на самолете скручены вместе, что выглядит как «А в А».

«На этой фотографии мы увидели, что структура объекта была точной, тени были точными, не было никаких артефактов — это заставило меня поверить, что изображение должно быть полностью реальным», — сказал Фарид.

Фарид также идентифицировал изображение с помощью других детекторов изображений с искусственным интеллектом, а четыре других инструмента обнаружения изображений с помощью искусственного интеллекта также предположили, что изображение не было сгенерировано искусственным интеллектом.

«Детекторы с искусственным интеллектом — это инструмент, но это только часть инструментария», — сказал Фарид. Пользователям необходимо провести серию тестов на всем изображении, и невозможно получить ответ одним нажатием кнопки».

А инструмент обнаружения ИИ Optic не сообщил конкретных подробностей о собственной технологии обнаружения.

На веб-сайте Optic также указано, что «детекторы с искусственным интеллектом могут давать неточные результаты».

Технология обнаружения изображений на основе искусственного интеллекта

В прошлом году профессор Фарид написал статью о том, как судить о согласованности изображений в инструментах ИИ.

Оценивая согласованность изображения, он может помочь определить, создано ли изображение искусственным интеллектом.

Ссылка на статью:

Профессор начинает с описания трех соответствующих методов анализа, основанных на физике, каждый из которых опирается на одну и ту же фундаментальную перспективную геометрию, присущую процессу формирования изображения.

Точка схода

Параллельные линии отступа сходятся в точке схода.

瓷砖之间的线图1(a) является параллельным. При визуализации все эти линии сходятся в точке схода. Если параллельные линии в сцене находятся далеко от объектива по глубине, то имеет место точка схода, хотя она может выходить за пределы изображения.

Если параллельные линии в сцене не отступают в глубину, то есть если они идеально параллельны сенсору объектива (на любом расстоянии), параллельные линии будут отображаться как параллельные линии, и для практических целей точку схода можно считать бесконечной. Эта геометрия проистекает из основ перспективной проекции.

При перспективной проекции точки (X, Y, Z) в сцене преобразуются в точки (f X/Z, f Y/Z), где f — фокусное расстояние объектива.

Поскольку положение точки на изображении обратно пропорционально расстоянию Z, спроецированная точка сжимается в зависимости от расстояния, что приводит к сближению линий на изображении;

Параллельные линии на параллельных плоскостях сходятся в одной и той же точке схода

Дальний ящик выравнивается по плиткам на полу на рисунке 1(b) таким образом, чтобы края коробки были параллельны линии между плитками. Поскольку параллельные линии на параллельных плоскостях имеют общую точку схода, точка схода одинакова на боковой стороне коробки и на плиточном полу;

Точка схода всех линий на плоскости находится на линии схода.

Множество групп параллельных линий, каждая из которых сходится к отдельной точке схода, как показано на рисунке 1(c). Если группы параллельных линий охватывают одну и ту же плоскость сцены, их точки схода будут находиться на линии схода. Направление линии схода определяется поворотом линзы относительно плоскости, через которую пересекается параллельная линия

Тени

Несколько удивительно, что та же геометрия, что и за точкой схода, работает и для отбрасывания теней.

На изображении выше показаны три луча, соединяющие точки на коробке и их аналоги на отбрасывающих тенях. Расширяя границу изображения, обнаруживается, что три луча пересекаются в точке, которая соответствует проекции источника света, освещающего сцену.

Это геометрическое ограничение, связанное с тенями, объектами и светом, действует независимо от расположения и ориентации поверхности, на которую отбрасывается тень, от того, находится ли источник света поблизости (настольная лампа) или далеко (солнце).

Конечно, при анализе предполагается, что сцена освещается одним основным источником света, что очевидно по наличию только одной отбрасываемой тени на объект.

В приведенном выше примере источник света, освещающий сцену, находится перед объективом, поэтому проекция источника света находится в верхней половине плоскости изображения.

Однако, если свет находится за линзой, проекция источника света будет находиться в нижней половине плоскости изображения. Из-за этой инверсии тень зависимости объекта также должна быть инвертирована.

Таким образом, при анализе отбрасывания теней изображения необходимо учитывать три возможности:

(1) Свет расположен перед линзой, проекция источника света расположена в верхней части плоскости изображения, а ограничение привязано к отбрасываемой тени и охватывает объект;

(2) свет находится за линзой, а источник света проецируется в нижней половине плоскости изображения, удерживая его на объекте и обволакивая отбрасываемую тень;

(3) Свет расположен прямо над или ниже центра линзы, проекция источника света находится на бесконечности, а ограничения будут пересекаться на бесконечности. Если какой-либо из этих случаев приводит к общему пересечению всех ограничений, то физически разумно отбрасывать тени.

Отражение

На рисунке 2 показаны три прямоугольника, отраженные в плоском зеркале.

В нижней части диаграммы показана геометрическая зависимость между реальным и виртуальным ящиками.

Оранжевая линия представляет зеркало, расположенное в средней точке между двумя наборами прямоугольников. Желтая линия соединяет соответствующие точки на реальном и виртуальном боксах. Эти линии параллельны друг другу и перпендикулярны зеркалу.

Теперь рассмотрим, как выглядят эти параллельные линии, когда они накладываются на сцену. При наблюдении из зеркальной плоскости параллельные линии больше не параллельны. Вместо этого, благодаря перспективной проекции, эти параллельные линии сходятся в точку, точно так же, как параллельные линии в мире сходятся в точке схода.

Поскольку линии, соединяющие соответствующие точки в сцене и их отражения, всегда параллельны, линии должны иметь общее пересечение на изображении, чтобы быть физически правдоподобными.

Анализ экземпляров

На рисунке 3 выше показаны три репрезентативных примера составных изображений с искусственным интеллектом и проанализирована согласованность геометрической перспективы полов и столешниц.

Каждое изображение (с точностью до нескольких пикселей) точно отражает перспективную геометрию плиточного пола как свидетельство постоянной точки схода (отображается синим цветом). Однако точка схода параллельной столешницы (обозначенная голубым цветом) геометрически несовместима с точкой схода столешницы.

Выровняйте плитки соответствующим образом. Даже если столешница не параллельна плитке, голубая точка схода должна находиться на линии схода (отображается красным цветом), определяемой точкой схода плиточного пола. Обратите внимание, что для изображения в правом верхнем углу рисунка 3 горизонтальные линии на плиточном полу почти параллельны, поэтому соответствующие точки схода находятся на бесконечности и, следовательно, не пересекаются.

Хотя точки схода на этих изображениях локально согласованы, они не являются глобально согласованными. На каждом из 25 составных изображений кухни был обнаружен один и тот же рисунок.

Изображение выше представляет собой квадратное изображение, сгенерированное с подсказкой, и в тенях есть явное несоответствие.

На рисунке 8 выше показан результат применения геометрического анализа к изображению, сгенерированному искусственным интеллектом, содержащему довольно точное отражение.

Хотя эти отражения визуально оправданы, они геометрически непоследовательны.

В отличие от отбрасываемых теней и геометрии в предыдущих разделах, DALL· E-2 трудно синтезировать разумные отражения, по-видимому, потому, что такие отражения реже встречаются в наборе данных обучающих изображений.

Основываясь на этом понимании ограничений изображений, генерируемых ИИ, очень полезно определить, синтезировано ли изображение ИИ, путем обнаружения согласованности изображения.

Распознавание изображений сложное, ИИ побеждает ИИ

Генераторы изображений с искусственным интеллектом постоянно развиваются.

В первой половине года Midjourney взорвался и смог генерировать достаточно реалистичные картинки, но обманул многих людей.

86-летний папа носит белую дынную шляпу, расклешенный белый пуховик и металлическое ожерелье с крестом, которое обнажено, а также серьезное выражение лица.

В то время, как только фотография была опубликована, она обманула всех в социальных сетях и была отчаянно передана многими пользователями сети, а некоторые даже назвали папу слишком модным.

Когда все поверили в это, кто-то вдруг указал на то, что это сгенерировано искусственным интеллектом, и многие люди мгновенно были ошеломлены.

Это лишь один из каштанов, и различные фальшивые картинки, такие как Барра, генеральный директор новой подруги Маска GM, достигли уровня фейковой реальности.

Этот инцидент напрямую побудил Маска, соучредителя Apple Стивена Возняка и других технологических лидеров призвать к приостановке исследований и разработок в области искусственного интеллекта.

Несмотря на то, что генерация ИИ — это весело и удобно, она создает риски для отрасли в целом.

Если он не маленький, то его будут использовать люди со скрытыми мотивами для распространения ложной информации, нарушения прав интеллектуальной собственности, использования для создания «фруктовых фотографий» и так далее.

В ближайшие несколько месяцев Midjourney выпустит последнюю версию V6, которая была доведена до совершенства с точки зрения генерации изображений.

Другие генераторы изображений с искусственным интеллектом также быстро итерируются. Некоторое время назад OpenAI только что выпустила DALL· E 3, в то же время генерация изображений Microsoft Bing также использовала DALL· E 3。

Конечно, исследователи также пытаются создать инструменты, которые могут различать изображения, ключ в том, как идти в ногу с темпами генераторов изображений ИИ?

Конкурс инструментов контроля на основе искусственного интеллекта

В настоящее время более десятка компаний предоставили инструменты для определения того, было ли изображение сгенерировано искусственным интеллектом, и их названия включают Sensity AI (обнаружение deepfasity), Fictitious.AI (обнаружение плагиата), Originality.AI и другие.

Компания Optic, специализирующаяся на доверии и безопасности в области искусственного интеллекта, запустила веб-сайт «AI or Not».

На этом веб-сайте вы можете загрузить фотографию или вставить URL-адрес изображения, и веб-сайт автоматически определит, была ли фотография сгенерирована искусственным интеллектом. Количество изображений, которые вы можете загрузить, не ограничено.

Кроме того, вы можете опубликовать или ретвитнуть изображение в учетной записи Optic в Twitter @optic_xyz или добавить #aiornot, и вы получите ответ с процентом достоверности изображения.

Андрей Дороничев, исполнительный директор компании, сказал, что инструменты искусственного интеллекта Optic могут проверять каждое изображение на наличие артефактов, невидимых человеческому глазу, таких как изменения яркости и цвета изображения.

Удивительно, но инструмент имеет точность 95%.

Однако с обновлением и итерацией инструментов генерации изображений ИИ, таких как Midjourney, уровень точности «AI or Not» упал до 88,9%.

Например, в изображении Папы Римского ИИ считает, что вероятность того, что это сделают люди, составляет 87%.

Образ Папы Римского в белом пуховике обманули до обновления Optic

На самом деле, некоторые пользователи сети заявили, что если вы внимательно посмотрите на эту картинку, вы обнаружите очевидные признаки, сгенерированные искусственным интеллектом, в том числе несколько явно размытых областей деталей:

Кажущаяся незавершенной рука пытается схватить что-то, что не совсем похоже на кофейную чашку с пятном рядом
Крест, который носит Папа Римский, не имеет форму прямого угла, но также имеет гравировку сидящего Иисуса, которая, кажется, вырезана из глины.
Очки не соответствуют теням лица

Все эти моменты указывают на то, что это генерируется искусственным интеллектом. Она понимает только поверхность реальности, но не основные правила, управляющие взаимодействием физических объектов.

В дополнение к инструментам Optic, Hive, компания, занимающаяся искусственным интеллектом, которая помечает контент, недавно обновила свой собственный бесплатный детектор контента, сгенерированный искусственным интеллектом.

Инструмент искусственного интеллекта был обучен на миллионах изображений из DALL-E, Stable Diffusion и Midjourney.

Hive ожидает, что он будет точно обнаруживать около 95% изображений, сгенерированных искусственным интеллектом, особенно изображений, которыми поделились в Интернете, часто лучше, чем другие изображения.

Генеральный директор Кевин Гуо сказал, что, когда люди делятся изображениями ИИ, они выбирают наиболее реалистичные поддельные изображения, чтобы люди могли отличить настоящее.

Изображение слева — это сгенерированное искусственным интеллектом изображение, которое можно различить по двум пальцам и нечетной пятерке, в то время как справа показано реальное изображение, как на обычной фотографии iStock.

Как и Optic, Hive не смог обнаружить изображения из Bing Image Creator.

Тем не менее, эти инструменты обнаружения не стоят на месте, и они будут обновляться и совершенствоваться по мере итерации модели изображений ИИ.

На самом деле, распознавание изображений с помощью ИИ может не только полагаться на отраслевые инструменты обнаружения, но и устанавливать ограничения при обучении моделей.

Многие генераторы изображений с искусственным интеллектом также имеют «черный список», который ограничивает возможность генерации некоторого контента.

Например, Bing Image Creator помечает и блокирует запросы от пользователей, которые просят его создать изображения известных публичных личностей.

У Midjourney есть «модераторы-люди», и компания внедряет способ использования алгоритмов для модерации запросов пользователей.

И ДАЛЛ· Согласно техническому отчету E 3, когда вы просите ChatGPT сгенерировать некоторые «фруктовые карты» или изображения, включающие черно-белое изображение, ввод напрямую переписывается.

Добавьте водяной знак к ИИ, крупные производители делают

Кроме того, цифровые водяные знаки также являются одним из важных средств повышения безопасности генеративного ИИ, и технологические гиганты, такие как Microsoft и Google, используются в продуктах.

Корпорация Майкрософт представила DALL· на конференции Surface в сентябре. E 3 наделен способностью Bing генерировать изображения.

В то же время, чтобы гарантировать, что изображениями не злоупотребляют, команда Microsoft использует методы шифрования для создания невидимых водяных знаков для каждого изображения, включая время и дату создания.

Любой желающий может нажать на каждое изображение и легко определить, было ли оно сгенерировано искусственным интеллектом.

Meta также открыла исходный код Stable Signature, который встраивает цифровые водяные знаки непосредственно в изображения, автоматически генерируемые искусственным интеллектом.

Адрес доклада:

Стоит отметить, что цифровой водяной знак, сгенерированный Stable Signature, не подвержен разрушительным операциям, таким как обрезка, сжатие, изменение цвета и т. д., и может быть прослежен до оригинального источника изображения.

Его можно применять к таким моделям, как диффузия и GAN, например, стабильная диффузия.

Кроме того, Google в Google Cloud Next выпустил SynthID, который наносит водяные знаки на изображения, созданные искусственным интеллектом, а также обнаруживает и идентифицирует их.

SynthID использует две модели глубокого обучения, одну для водяных знаков, а другую для распознавания. Их можно тренировать вместе на наборе разных изображений.

Комбинированная модель оптимизирована для ряда целей, включая правильную идентификацию содержимого водяных знаков и улучшение маскировки водяных знаков за счет визуального выравнивания водяного знака с исходным содержимым.

Цифровой водяной знак, сгенерированный SynthID, встраивается непосредственно в пиксели изображения и незаметен человеческим глазом. Но SynthID может их обнаружить и идентифицировать.

SynthID может помочь оценить вероятность того, что образ был создан Imagen

Амит Рой-Чоудхури, профессор электротехники и вычислительной техники в Калифорнийском университете в Риверсайде, сказал, что, внимательно присмотревшись к фону изображения, мы можем лучше обнаружить поддельные изображения собственными глазами.

Однако в тот момент, когда модели ИИ ускоряют итерации, иметь «золотой глаз» слишком сложно.

Ресурсы:

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

3 Лайков

Награда
3
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
1/3
1CandyDrop Airdrop Event 6.0
17k Популярность
2White House Crypto Report
35k Популярность
3Join Alpha RION Airdrop to Earn $40
9k Популярность
4Fed Holds Rates Decision
8k Популярность
5July Spark Program TOP 10 Creators Announced
2k Популярность

Закрепить

Карта сайта

**Детектор изображений с искусственным интеллектом, насколько он ненадежен? **