От мозаики до изображений высокой четкости способность ИИ генерировать изображения стала сильнее, но как достичь баланса между красотой и искажением?

Question

> Инструменты искусственного интеллекта, которые улучшают изображение, часто приводят к его искажению, а для того, чтобы изображения выглядели более реальными, часто не хватает красоты. Как взвесить эту проблему?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-14d58071f9-dd1a6f-69ad2a) Источник изображения: создано Unbounded AI.В саспенсах и научно-фантастических произведениях мы часто видим такую сцену: на экране компьютера отображается размытая фотография, затем следователь просит улучшить изображение, и тогда изображение волшебным образом проясняется, открывая важные подсказки.Это выглядит великолепно, но на протяжении десятилетий это был полностью вымышленный сюжет. Это было сложно сделать даже в тот период, когда генеративные возможности ИИ начали расти: «Если просто увеличить изображение, оно станет размытым. Деталей будет много, но все будет неправильно», — утверждает Nvidia. «Глубокое обучение», — сказал Брайан Катандзаро, вице-президент по исследованиям.Однако недавно исследователи начали включать алгоритмы искусственного интеллекта в инструменты улучшения изображений, что делает процесс проще и эффективнее, но по-прежнему существуют ограничения на данные, которые можно получить из любого изображения. Но поскольку исследователи продолжают расширять границы усовершенствованных алгоритмов, они находят новые способы борьбы с этими ограничениями и даже способы их преодоления.За последнее десятилетие исследователи начали улучшать изображения с помощью моделей генеративно-состязательной сети (GAN), которые способны создавать подробные и впечатляющие изображения.«Изображения внезапно стали выглядеть намного лучше», — говорит Томер Михаэли, инженер-электрик из Технологического института Теонион в Израиле. Близость к отображаемой реальности. Изображения, генерируемые GAN, выглядят красиво и естественно, но на самом деле они «выдумывают» или «фантазируют» неточные детали, что приводит к высокой степени искажений.Михаэли отмечает, что область реставрации фотографий делится на две большие категории: одна демонстрирует красивые изображения, многие из которых созданы с помощью GAN. Другой показывает данные, но мало изображений, потому что выглядит не очень хорошо.В 2017 году Михаэли и его аспирант Йохай Блау более формально исследовали влияние различных алгоритмов улучшения изображения на искажения и качество восприятия, используя известные меры качества восприятия, которые коррелируют с субъективными суждениями человека. Как и ожидал Михаэли, визуальное качество некоторых алгоритмов очень высокое, тогда как другие очень точны с очень низким уровнем искажений. Но никто не предлагает лучшее из обоих миров, вам придется выбирать между одним. Это называется компромиссом перцептивных искажений.Михаэли также призвал других исследователей разработать алгоритмы, которые обеспечивают наилучшее качество изображения при заданном уровне искажений, что позволит справедливо сравнивать алгоритмы для получения красивых изображений и алгоритмы для получения хорошей статистики. С тех пор сотни исследователей искусственного интеллекта выразили обеспокоенность по поводу искажений и качества восприятия своих алгоритмов, ссылаясь на статью Михаэли и Блау, описывающую этот компромисс.Иногда последствия компромисса с искажениями восприятия не так уж и страшны. Например, Nvidia обнаружила, что экраны высокой четкости не могут хорошо отображать некоторый визуальный контент низкой четкости, поэтому в феврале 2023 года она запустила инструмент, который использует глубокое обучение для улучшения качества потокового видео. В этом случае инженеры Nvidia предпочли качество восприятия точности, приняв тот факт, что когда алгоритм повышает разрешение видео, он генерирует некоторые визуальные детали, отсутствующие в исходном видео.«Модель фантазирует. Это чистая спекуляция», — сказал Катандзаро. «Не имеет значения, если модель сверхвысокого разрешения большую часть времени ошибается, главное, чтобы она была последовательной».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-751daab38c-dd1a6f-69ad2a) *Вид кровотока в мозге мыши (слева) и тот же вид после использования инструментов искусственного интеллекта для улучшения качества и точности изображения. Источник: Цзюньцзе Яо, Сяои Чжу, Университет Дьюка. *В частности, приложения в исследованиях и медицине потребуют большей точности. Технология искусственного интеллекта добилась значительного прогресса в визуализации, но «иногда она имеет нежелательные побочные эффекты, такие как переобучение или добавление ложных функций, поэтому к ней нужно относиться с особой осторожностью», — сказал Цзюньцзе Яо, биомедицинский инженер из Университета Дьюка.В прошлом году он описал в своей статье, как инструменты искусственного интеллекта можно использовать для улучшения существующих измерений мозгового кровообращения и метаболизма, при этом безопасно работая с точным компромиссом с искажениями восприятия.Один из способов обойти ограничения на объем данных, которые можно извлечь из изображения, — это просто объединить данные из большего количества изображений. Ранее исследователи, изучающие окружающую среду с помощью спутниковых изображений, добились определенного прогресса в интеграции визуальных данных из разных источников: в 2021 году исследователи в Китае и Великобритании объединили данные двух разных типов спутников, чтобы лучше наблюдать за вырубкой лесов в бассейне Конго. Бассейн Конго — второй по величине тропический лес в мире и один из самых биологически разнообразных регионов. Исследователи взяли данные с двух спутников Landsat, которые десятилетиями измеряли вырубку лесов, и использовали методы глубокого обучения, чтобы улучшить разрешение изображений с 30 метров до 10 метров. Затем они объединили этот набор изображений с данными двух спутников Sentinel-2, которые имеют несколько разные матрицы детекторов. Их эксперименты показывают, что это комбинированное изображение «позволяет обнаружить на 11–21% больше нарушенных территорий, чем при использовании одних изображений Sentinel-2 или Landsat-7/8».Если прямой прорыв невозможен, Михаэли предлагает другой метод жесткого ограничения доступности информации. Вместо того, чтобы искать однозначный ответ о том, как улучшить изображение низкого качества, модели можно показать несколько различных интерпретаций исходного изображения. В статье «Исследуемое суперразрешение» он показывает, как инструмент улучшения изображения может предоставлять пользователю множество предложений. Размытое изображение с низким разрешением человека, носящего серую рубашку, можно реконструировать в изображение с более высоким разрешением, на котором рубашка может иметь черно-белые вертикальные полосы, горизонтальные полосы или клетку, и все это с одинаковой правдоподобностью.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-90815c6b91-dd1a6f-69ad2a) В другом примере Михаэли сделал фотографию номерного знака низкого качества и с помощью улучшения изображения с помощью искусственного интеллекта показал, что цифра 1 на номерном знаке больше всего напоминает 0. Но когда изображение было обработано с помощью другого, более открытого алгоритма, разработанного Михаэли, число выглядело одинаково вероятным как 0, 1 или 8. Этот подход может помочь исключить другие числа, не делая ошибочного заключения, что это число равно 0.Мы можем смягчить эти иллюзии, но эта мощная кнопка «ускорения» для раскрытия преступлений остается мечтой.Сколько информации можно извлечь из изображений ИИ и насколько можно доверять этим изображениям, остается ключевым вопросом.«Мы должны помнить, что алгоритм просто придумывает детали, чтобы вывести эти красивые изображения», — сказал Михаэли.*Оригинальная ссылка:*