Від мозаїки до зображень високої чіткості, здатність штучного інтелекту генерувати зображення стала сильнішою, але як досягти балансу між красою та спотворенням?

Question

> Інструменти штучного інтелекту, які роблять зображення кращими, часто призводять до спотворення зображення, тоді як тому, щоб зробити зображення більш реальними, часто не вистачає краси.Як зважити цю проблему?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-14d58071f9-dd1a6f-69ad2a) Джерело зображення: створено Unbounded AIУ напружених і науково-фантастичних творах ми часто бачимо таку сцену: на екрані комп’ютера відображається розмита фотографія, а потім слідчий просить покращити зображення, і тоді зображення магічним чином стає чітким, відкриваючи важливі підказки.Це виглядає чудово, але десятиліттями це був повністю вигаданий сюжет. Це було складно зробити навіть у період, коли генераційні можливості штучного інтелекту почали зростати: «Якби ви просто збільшили масштаб зображення, воно ставало б розмитим. Було б багато деталей, але все було б не так», — каже Nvidia. глибоке навчання, сказав Брайан Катанцаро, віце-президент з досліджень.Однак нещодавно дослідники почали включати алгоритми штучного інтелекту в інструменти покращення зображення, що робить процес простішим і потужнішим, але все ще існують обмеження щодо даних, які можна отримати з будь-якого зображення. Але оскільки дослідники продовжують розширювати межі покращених алгоритмів, вони знаходять нові способи впоратися з цими обмеженнями та навіть знаходять шляхи їх подолання.Протягом останнього десятиліття дослідники почали покращувати зображення за допомогою моделей генеративної змагальної мережі (GAN), які здатні створювати детальні та вражаючі зображення.«Зображення раптово стали набагато кращими», — каже Томер Міхаелі, інженер-електрик з Технологічного інституту Теоніон в Ізраїлі, але він також був здивований, виявивши, що зображення, створені GAN, демонструють високі рівні спотворень, що є показником посилення Близькість до основної реальності, що відображається. Зображення, створені GAN, виглядають красиво і природно, але насправді вони «вигадані» або «фантазують» неточні деталі, що призводить до високого ступеня спотворення.Міхаелі зауважує, що галузь реставрації фотографій поділяється на дві широкі категорії: одна демонструє красиві зображення, багато з яких створено GAN. Інший показує дані, але не багато зображень, оскільки виглядає недобре.У 2017 році Міхаелі та його аспірант Йочай Блау більш офіційно дослідили ефективність різних алгоритмів покращення зображення щодо викривлення та якості сприйняття, використовуючи відомі показники якості сприйняття, які корелюють із суб’єктивним судженням людини. Як і очікував Міхаелі, візуальна якість деяких алгоритмів дуже висока, тоді як інші дуже точні з дуже низькими спотвореннями. Але ніхто не пропонує найкраще з обох світів, ви повинні вибрати один над іншим. Це називається компромісом спотворення сприйняття.Мікаелі також запропонував іншим дослідникам розробити алгоритми, які створюють найкращу якість зображення при певному рівні спотворення, дозволяючи чесно порівняти алгоритми для гарних зображень і алгоритми для хорошої статистики. Відтоді сотні дослідників штучного інтелекту висловлювали занепокоєння щодо спотворень і якості сприйняття своїх алгоритмів, посилаючись на статтю Міхаелі та Блау, яка описує цей компроміс.Іноді наслідки компромісу спотворення сприйняття не такі вже й страшні. Наприклад, Nvidia виявила, що екрани високої чіткості не можуть добре відтворювати деякий візуальний вміст низької чіткості, тому в лютому 2023 року вона запустила інструмент, який використовує глибоке навчання для покращення якості потокового відео. У цьому випадку інженери Nvidia вибрали сприйнятливу якість, а не точність, визнаючи той факт, що коли алгоритм підвищує роздільну здатність відео, він генерує деякі візуальні деталі, яких немає в оригінальному відео."Модель фантазує. Це чиста спекуляція", - сказав Катандзаро. «Немає значення, якщо модель із надвисокою роздільною здатністю в більшості випадків помиляється, якщо вона послідовна».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-751daab38c-dd1a6f-69ad2a) *Вигляд кровотоку в мозку миші (ліворуч) і такий же вигляд після використання інструментів ШІ для покращення якості та точності зображення. Джерело: Цзюньцзе Яо, Сяої Чжу, Університет Дьюка. *Зокрема, застосування в дослідженнях і медицині вимагатиме більшої точності. Технологія штучного інтелекту досягла значного прогресу у створенні зображень, але «іноді вона має небажані побічні ефекти, такі як переобладнання або додавання хибних функцій, тому до неї потрібно ставитися надзвичайно обережно», — сказав Цзюньцзе Яо, біомедичний інженер з Університету Дьюка.Минулого року він описав у своїй статті, як можна використовувати інструменти штучного інтелекту для покращення існуючих вимірювань мозкового кровотоку та метаболізму, одночасно безпечно працюючи на точній стороні компромісу спотворень сприйняття.Один із способів обійти обмеження кількості даних, які можна отримати із зображення, — це просто об’єднати дані з кількох зображень. Раніше дослідники, які вивчали довкілля за допомогою супутникових зображень, досягли певного прогресу в інтеграції візуальних даних із різних джерел: у 2021 році дослідники з Китаю та Великобританії об’єднали дані з двох різних типів супутників, щоб краще спостерігати за вирубкою лісів у басейні Конго. Басейн Конго є другим за величиною тропічним лісом у світі та одним із регіонів з найбільшою біологічною різноманітністю. Дослідники взяли дані з двох супутників Landsat, які десятиліттями вимірювали вирубку лісів, і використали методи глибокого навчання, щоб підвищити роздільну здатність зображень з 30 метрів до 10 метрів. Потім вони поєднали цей набір зображень з даними двох супутників Sentinel-2, які мають дещо різні масиви детекторів. Їхні експерименти показують, що це комбіноване зображення «дозволяє виявити на 11-21% більше порушених ділянок, ніж при використанні лише зображень Sentinel-2 або Landsat-7/8».Якщо прямий прорив неможливий, Мікаелі пропонує інший метод жорсткого обмеження доступності інформації. Замість того, щоб шукати остаточну відповідь на те, як покращити зображення низької якості, моделі можна показати кілька різних інтерпретацій вихідного зображення. У статті «Explorable Super Resolution» він показує, як інструмент покращення зображення може надати користувачеві кілька пропозицій. Розмите зображення людини з низькою роздільною здатністю, яка виглядає як сіра сорочка, може бути реконструйоване на зображення з вищою роздільною здатністю, де сорочка може бути чорно-білими вертикальними смугами, горизонтальними смугами або картатою, все з однаковою правдоподібністю.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-90815c6b91-dd1a6f-69ad2a) В іншому прикладі Мікаелі сфотографував номерний знак низької якості та використав покращення зображення AI, щоб показати, що цифра 1 на номерному знаку найбільше нагадує 0. Але коли зображення було оброблено за допомогою іншого, більш відкритого алгоритму, розробленого Мікаелі, число виглядало однаково ймовірним як 0, 1 або 8. Цей підхід може допомогти виключити інші числа без помилкового висновку, що число дорівнює 0.Ми можемо пом’якшити ці ілюзії, але потужна кнопка «підсилення» для розкриття злочинів залишається мрією.У різних галузях різні дисципліни по-своєму вирішують компроміс із спотворенням сприйняття. Скільки інформації можна витягнути із зображень штучного інтелекту та наскільки цим зображенням можна довіряти, залишаються ключовими питаннями.«Ми повинні пам’ятати, що алгоритм лише створює деталі, щоб вивести ці чудові зображення», — сказав Мікаелі.*Оригінальне посилання:*