Dari mosaik hingga gambar definisi tinggi, kemampuan AI untuk menghasilkan gambar semakin kuat, namun bagaimana mencapai keseimbangan antara keindahan dan distorsi?

Alat AI yang membuat gambar terlihat lebih baik sering kali menyebabkan distorsi gambar, sementara membuat gambar terlihat lebih nyata sering kali kurang indah. Bagaimana cara mempertimbangkan masalah ini?

Sumber gambar: Dihasilkan oleh AI Tanpa Batas

Dalam karya-karya menegangkan dan fiksi ilmiah, kita sering melihat pemandangan ini: sebuah foto buram ditampilkan di layar komputer, kemudian penyelidik meminta untuk menyempurnakan gambar tersebut, dan kemudian gambar tersebut secara ajaib menjadi jelas, mengungkapkan petunjuk-petunjuk penting.

Kelihatannya bagus, tapi ini hanyalah plot fiksi selama beberapa dekade. Hal ini sulit dilakukan bahkan pada saat kemampuan generatif AI mulai berkembang: "Jika Anda hanya memperbesar gambar, gambarnya akan menjadi buram. Akan ada banyak detail, tapi semuanya salah," Nvidia menerapkan pembelajaran mendalam kata Bryan Catanzaro, Wakil Presiden Riset.

Namun, para peneliti baru-baru ini mulai memasukkan algoritme AI ke dalam alat penyempurnaan gambar, sehingga prosesnya menjadi lebih mudah dan canggih, namun masih terdapat keterbatasan pada data yang dapat diambil dari gambar apa pun. Namun seiring para peneliti terus mendorong batas-batas algoritma yang disempurnakan, mereka menemukan cara baru untuk mengatasi keterbatasan ini dan bahkan menemukan cara untuk mengatasinya.

Selama dekade terakhir, para peneliti telah mulai menyempurnakan gambar menggunakan model generative adversarial network (GAN), yang mampu menghasilkan gambar yang detail dan mengesankan.

“Gambar-gambar tersebut tiba-tiba terlihat jauh lebih baik,” kata Tomer Michaeli, seorang insinyur listrik di Teonion Institute of Technology di Israel. Namun dia juga terkejut saat mengetahui bahwa gambar yang dihasilkan oleh GAN menunjukkan tingkat distorsi yang tinggi, yang merupakan ukuran peningkatan kualitas gambar. gambar Kedekatan dengan realitas mendasar yang ditampilkan. Gambar yang dihasilkan oleh GAN terlihat indah dan alami, namun kenyataannya mereka "memfiksasi" atau "berfantasi" detail yang tidak akurat, sehingga menyebabkan distorsi tingkat tinggi.

Michaeli mengamati bahwa bidang restorasi foto terbagi dalam dua kategori besar: Yang pertama menampilkan gambar-gambar indah, banyak di antaranya dihasilkan oleh GAN. Yang lain menampilkan data tetapi tidak banyak gambar karena tidak terlihat bagus.

Pada tahun 2017, Michaeli dan mahasiswa pascasarjananya Yochai Blau mengeksplorasi secara lebih formal kinerja berbagai algoritme peningkatan gambar pada distorsi dan kualitas persepsi, menggunakan ukuran kualitas persepsi yang diketahui dan berkorelasi dengan penilaian subjektif manusia. Seperti yang diharapkan Michaeli, kualitas visual dari beberapa algoritma sangat tinggi, sementara algoritma lainnya sangat akurat dengan distorsi yang sangat rendah. Tapi tidak ada yang menawarkan yang terbaik dari kedua dunia, Anda harus memilih salah satu dari yang lain. Hal ini disebut trade-off distorsi persepsi.

Michaeli juga menantang peneliti lain untuk menghasilkan algoritma yang menghasilkan kualitas gambar terbaik pada tingkat distorsi tertentu, sehingga memungkinkan perbandingan yang adil antara algoritma untuk gambar cantik dan algoritma untuk statistik yang baik. Sejak itu, ratusan peneliti AI telah menyampaikan kekhawatirannya mengenai distorsi dan kualitas persepsi algoritma mereka, mengutip makalah Michaeli dan Blau yang menjelaskan trade-off ini.

Terkadang efek dari pertukaran distorsi persepsi tidak terlalu menakutkan. Misalnya, Nvidia menemukan bahwa layar definisi tinggi tidak dapat menampilkan beberapa konten visual definisi rendah dengan baik, sehingga pada Februari 2023, Nvidia meluncurkan alat yang menggunakan pembelajaran mendalam untuk meningkatkan kualitas streaming video. Dalam hal ini, para insinyur Nvidia memilih kualitas persepsi daripada akurasi, menerima kenyataan bahwa ketika algoritma meningkatkan resolusi video, ia menghasilkan beberapa detail visual yang tidak ada dalam video aslinya.

"Modelnya hanya berfantasi. Itu murni spekulasi," kata Catanzaro. “Tidak masalah jika model resolusi super sering kali salah menebak, asalkan konsisten.”

*Tampilan aliran darah di otak tikus (kiri) dan tampilan yang sama setelah menggunakan alat AI untuk meningkatkan kualitas dan akurasi gambar. Sumber: Junjie Yao, Xiaoyi Zhu, Universitas Duke. *

Secara khusus, penerapan dalam penelitian dan kedokteran akan memerlukan akurasi yang lebih besar. Teknologi AI telah mencapai kemajuan yang signifikan dalam bidang pencitraan, namun “terkadang teknologi ini menimbulkan efek samping yang tidak diinginkan, seperti overfitting atau menambahkan fitur palsu, sehingga perlu ditangani dengan sangat hati-hati,” kata Junjie Yao, seorang insinyur biomedis di Duke University.

Tahun lalu, dia menjelaskan dalam makalahnya bagaimana alat AI dapat digunakan untuk meningkatkan pengukuran aliran darah otak dan metabolisme sambil beroperasi dengan aman dengan sisi akurat dari trade-off distorsi persepsi.

Salah satu cara untuk mengatasi keterbatasan jumlah data yang dapat diekstraksi dari suatu gambar adalah dengan menggabungkan data dari lebih banyak gambar. Sebelumnya, para peneliti yang mempelajari lingkungan melalui citra satelit telah mencapai beberapa kemajuan dalam mengintegrasikan data visual dari berbagai sumber: Pada tahun 2021, para peneliti di Tiongkok dan Inggris menggabungkan data dari dua jenis satelit agar dapat mengamati deforestasi di Cekungan Kongo dengan lebih baik. Cekungan Kongo adalah hutan hujan tropis terbesar kedua di dunia dan salah satu kawasan dengan keanekaragaman hayati paling tinggi. Para peneliti mengambil data dari dua satelit Landsat, yang telah mengukur deforestasi selama beberapa dekade, dan menggunakan teknik pembelajaran mendalam untuk meningkatkan resolusi gambar dari 30 meter menjadi 10 meter. Mereka kemudian menggabungkan kumpulan gambar ini dengan data dari dua satelit Sentinel-2, yang memiliki susunan detektor yang sedikit berbeda. Eksperimen mereka menunjukkan bahwa gambar gabungan ini "memungkinkan pendeteksian 11% hingga 21% lebih banyak area yang terganggu dibandingkan jika hanya menggunakan gambar Sentinel-2 atau Landsat-7/8."

Jika terobosan langsung tidak mungkin dilakukan, Michaeli mengusulkan metode lain untuk membatasi ketersediaan informasi. Daripada mencari jawaban pasti tentang cara menyempurnakan gambar berkualitas rendah, model tersebut dapat diperlihatkan berbagai interpretasi berbeda dari gambar aslinya. Dalam makalah "Resolusi Super yang Dapat Dijelajahi", ia menunjukkan bagaimana alat penyempurnaan gambar dapat memberikan banyak saran kepada pengguna. Gambar buram beresolusi rendah dari seseorang yang mengenakan kemeja abu-abu dapat direkonstruksi menjadi gambar beresolusi lebih tinggi yang kemejanya dapat berupa garis vertikal hitam putih, garis horizontal, atau kotak-kotak, semuanya memiliki kemungkinan yang sama .

Dalam contoh lain, Michaeli mengambil foto pelat nomor berkualitas rendah dan menggunakan peningkatan gambar AI untuk menunjukkan bahwa angka 1 pada pelat nomor paling mirip dengan 0. Namun ketika gambar tersebut diproses melalui algoritma berbeda dan lebih terbuka yang dirancang oleh Michaeli, kemungkinan besar angka tersebut adalah 0, 1, atau 8. Pendekatan ini dapat membantu mengesampingkan bilangan lain tanpa salah menyimpulkan bahwa bilangan tersebut adalah 0.

Kita bisa mengurangi ilusi-ilusi ini, namun tombol “peningkatan” penyelesaian kejahatan yang ampuh itu masih hanya sekedar mimpi.

Di berbagai bidang, berbagai disiplin ilmu mengatasi trade-off distorsi persepsi dengan caranya masing-masing. Seberapa banyak informasi yang dapat diekstraksi dari gambar AI dan sejauh mana gambar tersebut dapat dipercaya masih menjadi pertanyaan inti.

“Kita harus ingat bahwa algoritme hanya mengarang detail untuk menghasilkan gambar-gambar indah ini,” kata Michaeli.

Tautan asli:

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)