画像をより良く見せる AI ツールは画像の歪みを引き起こすことが多く、画像をよりリアルに見せると美しさに欠けることがよくあります。
画像ソース: Unbounded AI によって生成
サスペンスや SF 作品では、ぼやけた写真がコンピューター画面に表示され、捜査官が画像を強化するよう依頼すると、画像が魔法のように鮮明になり、重要な手がかりが明らかになります。
これは素晴らしく見えますが、何十年もの間、完全に架空のプロットでした。 AI 生成機能が成長し始めた時期であっても、これを行うのは困難でした。「画像を拡大するだけでは、ぼやけてしまいます。詳細はたくさんありますが、それはすべて間違っています」と Nvidia は適用します。ディープラーニングの研究担当副社長、ブライアン・カタンザロ氏は次のように述べています。
しかし、研究者たちは最近、画像強調ツールに AI アルゴリズムを組み込み始め、プロセスをより簡単かつ強力にしていますが、画像から取得できるデータには依然として制限があります。しかし、研究者たちは強化されたアルゴリズムの限界を押し広げ続けるにつれて、これらの制限に対処する新しい方法を見つけ、さらにはそれを克服する方法も見つけています。
イスラエルのテオニオン工科大学の電気技師、トマー・ミカエリ氏は、「画像が突然、ずっと良く見えた。しかし、GAN によって生成された画像には、強化の尺度である高レベルの歪みが見られたことにも驚いた」と語る。画像: 表示されている根底にある現実への近さ。 GAN によって生成された画像は美しく自然に見えますが、実際には不正確な詳細を「架空化」または「空想化」しており、これが高度の歪みにつながります。
Michaeli 氏は、写真復元の分野は 2 つの大きなカテゴリーに分類されると考えています。1 つは美しい画像を紹介するもので、その多くは GAN によって生成されています。もう 1 つはデータを示していますが、見栄えが良くないため写真はあまりありません。
ミカエリ氏はまた、他の研究者に対し、一定レベルの歪みで最高の画質を生成するアルゴリズムを考案するよう要求し、美しい画像を求めるアルゴリズムと優れた統計を求めるアルゴリズムを公平に比較できるようにしました。それ以来、何百人もの AI 研究者が、このトレードオフを説明したミカエリとブラウの論文を引用して、アルゴリズムの歪みと知覚の品質について懸念を表明しました。
直接的な突破口が不可能な場合、ミカエリ氏は入手可能な情報を厳密に制限する別の方法を提案しています。低品質の画像を強化する方法について最終的な答えを求めるのではなく、元の画像の複数の異なる解釈をモデルに示すことができます。 「Explorable Super Resolution」という論文の中で、彼は画像強化ツールがどのようにしてユーザーに複数の提案を提供できるかを示しています。グレーのシャツを着ているように見える人物のぼやけた低解像度画像は、シャツが黒と白の縦縞、横縞、チェック柄などの高解像度画像に再構築され、すべて同じ妥当性を持ちます。
モザイクから高精細な画像まで、AIの画像生成能力が強化されていますが、美しさと歪みのバランスをどう取るか?
サスペンスや SF 作品では、ぼやけた写真がコンピューター画面に表示され、捜査官が画像を強化するよう依頼すると、画像が魔法のように鮮明になり、重要な手がかりが明らかになります。
これは素晴らしく見えますが、何十年もの間、完全に架空のプロットでした。 AI 生成機能が成長し始めた時期であっても、これを行うのは困難でした。「画像を拡大するだけでは、ぼやけてしまいます。詳細はたくさんありますが、それはすべて間違っています」と Nvidia は適用します。ディープラーニングの研究担当副社長、ブライアン・カタンザロ氏は次のように述べています。
しかし、研究者たちは最近、画像強調ツールに AI アルゴリズムを組み込み始め、プロセスをより簡単かつ強力にしていますが、画像から取得できるデータには依然として制限があります。しかし、研究者たちは強化されたアルゴリズムの限界を押し広げ続けるにつれて、これらの制限に対処する新しい方法を見つけ、さらにはそれを克服する方法も見つけています。
過去 10 年間にわたり、研究者たちは、詳細で印象的な画像を生成できる敵対的生成ネットワーク (GAN) モデルを使用して画像を強化し始めました。
イスラエルのテオニオン工科大学の電気技師、トマー・ミカエリ氏は、「画像が突然、ずっと良く見えた。しかし、GAN によって生成された画像には、強化の尺度である高レベルの歪みが見られたことにも驚いた」と語る。画像: 表示されている根底にある現実への近さ。 GAN によって生成された画像は美しく自然に見えますが、実際には不正確な詳細を「架空化」または「空想化」しており、これが高度の歪みにつながります。
Michaeli 氏は、写真復元の分野は 2 つの大きなカテゴリーに分類されると考えています。1 つは美しい画像を紹介するもので、その多くは GAN によって生成されています。もう 1 つはデータを示していますが、見栄えが良くないため写真はあまりありません。
2017年、ミカエリと大学院生のヨチャイ・ブラウは、人間の主観的判断と相関する知覚品質の既知の尺度を使用して、歪みと知覚品質に関するさまざまな画像強調アルゴリズムのパフォーマンスをより正式に調査しました。 Michaeli 氏の予想どおり、一部のアルゴリズムの視覚的な品質は非常に高く、他のアルゴリズムは歪みが非常に低く、非常に正確です。しかし、両方の長所を提供できる人はいないため、どちらかを選択する必要があります。これは、知覚の歪みのトレードオフと呼ばれます。
ミカエリ氏はまた、他の研究者に対し、一定レベルの歪みで最高の画質を生成するアルゴリズムを考案するよう要求し、美しい画像を求めるアルゴリズムと優れた統計を求めるアルゴリズムを公平に比較できるようにしました。それ以来、何百人もの AI 研究者が、このトレードオフを説明したミカエリとブラウの論文を引用して、アルゴリズムの歪みと知覚の品質について懸念を表明しました。
場合によっては、知覚の歪みのトレードオフの影響がそれほど怖くない場合もあります。たとえば、Nvidia は、高解像度の画面では一部の低解像度のビジュアル コンテンツを適切にレンダリングできないことが判明したため、2023 年 2 月にディープ ラーニングを使用してストリーミング ビデオの品質を向上させるツールをリリースしました。この場合、Nvidia のエンジニアは、アルゴリズムがビデオの解像度を上げると、元のビデオには存在しない視覚的な詳細が生成されるという事実を受け入れ、精度よりも知覚的な品質を選択しました。
「モデルは空想をしている。それは純粋な憶測だ」とカタンツァーロ氏は語った。 「一貫性がある限り、超解像度モデルの推測がほとんどの場合間違っていても問題ありません。」
特に研究や医療への応用では、より高い精度が求められます。 AI技術はイメージング分野で大きな進歩を遂げたが、「過剰適合や偽の特徴の追加など、望ましくない副作用が生じる場合があるため、細心の注意を払って扱う必要がある」とデューク大学の生物医学エンジニア、Junjie Yao氏は述べた。
昨年、彼は論文の中で、AI ツールを使用して、知覚の歪みのトレードオフの正確な側で安全に動作しながら、脳の血流と代謝の既存の測定を改善する方法について説明しました。
画像から抽出できるデータ量の制限を回避する 1 つの方法は、より多くの画像からのデータを単純に結合することです。これまで、衛星画像を通じて環境を研究する研究者らは、さまざまな情報源からの視覚データを統合する点である程度の進歩を遂げてきた。2021年、中国と英国の研究者は、コンゴ盆地での森林破壊をよりよく観察するために、2つの異なる種類の衛星からのデータを統合した。コンゴ盆地は世界で 2 番目に大きい熱帯雨林であり、生物学的に最も多様な地域の 1 つです。研究者らは、数十年にわたって森林破壊を測定してきた2機のランドサット衛星からデータを取得し、深層学習技術を使用して画像の解像度を30メートルから10メートルに向上させた。次に、この一連の画像を、わずかに異なる検出器アレイを備えた 2 つのセンチネル 2 衛星からのデータと融合しました。彼らの実験では、この組み合わせた画像により、「Sentinel-2 または Landsat-7/8 画像を単独で使用した場合よりも 11% ~ 21% 多くの妨害領域を検出できる」ことが示されました。
直接的な突破口が不可能な場合、ミカエリ氏は入手可能な情報を厳密に制限する別の方法を提案しています。低品質の画像を強化する方法について最終的な答えを求めるのではなく、元の画像の複数の異なる解釈をモデルに示すことができます。 「Explorable Super Resolution」という論文の中で、彼は画像強化ツールがどのようにしてユーザーに複数の提案を提供できるかを示しています。グレーのシャツを着ているように見える人物のぼやけた低解像度画像は、シャツが黒と白の縦縞、横縞、チェック柄などの高解像度画像に再構築され、すべて同じ妥当性を持ちます。
こうした幻想を軽減することはできますが、犯罪を解決する強力な「ブースト」ボタンは夢のままです。
さまざまな分野で、さまざまな分野がそれぞれの方法で知覚の歪みのトレードオフに取り組んでいますが、AI 画像からどれだけの情報を抽出できるか、またこれらの画像がどの程度信頼できるかは依然として重要な疑問です。
「アルゴリズムは美しい画像を出力するために細部を作り上げているだけだということを心に留めておく必要があります」とミカエリ氏は言う。
元のリンク: