أدوات الذكاء الاصطناعي التي تجعل الصور تبدو أفضل غالبًا ما تؤدي إلى تشويه الصورة، في حين أن جعل الصور تبدو أكثر واقعية غالبًا ما يفتقر إلى الجمال، فكيف نزن هذه المشكلة؟
مصدر الصورة: تم إنشاؤها بواسطة Unbounded AI
في أعمال التشويق والخيال العلمي، كثيرًا ما نرى هذا المشهد: يتم عرض صورة ضبابية على شاشة الكمبيوتر، ثم يطلب المحقق تحسين الصورة، وبعد ذلك تصبح الصورة واضحة بشكل سحري، مما يكشف عن أدلة مهمة.
يبدو هذا رائعًا، لكنه ظل حبكة خيالية تمامًا منذ عقود. كان من الصعب القيام بذلك حتى خلال الفترة التي بدأت فيها القدرات التوليدية للذكاء الاصطناعي في النمو: "إذا قمت للتو بتكبير الصورة، فسوف تصبح ضبابية. وسيكون هناك الكثير من التفاصيل، ولكن سيكون كل شيء خاطئًا"، تنطبق Nvidia. وقال بريان كاتانزارو، نائب رئيس الأبحاث في التعلم العميق.
ومع ذلك، بدأ الباحثون مؤخرًا في دمج خوارزميات الذكاء الاصطناعي في أدوات تحسين الصور، مما يجعل العملية أسهل وأكثر قوة، ولكن لا تزال هناك قيود على البيانات التي يمكن استرجاعها من أي صورة. ولكن مع استمرار الباحثين في تجاوز حدود الخوارزميات المحسنة، فإنهم يجدون طرقًا جديدة للتعامل مع هذه القيود وحتى إيجاد طرق للتغلب عليها.
على مدى العقد الماضي، بدأ الباحثون في تحسين الصور باستخدام نماذج شبكة الخصومة التوليدية (GAN)، القادرة على إنتاج صور مفصلة ومثيرة للإعجاب.
يقول تومر ميخائيلي، وهو مهندس كهربائي في معهد تيونيون للتكنولوجيا في إسرائيل: "بدت الصور فجأة أفضل بكثير"، لكنه فوجئ أيضًا عندما وجد أن الصور التي تم إنشاؤها بواسطة GAN أظهرت مستويات عالية من التشويه، وهو مقياس للتشوه المعزز. الصورة: القرب من الواقع الأساسي الذي يتم عرضه. تبدو الصور التي تولدها شبكات GAN جميلة وطبيعية، لكنها في الحقيقة عبارة عن "تخيل" أو "تخيل" تفاصيل غير دقيقة، مما يؤدي إلى درجة عالية من التشويه.
يلاحظ ميكايلي أن مجال استعادة الصور ينقسم إلى فئتين عريضتين: إحداهما تعرض صورًا جميلة، يتم إنشاء العديد منها بواسطة شبكات GAN. والآخر يعرض البيانات ولكن ليس الكثير من الصور لأنها لا تبدو جيدة.
في عام 2017، استكشف ميكايلي وطالب الدراسات العليا يوشاي بلاو بشكل أكثر رسمية أداء خوارزميات تحسين الصورة المختلفة فيما يتعلق بالتشوه والجودة الإدراكية، باستخدام مقاييس معروفة للجودة الإدراكية التي ترتبط بالحكم الذاتي البشري. وكما توقع ميكايلي، فإن الجودة المرئية لبعض الخوارزميات عالية جدًا، في حين أن البعض الآخر دقيق جدًا مع تشويه منخفض جدًا. لكن لا أحد يقدم أفضل ما في العالمين، عليك أن تختار أحدهما على الآخر. وهذا ما يسمى مقايضة التشويه الإدراكي.
كما تحدى ميكايلي الباحثين الآخرين للتوصل إلى خوارزميات تنتج أفضل جودة للصورة عند مستوى معين من التشويه، مما يسمح بإجراء مقارنة عادلة بين خوارزميات الصور الجميلة وخوارزميات الإحصائيات الجيدة. منذ ذلك الحين، أثار المئات من الباحثين في مجال الذكاء الاصطناعي مخاوف بشأن التشويه وجودة الإدراك الحسي لخوارزمياتهم، مستشهدين بورقة ميكايلي وبلاو التي تصف هذه المقايضة.
في بعض الأحيان، لا تكون تأثيرات مقايضة التشوه الإدراكي مخيفة إلى هذا الحد. على سبيل المثال، وجدت شركة Nvidia أن الشاشات عالية الوضوح لا يمكنها عرض بعض المحتوى المرئي منخفض الدقة بشكل جيد، لذلك أطلقت في فبراير 2023 أداة تستخدم التعلم العميق لتحسين جودة بث مقاطع الفيديو. في هذه الحالة، اختار مهندسو Nvidia الجودة الإدراكية على الدقة، متقبلين حقيقة أنه عندما تقوم الخوارزمية برفع دقة الفيديو، فإنها تولد بعض التفاصيل المرئية غير الموجودة في الفيديو الأصلي.
وقال كاتانزارو "النموذج خيالي. إنه محض تكهنات". "لا يهم إذا كانت تخمينات نموذج الدقة الفائقة خاطئة في معظم الأوقات، طالما أنها متسقة."
*منظر لتدفق الدم في دماغ الفأر (يسار) ونفس المنظر بعد استخدام أدوات الذكاء الاصطناعي لتحسين جودة الصورة ودقتها. المصدر: جونجي ياو، شياويى تشو، جامعة ديوك. *
وعلى وجه الخصوص، ستتطلب التطبيقات في مجال البحث والطب دقة أكبر. وقال جونجي ياو، مهندس الطب الحيوي في جامعة ديوك، إن تكنولوجيا الذكاء الاصطناعي حققت تقدما كبيرا في التصوير، ولكن "لها في بعض الأحيان آثار جانبية غير مرغوب فيها، مثل المبالغة في التجهيز أو إضافة ميزات زائفة، لذلك يجب التعامل معها بحذر شديد".
في العام الماضي، وصف في ورقته البحثية كيف يمكن استخدام أدوات الذكاء الاصطناعي لتحسين القياسات الحالية لتدفق الدم في الدماغ والتمثيل الغذائي مع العمل بأمان على الجانب الدقيق من مقايضة التشوه الإدراكي.
إحدى الطرق للتغلب على القيود المفروضة على كمية البيانات التي يمكن استخلاصها من صورة ما هي ببساطة دمج البيانات من المزيد من الصور. في السابق، أحرز الباحثون الذين يدرسون البيئة من خلال صور الأقمار الصناعية بعض التقدم في دمج البيانات المرئية من مصادر مختلفة: في عام 2021، قام الباحثون في الصين والمملكة المتحدة بدمج البيانات من نوعين مختلفين من الأقمار الصناعية لمراقبة إزالة الغابات في حوض الكونغو بشكل أفضل. يعد حوض الكونغو ثاني أكبر غابة استوائية مطيرة في العالم وواحدة من أكثر المناطق تنوعًا بيولوجيًا. أخذ الباحثون بيانات من قمرين صناعيين لاندسات، اللذين كانا يقيسان إزالة الغابات لعقود من الزمن، واستخدما تقنيات التعلم العميق لتحسين دقة الصور من 30 مترًا إلى 10 أمتار. ثم قاموا بدمج هذه المجموعة من الصور مع بيانات من قمرين صناعيين Sentinel-2، واللذان لهما مصفوفات كاشف مختلفة قليلاً. تظهر تجاربهم أن هذه الصورة المجمعة "تمكن من اكتشاف مناطق مضطربة بنسبة 11% إلى 21% أكثر من استخدام صور Sentinel-2 أو Landsat-7/8 وحدها."
إذا لم يكن تحقيق اختراق مباشر ممكنا، يقترح ميكايلي طريقة أخرى للحد من توفر المعلومات. بدلاً من البحث عن إجابة محددة حول كيفية تحسين صورة منخفضة الجودة، يمكن عرض النموذج على عدة تفسيرات مختلفة للصورة الأصلية. في مقالته "دقة فائقة قابلة للاستكشاف"، يوضح كيف يمكن لأداة تحسين الصورة تقديم اقتراحات متعددة للمستخدم. يمكن إعادة بناء صورة ضبابية منخفضة الدقة لشخص يرتدي ما يبدو أنه قميص رمادي إلى صورة ذات دقة أعلى حيث يمكن أن يكون القميص عبارة عن خطوط عمودية بالأبيض والأسود، أو خطوط أفقية، أو منقوشة، وكلها ذات معقولية متساوية.
وفي مثال آخر، التقط ميكايلي صورة منخفضة الجودة للوحة الترخيص واستخدم تحسين الصورة بالذكاء الاصطناعي لإظهار أن الرقم 1 على لوحة الترخيص يشبه إلى حد كبير الرقم 0. ولكن عندما تمت معالجة الصورة من خلال خوارزمية مختلفة وأكثر انفتاحًا ابتكرها ميكايلي، بدا أن الرقم من المرجح أن يكون 0 أو 1 أو 8. يمكن أن يساعد هذا الأسلوب في استبعاد الأرقام الأخرى دون استنتاج خطأ أن الرقم هو 0.
يمكننا التخفيف من هذه الأوهام، لكن زر "التعزيز" القوي لحل الجريمة يظل حلما.
في مجالات مختلفة، تعالج تخصصات مختلفة مقايضة التشوه الإدراكي بطريقتها الخاصة. ويظل مقدار المعلومات التي يمكن استخلاصها من صور الذكاء الاصطناعي ومدى الثقة في هذه الصور من الأسئلة الأساسية.
وقال ميكائيلي: "يجب أن نضع في اعتبارنا أن الخوارزمية تقوم فقط بتكوين التفاصيل من أجل إخراج هذه الصور الجميلة".
الرابط الأصلي:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
من الفسيفساء إلى الصور عالية الوضوح، أصبحت قدرة الذكاء الاصطناعي على توليد الصور أقوى، ولكن كيف يمكن تحقيق التوازن بين الجمال والتشويه؟
في أعمال التشويق والخيال العلمي، كثيرًا ما نرى هذا المشهد: يتم عرض صورة ضبابية على شاشة الكمبيوتر، ثم يطلب المحقق تحسين الصورة، وبعد ذلك تصبح الصورة واضحة بشكل سحري، مما يكشف عن أدلة مهمة.
يبدو هذا رائعًا، لكنه ظل حبكة خيالية تمامًا منذ عقود. كان من الصعب القيام بذلك حتى خلال الفترة التي بدأت فيها القدرات التوليدية للذكاء الاصطناعي في النمو: "إذا قمت للتو بتكبير الصورة، فسوف تصبح ضبابية. وسيكون هناك الكثير من التفاصيل، ولكن سيكون كل شيء خاطئًا"، تنطبق Nvidia. وقال بريان كاتانزارو، نائب رئيس الأبحاث في التعلم العميق.
ومع ذلك، بدأ الباحثون مؤخرًا في دمج خوارزميات الذكاء الاصطناعي في أدوات تحسين الصور، مما يجعل العملية أسهل وأكثر قوة، ولكن لا تزال هناك قيود على البيانات التي يمكن استرجاعها من أي صورة. ولكن مع استمرار الباحثين في تجاوز حدود الخوارزميات المحسنة، فإنهم يجدون طرقًا جديدة للتعامل مع هذه القيود وحتى إيجاد طرق للتغلب عليها.
على مدى العقد الماضي، بدأ الباحثون في تحسين الصور باستخدام نماذج شبكة الخصومة التوليدية (GAN)، القادرة على إنتاج صور مفصلة ومثيرة للإعجاب.
يقول تومر ميخائيلي، وهو مهندس كهربائي في معهد تيونيون للتكنولوجيا في إسرائيل: "بدت الصور فجأة أفضل بكثير"، لكنه فوجئ أيضًا عندما وجد أن الصور التي تم إنشاؤها بواسطة GAN أظهرت مستويات عالية من التشويه، وهو مقياس للتشوه المعزز. الصورة: القرب من الواقع الأساسي الذي يتم عرضه. تبدو الصور التي تولدها شبكات GAN جميلة وطبيعية، لكنها في الحقيقة عبارة عن "تخيل" أو "تخيل" تفاصيل غير دقيقة، مما يؤدي إلى درجة عالية من التشويه.
يلاحظ ميكايلي أن مجال استعادة الصور ينقسم إلى فئتين عريضتين: إحداهما تعرض صورًا جميلة، يتم إنشاء العديد منها بواسطة شبكات GAN. والآخر يعرض البيانات ولكن ليس الكثير من الصور لأنها لا تبدو جيدة.
في عام 2017، استكشف ميكايلي وطالب الدراسات العليا يوشاي بلاو بشكل أكثر رسمية أداء خوارزميات تحسين الصورة المختلفة فيما يتعلق بالتشوه والجودة الإدراكية، باستخدام مقاييس معروفة للجودة الإدراكية التي ترتبط بالحكم الذاتي البشري. وكما توقع ميكايلي، فإن الجودة المرئية لبعض الخوارزميات عالية جدًا، في حين أن البعض الآخر دقيق جدًا مع تشويه منخفض جدًا. لكن لا أحد يقدم أفضل ما في العالمين، عليك أن تختار أحدهما على الآخر. وهذا ما يسمى مقايضة التشويه الإدراكي.
كما تحدى ميكايلي الباحثين الآخرين للتوصل إلى خوارزميات تنتج أفضل جودة للصورة عند مستوى معين من التشويه، مما يسمح بإجراء مقارنة عادلة بين خوارزميات الصور الجميلة وخوارزميات الإحصائيات الجيدة. منذ ذلك الحين، أثار المئات من الباحثين في مجال الذكاء الاصطناعي مخاوف بشأن التشويه وجودة الإدراك الحسي لخوارزمياتهم، مستشهدين بورقة ميكايلي وبلاو التي تصف هذه المقايضة.
في بعض الأحيان، لا تكون تأثيرات مقايضة التشوه الإدراكي مخيفة إلى هذا الحد. على سبيل المثال، وجدت شركة Nvidia أن الشاشات عالية الوضوح لا يمكنها عرض بعض المحتوى المرئي منخفض الدقة بشكل جيد، لذلك أطلقت في فبراير 2023 أداة تستخدم التعلم العميق لتحسين جودة بث مقاطع الفيديو. في هذه الحالة، اختار مهندسو Nvidia الجودة الإدراكية على الدقة، متقبلين حقيقة أنه عندما تقوم الخوارزمية برفع دقة الفيديو، فإنها تولد بعض التفاصيل المرئية غير الموجودة في الفيديو الأصلي.
وقال كاتانزارو "النموذج خيالي. إنه محض تكهنات". "لا يهم إذا كانت تخمينات نموذج الدقة الفائقة خاطئة في معظم الأوقات، طالما أنها متسقة."
وعلى وجه الخصوص، ستتطلب التطبيقات في مجال البحث والطب دقة أكبر. وقال جونجي ياو، مهندس الطب الحيوي في جامعة ديوك، إن تكنولوجيا الذكاء الاصطناعي حققت تقدما كبيرا في التصوير، ولكن "لها في بعض الأحيان آثار جانبية غير مرغوب فيها، مثل المبالغة في التجهيز أو إضافة ميزات زائفة، لذلك يجب التعامل معها بحذر شديد".
في العام الماضي، وصف في ورقته البحثية كيف يمكن استخدام أدوات الذكاء الاصطناعي لتحسين القياسات الحالية لتدفق الدم في الدماغ والتمثيل الغذائي مع العمل بأمان على الجانب الدقيق من مقايضة التشوه الإدراكي.
إحدى الطرق للتغلب على القيود المفروضة على كمية البيانات التي يمكن استخلاصها من صورة ما هي ببساطة دمج البيانات من المزيد من الصور. في السابق، أحرز الباحثون الذين يدرسون البيئة من خلال صور الأقمار الصناعية بعض التقدم في دمج البيانات المرئية من مصادر مختلفة: في عام 2021، قام الباحثون في الصين والمملكة المتحدة بدمج البيانات من نوعين مختلفين من الأقمار الصناعية لمراقبة إزالة الغابات في حوض الكونغو بشكل أفضل. يعد حوض الكونغو ثاني أكبر غابة استوائية مطيرة في العالم وواحدة من أكثر المناطق تنوعًا بيولوجيًا. أخذ الباحثون بيانات من قمرين صناعيين لاندسات، اللذين كانا يقيسان إزالة الغابات لعقود من الزمن، واستخدما تقنيات التعلم العميق لتحسين دقة الصور من 30 مترًا إلى 10 أمتار. ثم قاموا بدمج هذه المجموعة من الصور مع بيانات من قمرين صناعيين Sentinel-2، واللذان لهما مصفوفات كاشف مختلفة قليلاً. تظهر تجاربهم أن هذه الصورة المجمعة "تمكن من اكتشاف مناطق مضطربة بنسبة 11% إلى 21% أكثر من استخدام صور Sentinel-2 أو Landsat-7/8 وحدها."
إذا لم يكن تحقيق اختراق مباشر ممكنا، يقترح ميكايلي طريقة أخرى للحد من توفر المعلومات. بدلاً من البحث عن إجابة محددة حول كيفية تحسين صورة منخفضة الجودة، يمكن عرض النموذج على عدة تفسيرات مختلفة للصورة الأصلية. في مقالته "دقة فائقة قابلة للاستكشاف"، يوضح كيف يمكن لأداة تحسين الصورة تقديم اقتراحات متعددة للمستخدم. يمكن إعادة بناء صورة ضبابية منخفضة الدقة لشخص يرتدي ما يبدو أنه قميص رمادي إلى صورة ذات دقة أعلى حيث يمكن أن يكون القميص عبارة عن خطوط عمودية بالأبيض والأسود، أو خطوط أفقية، أو منقوشة، وكلها ذات معقولية متساوية.
يمكننا التخفيف من هذه الأوهام، لكن زر "التعزيز" القوي لحل الجريمة يظل حلما.
في مجالات مختلفة، تعالج تخصصات مختلفة مقايضة التشوه الإدراكي بطريقتها الخاصة. ويظل مقدار المعلومات التي يمكن استخلاصها من صور الذكاء الاصطناعي ومدى الثقة في هذه الصور من الأسئلة الأساسية.
وقال ميكائيلي: "يجب أن نضع في اعتبارنا أن الخوارزمية تقوم فقط بتكوين التفاصيل من أجل إخراج هذه الصور الجميلة".
الرابط الأصلي: