عند السفر خلال العطلات، التقاط الصور أمر لا بد منه. ومع ذلك، فإن معظم الصور الملتقطة في المواقع ذات المناظر الخلابة تكون مؤسفة إلى حد ما، فإما أن يكون هناك شيء إضافي في الخلفية، أو أن هناك شيئًا مفقودًا.
مصدر الصورة: تم إنشاؤها بواسطة Unbounded AI
لقد كان الحصول على صورة "مثالية" أحد الأهداف طويلة المدى للباحثين في مجال السيرة الذاتية. في الآونة الأخيرة، تعاون باحثون من أبحاث Google وجامعة كورنيل لاقتراح تقنية "إكمال الصور الأصلية" - RealFill، وهو نموذج توليدي لإكمال الصور.
تتمثل ميزة نماذج RealFill في إمكانية تخصيصها بعدد صغير من الصور المرجعية للمشهد التي ليس من الضروري أن تتم محاذاتها مع الصورة المستهدفة ويمكن أن تختلف بشكل كبير من حيث زاوية الرؤية أو ظروف الإضاءة أو فتحة الكاميرا أو نمط الصورة . بمجرد اكتمال التخصيص، يمكن لـ RealFill استكمال الصورة المستهدفة بمحتوى جذاب بصريًا بطريقة تتوافق مع المشهد الأصلي.
* رابط الورق:
*صفحة المشروع:
تعد نماذج Inpainting وoutpainting من التقنيات التي يمكنها توليد محتوى صور عالي الجودة ومعقول في مناطق غير معروفة من الصورة، إلا أن المحتوى الناتج عن هذه النماذج هو بالضرورة غير واقعي لأن هذه النماذج تعمل في سياق مشاهد حقيقية، هناك نقص في المعلومات . في المقابل، يقوم RealFill بإنشاء المحتوى الذي "ينبغي" أن يكون موجودًا، مما يجعل نتائج إكمال الصورة أكثر واقعية.
أشار المؤلفون في الورقة إلى أنهم حددوا مشكلة جديدة في إكمال الصورة - "إكمال الصورة الأصلية". يختلف عن استعادة الصور التوليدية التقليدية (قد يكون المحتوى الذي يحل محل المنطقة المفقودة غير متسق مع المشهد الأصلي)، فإن الهدف من إكمال الصورة الحقيقية هو جعل المحتوى المكتمل مطابقًا قدر الإمكان للمشهد الأصلي، وذلك باستخدام المحتوى الذي "يجب أن يظهر" هناك". أكمل الصورة المستهدفة بالمحتوى الذي "قد يكون موجودًا هناك".
يذكر المؤلفون أن RealFill هي الطريقة الأولى لتوسيع القوة التعبيرية لنماذج رسم الصور التوليدية عن طريق إضافة المزيد من الشروط إلى العملية (أي إضافة صور مرجعية).
يتفوق RealFill بشكل كبير على الأساليب الحالية في معيار إكمال الصور الجديد الذي يغطي مجموعة متنوعة وصعبة من السيناريوهات.
طريقة
الهدف من RealFill هو استخدام عدد صغير من الصور المرجعية لإكمال الأجزاء المفقودة من صورة مستهدفة معينة مع الحفاظ على أكبر قدر ممكن من الأصالة. على وجه التحديد، يتم منحك ما يصل إلى 5 صور مرجعية، وصورة مستهدفة تلتقط نفس المشهد تقريبًا (ولكن قد يكون لها تخطيط أو مظهر مختلف).
بالنسبة لمشهد معين، قام الباحثون أولاً بإنشاء نموذج توليدي مخصص من خلال الضبط الدقيق لنموذج نشر الرسم المُدرب مسبقًا على الصور المرجعية والمستهدفة. تم تصميم عملية الضبط الدقيق هذه بحيث لا يحافظ النموذج المضبوط بدقة على مقدمات الصورة الجيدة فحسب، بل يتعلم أيضًا محتوى المشهد والإضاءة والأسلوب في الصورة المدخلة. يتم بعد ذلك استخدام هذا النموذج المضبوط بدقة لملء المناطق المفقودة في الصورة المستهدفة من خلال عملية أخذ عينات الانتشار القياسية.
تجدر الإشارة إلى أنه، بالنسبة لقيمة التطبيق العملي، يركز هذا النموذج بشكل خاص على الحالة الأكثر تحديًا وغير المقيدة، حيث قد يكون للصورة المستهدفة والصورة المرجعية وجهات نظر وظروف بيئية وفتحات كاميرا وأنماط صور وحتى حركات مختلفة تمامًا. هدف.
نتائج تجريبية
استنادًا إلى الصورة المرجعية الموجودة على اليسار، يمكن لـ RealFill توسيع (إلغاء اقتصاص) أو إصلاح (إعادة طلاء) الصورة المستهدفة الموجودة على اليمين. والنتيجة الناتجة ليست جذابة بصريًا فحسب، ولكنها متوافقة أيضًا مع الصورة المرجعية، حتى لو كانت الصورة المرجعية و الصورة المستهدفة في نفس وجهة النظر، وهناك اختلافات كبيرة في الفتحة والإضاءة ونمط الصورة وحركة الكائن.
* تأثير إخراج نموذج RealFill. بالنظر إلى الصورة المرجعية على اليسار، يمكن لـ RealFill توسيع الصورة المستهدفة المقابلة على اليمين. يتم توفير المناطق الموجودة داخل المربع الأبيض للشبكة كوحدات بكسل معروفة، بينما يتم إنشاء المناطق الموجودة خارج المربع الأبيض. تظهر النتائج أن RealFill يمكنه إنشاء صور عالية الجودة تتوافق مع الصورة المرجعية حتى لو كانت هناك اختلافات كبيرة بين الصورة المرجعية والصورة المستهدفة، بما في ذلك وجهة النظر والفتحة والإضاءة ونمط الصورة وحركة الكائن. المصدر: ورقة*
التجربة التي تسيطر عليها
قارن الباحثون نموذج RealFill مع طرق أساسية أخرى. بالمقارنة، يقدم RealFill نتائج عالية الجودة ويعمل بشكل أفضل من حيث دقة المشهد والاتساق مع الصور المرجعية.
لا يمكن لـ Paint-by-Example تحقيق دقة عالية للمشهد لأنه يعتمد على تضمين CLIP، والذي يمكنه فقط التقاط المعلومات الدلالية عالية المستوى.
على الرغم من أن Stable Diffusion Inpainting يمكن أن ينتج نتائج معقولة على ما يبدو، نظرًا لقدراته التعبيرية المحدودة، فإن النتائج النهائية الناتجة لا تتوافق مع الصورة المرجعية.
مقارنة RealFill مع طريقتين أساسيتين أخريين. المنطقة المغطاة بقناع أبيض شفاف هي الجزء غير المعدل من الصورة المستهدفة. المصدر: realfill.github.io
محددات
ناقش الباحثون أيضًا بعض المشكلات والقيود المحتملة لنموذج RealFill، بما في ذلك سرعة المعالجة، والقدرة على التعامل مع تغييرات وجهة النظر، والقدرة على التعامل مع المواقف التي تشكل تحديًا للنموذج الأساسي. خاصة:
يتطلب RealFill عملية ضبط دقيقة تعتمد على التدرج اللوني على الصورة المدخلة، مما يجعلها بطيئة نسبيًا في التشغيل.
عندما يكون تغيير وجهة النظر بين الصورة المرجعية والصورة المستهدفة كبيرًا جدًا، غالبًا ما يتعذر على RealFill استعادة المشهد ثلاثي الأبعاد، خاصة عندما تكون هناك صورة مرجعية واحدة فقط.
نظرًا لأن RealFill يعتمد بشكل أساسي على الصور المسبقة الموروثة من النموذج الأساسي المُدرب مسبقًا، فإنه لا يمكنه التعامل مع المواقف التي تمثل تحديًا للنموذج الأساسي، مثل نماذج الانتشار المستقرة التي لا يمكنها التعامل مع النص بشكل جيد.
وأخيراً يعرب المؤلف عن امتنانه للمتعاونين:
نود أن نشكر روندي وو، كيانقيان وانغ، فيراج شاه، إيثان ويبر، زينجكي لي، كايل جينوفا، بويانغ دينغ، مايا غولدنبرغ، نوح سنافيلي، بن بول، بن ميلدنهال، أليكس راف-آشا، براتول سرينيفاسان، دور فيربين، و جون بارون على مناقشاتهم وملاحظاتهم القيمة، كما أشكر زيا بينج، وروندي وو، وشان نان على مساهماتهم في مجموعة بيانات التقييم. ونحن ممتنون بشكل خاص لجيسون بالدريدج، وكيهيوك سون، وكاثي ماير هيلسترن، ونيكول بريشتوفا لتعليقاتهم ودعمهم للمشروع.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
الأصالة مذهلة، حيث يقترح جوجل وكورنيل تقنية RealFill لإكمال الصور الحقيقية
عند السفر خلال العطلات، التقاط الصور أمر لا بد منه. ومع ذلك، فإن معظم الصور الملتقطة في المواقع ذات المناظر الخلابة تكون مؤسفة إلى حد ما، فإما أن يكون هناك شيء إضافي في الخلفية، أو أن هناك شيئًا مفقودًا.
لقد كان الحصول على صورة "مثالية" أحد الأهداف طويلة المدى للباحثين في مجال السيرة الذاتية. في الآونة الأخيرة، تعاون باحثون من أبحاث Google وجامعة كورنيل لاقتراح تقنية "إكمال الصور الأصلية" - RealFill، وهو نموذج توليدي لإكمال الصور.
تتمثل ميزة نماذج RealFill في إمكانية تخصيصها بعدد صغير من الصور المرجعية للمشهد التي ليس من الضروري أن تتم محاذاتها مع الصورة المستهدفة ويمكن أن تختلف بشكل كبير من حيث زاوية الرؤية أو ظروف الإضاءة أو فتحة الكاميرا أو نمط الصورة . بمجرد اكتمال التخصيص، يمكن لـ RealFill استكمال الصورة المستهدفة بمحتوى جذاب بصريًا بطريقة تتوافق مع المشهد الأصلي.
تعد نماذج Inpainting وoutpainting من التقنيات التي يمكنها توليد محتوى صور عالي الجودة ومعقول في مناطق غير معروفة من الصورة، إلا أن المحتوى الناتج عن هذه النماذج هو بالضرورة غير واقعي لأن هذه النماذج تعمل في سياق مشاهد حقيقية، هناك نقص في المعلومات . في المقابل، يقوم RealFill بإنشاء المحتوى الذي "ينبغي" أن يكون موجودًا، مما يجعل نتائج إكمال الصورة أكثر واقعية.
أشار المؤلفون في الورقة إلى أنهم حددوا مشكلة جديدة في إكمال الصورة - "إكمال الصورة الأصلية". يختلف عن استعادة الصور التوليدية التقليدية (قد يكون المحتوى الذي يحل محل المنطقة المفقودة غير متسق مع المشهد الأصلي)، فإن الهدف من إكمال الصورة الحقيقية هو جعل المحتوى المكتمل مطابقًا قدر الإمكان للمشهد الأصلي، وذلك باستخدام المحتوى الذي "يجب أن يظهر" هناك". أكمل الصورة المستهدفة بالمحتوى الذي "قد يكون موجودًا هناك".
يذكر المؤلفون أن RealFill هي الطريقة الأولى لتوسيع القوة التعبيرية لنماذج رسم الصور التوليدية عن طريق إضافة المزيد من الشروط إلى العملية (أي إضافة صور مرجعية).
يتفوق RealFill بشكل كبير على الأساليب الحالية في معيار إكمال الصور الجديد الذي يغطي مجموعة متنوعة وصعبة من السيناريوهات.
طريقة
الهدف من RealFill هو استخدام عدد صغير من الصور المرجعية لإكمال الأجزاء المفقودة من صورة مستهدفة معينة مع الحفاظ على أكبر قدر ممكن من الأصالة. على وجه التحديد، يتم منحك ما يصل إلى 5 صور مرجعية، وصورة مستهدفة تلتقط نفس المشهد تقريبًا (ولكن قد يكون لها تخطيط أو مظهر مختلف).
بالنسبة لمشهد معين، قام الباحثون أولاً بإنشاء نموذج توليدي مخصص من خلال الضبط الدقيق لنموذج نشر الرسم المُدرب مسبقًا على الصور المرجعية والمستهدفة. تم تصميم عملية الضبط الدقيق هذه بحيث لا يحافظ النموذج المضبوط بدقة على مقدمات الصورة الجيدة فحسب، بل يتعلم أيضًا محتوى المشهد والإضاءة والأسلوب في الصورة المدخلة. يتم بعد ذلك استخدام هذا النموذج المضبوط بدقة لملء المناطق المفقودة في الصورة المستهدفة من خلال عملية أخذ عينات الانتشار القياسية.
تجدر الإشارة إلى أنه، بالنسبة لقيمة التطبيق العملي، يركز هذا النموذج بشكل خاص على الحالة الأكثر تحديًا وغير المقيدة، حيث قد يكون للصورة المستهدفة والصورة المرجعية وجهات نظر وظروف بيئية وفتحات كاميرا وأنماط صور وحتى حركات مختلفة تمامًا. هدف.
نتائج تجريبية
استنادًا إلى الصورة المرجعية الموجودة على اليسار، يمكن لـ RealFill توسيع (إلغاء اقتصاص) أو إصلاح (إعادة طلاء) الصورة المستهدفة الموجودة على اليمين. والنتيجة الناتجة ليست جذابة بصريًا فحسب، ولكنها متوافقة أيضًا مع الصورة المرجعية، حتى لو كانت الصورة المرجعية و الصورة المستهدفة في نفس وجهة النظر، وهناك اختلافات كبيرة في الفتحة والإضاءة ونمط الصورة وحركة الكائن.
التجربة التي تسيطر عليها
قارن الباحثون نموذج RealFill مع طرق أساسية أخرى. بالمقارنة، يقدم RealFill نتائج عالية الجودة ويعمل بشكل أفضل من حيث دقة المشهد والاتساق مع الصور المرجعية.
لا يمكن لـ Paint-by-Example تحقيق دقة عالية للمشهد لأنه يعتمد على تضمين CLIP، والذي يمكنه فقط التقاط المعلومات الدلالية عالية المستوى.
على الرغم من أن Stable Diffusion Inpainting يمكن أن ينتج نتائج معقولة على ما يبدو، نظرًا لقدراته التعبيرية المحدودة، فإن النتائج النهائية الناتجة لا تتوافق مع الصورة المرجعية.
محددات
ناقش الباحثون أيضًا بعض المشكلات والقيود المحتملة لنموذج RealFill، بما في ذلك سرعة المعالجة، والقدرة على التعامل مع تغييرات وجهة النظر، والقدرة على التعامل مع المواقف التي تشكل تحديًا للنموذج الأساسي. خاصة:
يتطلب RealFill عملية ضبط دقيقة تعتمد على التدرج اللوني على الصورة المدخلة، مما يجعلها بطيئة نسبيًا في التشغيل.
عندما يكون تغيير وجهة النظر بين الصورة المرجعية والصورة المستهدفة كبيرًا جدًا، غالبًا ما يتعذر على RealFill استعادة المشهد ثلاثي الأبعاد، خاصة عندما تكون هناك صورة مرجعية واحدة فقط.
نظرًا لأن RealFill يعتمد بشكل أساسي على الصور المسبقة الموروثة من النموذج الأساسي المُدرب مسبقًا، فإنه لا يمكنه التعامل مع المواقف التي تمثل تحديًا للنموذج الأساسي، مثل نماذج الانتشار المستقرة التي لا يمكنها التعامل مع النص بشكل جيد.
نود أن نشكر روندي وو، كيانقيان وانغ، فيراج شاه، إيثان ويبر، زينجكي لي، كايل جينوفا، بويانغ دينغ، مايا غولدنبرغ، نوح سنافيلي، بن بول، بن ميلدنهال، أليكس راف-آشا، براتول سرينيفاسان، دور فيربين، و جون بارون على مناقشاتهم وملاحظاتهم القيمة، كما أشكر زيا بينج، وروندي وو، وشان نان على مساهماتهم في مجموعة بيانات التقييم. ونحن ممتنون بشكل خاص لجيسون بالدريدج، وكيهيوك سون، وكاثي ماير هيلسترن، ونيكول بريشتوفا لتعليقاتهم ودعمهم للمشروع.