بسحب الأوراق إلى اليسار، تحركت شجرة الصنوبر في نفس الاتجاه.
هناك أيضًا صور لأشياء مختلفة في العالم، والتي يمكن إعادة الحياة إليها في لحظة.
هذا هو أحدث بحث أجراه فريق جوجل، والذي يحول يديك إلى "أصابع ذهبية سحرية" يمكنها التحكم في كل شيء وتحريكه بلمسة واحدة.
في هذا البحث، اقترح جوجل "ديناميكيات الصورة التوليدية"، التي تقوم بنمذجة مساحة الصورة مسبقًا ثم تدريب النموذج على التنبؤ "بنسيج الحركة العشوائية العصبية".
أخيرًا، تم تنفيذه، ويمكن إنشاء حلقة لا نهائية من الفيديو من خلال التفاعل مع صورة واحدة.
في المستقبل، لن يعد خيال الفنانين محدودًا بالأطر التقليدية، وسيكون كل شيء ممكنًا في مساحة الصورة الديناميكية هذه.
كل شيء في الصورة ينبض بالحياة
إن حركة كل شيء في العالم متعددة الوسائط.
تمايلت الملابس المعلقة في الفناء ذهابًا وإيابًا مع الريح.
وكانت الفوانيس الحمراء الكبيرة المعلقة في الشارع تتمايل في الهواء.
هناك أيضًا قطة صغيرة تنام بجوار الستارة، وتتنفس بطنها لأعلى ولأسفل، وهي كسولة جدًا.
هذه الحركات لا يمكن التنبؤ بها عادة: الشموع تحترق بطريقة معينة، الأشجار تتمايل مع الريح، حفيف أوراق الشجر...
عند التقاط الصورة، قد يتمكن الباحثون من تخيل كيفية تحركها عند التقاط الصورة.
ونظرًا للتطور الحالي للنماذج التوليدية، وخاصة نماذج الانتشار، فمن الممكن نمذجة توزيعات غنية ومعقدة للغاية.
وهذا يجعل من الممكن تنفيذ العديد من التطبيقات التي كانت مستحيلة في السابق، مثل إنشاء صور واقعية بشكل عشوائي من النص. بالإضافة إلى كونه مفيدًا في مجال الصورة، يمكن أيضًا استخدام نموذج الانتشار لنمذجة مجال الفيديو.
ومن هذا المنطلق، قام فريق Google في هذه الدراسة بتصميم نموذج لحركة سابقة على المشهد في مساحة الصورة، أي حركة جميع وحدات البكسل في صورة واحدة.
يتم تدريب النموذج بناءً على مسارات الحركة المستخرجة تلقائيًا من عدد كبير من تسلسلات الفيديو الحقيقية.
مشروطًا بالصورة المدخلة، يتنبأ النموذج المدرب بـ "نسيج الحركة العشوائية العصبية": مجموعة من معاملات الحركة الأساسية التي تصف المسار المستقبلي لكل بكسل.
قصر باحثو Google نطاق دراستهم على مشاهد من العالم الحقيقي ذات ديناميكيات التأرجح الطبيعية، مثل الأشجار والزهور التي تتطاير في مهب الريح، لذلك اختاروا سلسلة فورييه كوظيفة أساسية.
بعد ذلك، يتم استخدام نموذج الانتشار للتنبؤ بـ "نسيج الحركة العشوائية العصبية." ويولد النموذج معاملات لتردد واحد فقط في كل مرة، ولكنه ينسق هذه التنبؤات عبر نطاقات تردد مختلفة.
يمكن تحويل بنية مساحة التردد الناتجة إلى مسارات حركة بيكسل كثيفة لمسافات طويلة، والتي يمكن استخدامها لتجميع الإطارات المستقبلية وتحويل الصور الثابتة إلى رسوم متحركة واقعية.
وبعد ذلك، دعونا نلقي نظرة على كيفية تنفيذه؟
مقدمة عن التكنولوجيا
بناء على صورة واحدة
، هدف الباحث هو توليد فيديو بطول T
، يمكن أن يعرض هذا الفيديو أشجارًا أو زهورًا أو لهيب شموع ديناميكية تتمايل مع النسيم.
يتكون النظام الذي أنشأه الباحثون من وحدتين: "وحدة التنبؤ بالإجراء" و"وحدة العرض المستندة إلى الصور".
أولاً، استخدم الباحثون "نموذج الانتشار الكامن" كصورة مُدخلة
التنبؤ بنسيج الحركة العشوائية العصبية
إنه تمثيل التردد لمسار الحركة لكل بكسل في الصورة المدخلة.
في الخطوة الثانية، يتم استخدام تحويل فورييه المنفصل العكسي لتحويل نسيج الحركة العشوائية المتوقعة إلى سلسلة من مجالات إزاحة الحركة.
.
سيتم استخدام حقول إزاحة الحركة هذه لتحديد موضع كل بكسل إدخال في كل خطوة زمنية مستقبلية.
باستخدام حقول الحركة المتوقعة هذه، تستخدم وحدة العرض الخاصة بالباحثين تقنيات العرض المستندة إلى الصور لالتقاط ميزات التشفير من صور RGB المدخلة وفك تشفير هذه الميزات المنتقاة إلى إطارات الإخراج من خلال شبكة تركيب الصور.
نسيج الحركة العشوائية العصبية
نسيج الحركة
في الأبحاث السابقة، حدد نسيج الحركة سلسلة من خرائط الإزاحة ثنائية الأبعاد المتغيرة بمرور الوقت.
حيث ينسق كل بكسل pمن الصورة المدخلة
يحدد متجه الإزاحة ثنائي الأبعاد موضع البكسل في الوقت المستقبلي t.
لإنشاء إطار مستقبلي في الوقت t، يمكن استخدام خريطة الإزاحة المقابلة، من
اختر وحدات البكسل من ، مما يؤدي إلى صورة مشوهة للأمام:
** نسيج الحركة العشوائية **
كما تم توضيحه سابقًا في أبحاث رسومات الكمبيوتر، يمكن وصف العديد من الحركات الطبيعية، وخاصة الحركات التذبذبية، على أنها تراكب لمجموعة صغيرة من المذبذبات التوافقية، ممثلة بترددات، وسعة، وأطوار مختلفة.
إحدى الطرق لإدخال العشوائية في الحركة هي دمج مجالات الضوضاء. ولكن كما أظهرت الأبحاث السابقة، فإن إضافة ضوضاء عشوائية مباشرة داخل النطاقات المكانية والزمانية لحقول الحركة المتوقعة غالبًا ما تؤدي إلى رسوم متحركة غير واقعية أو غير مستقرة.
علاوة على ذلك، فإن استخدام نسيج الحركة في المجال الزمني المحدد أعلاه يعني أنه يجب التنبؤ بحقول الإزاحة T 2D لإنشاء مقطع فيديو يحتوي على إطارات T. لتجنب التنبؤ بمثل هذا التمثيل الكبير للمخرجات، فإن العديد من طرق الرسوم المتحركة السابقة إما تولد إطارات فيديو بشكل انحداري أو تتنبأ بشكل مستقل بكل إطار مخرجات مستقبلي من خلال التضمين الزمني الإضافي.
ومع ذلك، لا تضمن أي من الاستراتيجيتين أن تكون إطارات الفيديو التي تم إنشاؤها متسقة مؤقتًا على المدى الطويل، وقد ينتج كلاهما مقاطع فيديو تنحرف أو تتباعد بمرور الوقت.
لحل المشكلات المذكورة أعلاه، يمثل الباحثون نسيج الحركة لكل بكسل لمشهد الإدخال في مجال التردد (أي مسارات الحركة الكاملة لجميع وحدات البكسل) وصياغة مشكلة التنبؤ بالحركة كتحويل صورة إلى صورة متعدد الوسائط مهمة.
استخدم الباحثون نموذج الانتشار الكامن (LDM) لتوليد نسيج حركة عشوائي يتكون من مخطط طيفي للحركة ثنائي الأبعاد لقناة 4K، حيث K << T هو عدد الترددات النموذجية، وعند كل تردد، احتاج الباحثون إلى أربعة كميات قياسية لتمثيل معاملات فورييه المعقدة في الأبعاد x و y.
الصورة أدناه توضح هذه القوام العصبي الحركي العشوائي.
إذًا، كيف ينبغي اختيار تردد الخرج K الذي أشار إليه الباحثون؟ أظهرت الأبحاث السابقة حول الرسوم المتحركة في الوقت الفعلي أن معظم الحركة التذبذبية الطبيعية تتكون أساسًا من مكونات منخفضة التردد.
لاختبار هذه الفرضية، قام الباحثون بحساب متوسط طيف الحركة المستخرج من 1000 مقطع فيديو حقيقي مدته 5 ثوانٍ تم أخذ عينات منها بشكل عشوائي. كما هو موضح في الصورة اليسرى أدناه، تتركز الطاقة بشكل أساسي على المكونات ذات التردد المنخفض.
يتناقص طيف تردد الإجراء بشكل كبير مع زيادة التردد. وهذا يدل على أن معظم إجراءات الاهتزازات الطبيعية يمكن تمثيلها بشكل جيد من خلال مصطلحات التردد المنخفض.
ومن الناحية العملية، وجد الباحثون أن معاملات فورييه K = 16 الأولى كانت كافية لإعادة إنتاج الحركات الطبيعية الأصلية بأمانة في مجموعة من مقاطع الفيديو والمشاهد الحقيقية.
استخدم نموذج الانتشار للتنبؤ بالإجراءات
اختار الباحثون نموذج الانتشار الكامن (LDM) باعتباره جوهر وحدة التنبؤ بالعمل الخاصة بالباحثين لأن LDM أكثر كفاءة من الناحية الحسابية من نموذج الانتشار في مساحة البكسل مع الحفاظ على جودة التوليد.
يتضمن LDM القياسي بشكل أساسي وحدتين:
يقوم جهاز التشفير التلقائي المتغير (VAE) بضغط صورة الإدخال في المساحة الكامنة من خلال جهاز التشفير z = E(I)، ثم يعيد بناء الإدخال من الميزات الكامنة من خلال جهاز فك التشفير I = D(z).
نموذج انتشار يعتمد على U-Net، والذي يتعلم تقليل الضوضاء بشكل متكرر للميزات الكامنة بدءًا من الضوضاء العشوائية الغوسية.
لا يتم تطبيق تدريب الباحثين على إدخال الصور، بل على أنسجة الحركة العشوائية من تسلسلات فيديو حقيقية، والتي يتم تشفيرها ثم نشرها بعدد n من الخطوات في جدول تباين محدد مسبقًا لإنتاج متغيرات كامنة صاخبة.
** التطبيع التكيفي للتردد **
لاحظ الباحثون مشكلة حيث أن أنسجة الحركة العشوائية لها خصائص توزيع محددة في التردد. كما هو موضح في اللوحة اليسرى من الصورة أعلاه، فإن سعة نسيج الحركة للباحثين تتراوح من 0 إلى 100، وتضمحل بشكل كبير تقريبًا مع زيادة التردد.
وبما أن نماذج الانتشار تتطلب قيم مخرجات تتراوح بين 0 و1 للتدريب المستقر وتقليل الضوضاء، يجب على الباحثين تطبيع معاملات S المستخرجة من مقاطع الفيديو الحقيقية قبل التدريب عليها.
إذا قام الباحثون بقياس حجم معاملات S إلى [0,1] بناءً على عرض الصورة وارتفاعها، فإن جميع المعاملات تقريبًا ستكون قريبة من الصفر عند الترددات الأعلى، كما هو موضح في الشكل أعلاه (على اليمين).
قد تنتج النماذج المدربة على مثل هذه البيانات إجراءات غير دقيقة لأنه أثناء الاستدلال، حتى أخطاء التنبؤ الصغيرة قد تؤدي إلى أخطاء نسبية كبيرة بعد إلغاء التسوية، عندما يكون حجم المعامل S المقيس قريبًا جدًا من الصفر.
ولحل هذه المشكلة، استخدم الباحثون تقنية تطبيع بسيطة ولكنها فعالة للتكيف مع التردد. على وجه التحديد، قام الباحثون أولاً بتطبيع معاملات فورييه عند كل تردد بشكل مستقل بناءً على الإحصائيات المحسوبة من مجموعة التدريب.
** تقليل الضوضاء المنسق بالتردد **
تتمثل إحدى الطرق المباشرة للتنبؤ بنسيج الحركة العشوائية S مع نطاقات التردد K في إخراج موتر بقنوات 4K من شبكة U-Net ذات انتشار قياسي.
ومع ذلك، فإن تدريب النموذج على إنتاج مثل هذا العدد الكبير من القنوات غالبًا ما ينتج عنه مخرجات سلسة وغير دقيقة بشكل مفرط.
هناك طريقة أخرى تتمثل في التنبؤ بالمخطط الطيفي للحركة عند كل تردد فردي بشكل مستقل عن طريق حقن تضمينات تردد إضافية في LDM، ولكن هذا يؤدي إلى تنبؤات غير ذات صلة في مجال التردد وبالتالي إجراءات غير واقعية.
لذلك اقترح الباحثون استراتيجية تقليل الضوضاء المنسقة بالتردد الموضحة في الشكل أدناه. على وجه التحديد، بالنظر إلى صورة الإدخال I0، نقوم أولاً بتدريب LDM على التنبؤ بخرائط نسيج الحركة العشوائية بأربع قنوات لكل تردد فردي، حيث نقوم بإدخال تضمينات تردد إضافية في LDM جنبًا إلى جنب مع تضمينات الخطوة الزمنية في الشبكة.
### العرض القائم على الصور
ويصف الباحثون أيضًا كيفية عرض الإطار ˆIt في المستقبل t باستخدام نسيج حركة عشوائي S متوقع لصورة إدخال معينة I0. أولاً، استخدم الباحثون المجال الزمني العكسي FFT (تحويل فورييه السريع) لحساب مجال مسار الحركة عند كل نقطة بكسل p
تحدد حقول مسار الحركة هذه موضع كل بكسل إدخال في كل خطوة زمنية مستقبلية. لإنشاء إطارات مستقبلية، يستخدم الباحثون تقنية عرض الصور العميقة ويقومون بالتحريف الأمامي (الرش) باستخدام مجال الحركة المتوقع لتشويه I0 المشفر، كما هو موضح في الشكل أدناه.
نظرًا لأن التزييف الأمامي قد يتسبب في حدوث ثقوب في الصورة، وقد يتم تعيين وحدات بكسل مصدر متعددة لنفس موضع الإخراج ثنائي الأبعاد، فقد اعتمد الباحثون استراتيجية تزييف Softmax الهرمية المميزة التي تم اقتراحها مسبقًا في أبحاث استيفاء الإطار.
نقوم بتدريب مستخرج الميزات وشبكة التوليف بشكل مشترك مع إطارات البداية والهدف المأخوذة عشوائيًا من مقاطع فيديو حقيقية، حيث نستخدم مجال التدفق المقدر من I0 إلى It لتشويه الميزات المشفرة لـ I0 واستخدام فقدان الإدراك الحسي VGG للتنبؤ ˆيقوم بالإشراف .
كما هو موضح أعلاه، فإن ميزة تزييفها المدركة للحركة تنتج إطارًا بدون ثقوب أو آثار مقارنة بطرق تزييف المتوسط المباشر وأساليب تزييف عمق خط الأساس.
مزيد من التطبيقات الموسعة
كما أوضح الباحثون تطبيق إضافة التأثيرات الديناميكية إلى الصورة الثابتة الواحدة باستخدام عملية التمثيل الحركي والرسوم المتحركة التي اقترحها الباحثون.
** صورة إلى فيديو **
يقوم نظام الباحثين بتحريك صورة ثابتة واحدة من خلال التنبؤ أولاً بنسيج الحركة العشوائية العصبية من الصورة المدخلة، ومن خلال تطبيق وحدة العرض المستندة إلى الصور الخاصة بالباحثين على مجال إزاحة الحركة المشتق من نسيج الحركة العشوائية.
نظرًا لأننا صممنا حركة المشهد بشكل صريح، فقد سمح لنا ذلك بإنشاء مقاطع فيديو بطيئة الحركة عن طريق الاستيفاء الخطي لحقول إزاحة الحركة وتكبير (أو تصغير) الحركة المتحركة عن طريق ضبط سعة معاملات نسيج الحركة العشوائية المتوقعة.
** حلقة سلسة **
في بعض الأحيان يكون من المفيد إنشاء مقاطع فيديو بحركة متكررة سلسة، مما يعني عدم وجود انقطاع في المظهر أو الحركة بين بداية الفيديو ونهايته.
لسوء الحظ، من الصعب العثور على مجموعة تدريب كبيرة من مقاطع الفيديو التي يتم تكرارها بسلاسة. لذلك، ابتكر الباحثون طريقة باستخدام نموذج نشر الحركة الخاص بالباحثين، والذي تم تدريبه على مقاطع فيديو عادية غير متكررة، لإنتاج مقاطع فيديو متكررة بسلاسة.
مستوحاة من الأبحاث الحديثة حول تحرير الصور الموجهة، فإن نهج الباحثين هو تقنية الحركة ذاتية التوجيه التي تستخدم قيود حلقة واضحة لتوجيه عملية أخذ عينات تقليل الضوضاء.
على وجه التحديد، خلال كل خطوة تكرارية لتقليل الضوضاء في مرحلة الاستدلال، قام الباحثون بتضمين إشارة توجيه حركة إضافية جنبًا إلى جنب مع التوجيه القياسي الخالي من المصنف، حيث أجبرنا كل بكسل على أن يكون في مواضع البداية والنهاية للإطار وتكون السرعات متشابهة قدر الإمكان.
** إنشاء رسوم متحركة تفاعلية من صورة واحدة **
إن طيف الحركة المكانية للصورة في مقطع فيديو تمت ملاحظته لجسم متذبذب يقارب الأساس الفيزيائي للاهتزاز للكائن.
تلتقط الأشكال المشروطة الديناميكيات التذبذبية لجسم ما عند ترددات مختلفة، لذلك يمكن استخدام إسقاط مساحة الصورة لأنماط اهتزاز الجسم لنمذجة استجابة الكائن لقوة محددة من قبل المستخدم مثل الوخز أو السحب.
ولذلك، استخدم الباحثون تقنية التحليل النموذجي التي تمت دراستها مسبقًا، والتي تفترض أن حركة الجسم يمكن تفسيرها من خلال تراكب مجموعة من الرنانات.
يتيح ذلك للباحثين كتابة مجال إزاحة الحركة ثنائية الأبعاد لمساحة الصورة للاستجابة الفيزيائية للكائن كمجموع مرجح لمعاملات طيف فورييه والإحداثيات النمطية المعقدة لكل خطوة زمنية للمحاكاة t، والزمن t.
التقييم التجريبي
أجرى فريق البحث مقارنة كمية بين الطريقة الأحدث والطريقة الأساسية على مجموعة اختبارية من مقاطع الفيديو غير المرئية.
لقد وجد أن نهج Google يتفوق بشكل كبير على الخطوط الأساسية السابقة للرسوم المتحركة ذات الصورة الواحدة من حيث جودة تركيب الصورة والفيديو.
على وجه التحديد، تعد مسافات FVD وDT-FVD من Google أقل بكثير، مما يشير إلى أن مقاطع الفيديو التي تم إنشاؤها بهذه الطريقة أكثر واقعية وتماسكًا مؤقتًا.
علاوة على ذلك، يوضح الشكل 6 مسافات FID للنافذة المنزلقة والنافذة المنزلقة DT-FVD لمقاطع الفيديو التي تم إنشاؤها بطرق مختلفة.
نظرًا لأن Google تستخدم تمثيل نسيج الحركة العشوائية العالمي، فإن منهجها ينشئ مقاطع فيديو أكثر اتساقًا بمرور الوقت ولا تنحرف أو تتدهور بمرور الوقت.
بالإضافة إلى ذلك، أجرى فريق Google مقارنة نوعية بصرية بين طريقته الخاصة ومقاطع الفيديو التي تم إنشاؤها بواسطة خط الأساس بطريقتين.
أولاً، يتم عرض الشريحة الزمانية المكانية Xt للفيديو الذي تم إنشاؤه، كما هو موضح في الشكل 7.
تشبه ديناميكيات مقاطع الفيديو التي تم إنشاؤها بواسطة Google أنماط الحركة التي تمت ملاحظتها في مقاطع الفيديو المرجعية الحقيقية المقابلة (العمود الثاني). لا يمكن للخطوط الأساسية مثل I2V العشوائي وMCVD محاكاة المظهر والحركة بشكل واقعي مع مرور الوقت.
نحن نتنبأ أيضًا بالصور من خلال التصور
ومجال إزاحة الحركة المقابل لها في الوقت t = 128. مقارنة نوعية لجودة كل إطار وحركة تم إنشاؤها بطرق مختلفة.
تنتج الطريقة التي تم إنشاؤها بواسطة Google إطارات تعرض عددًا أقل من القطع الأثرية والتشوهات مقارنة بالطرق الأخرى، كما أن حقول الحركة ثنائية الأبعاد المقابلة هي الأكثر تشابهًا مع حقول الإزاحة المرجعية المقدرة من مقاطع الفيديو الحقيقية المقابلة.
دراسة الاجتثاث: يلاحظ من الجدول 2 أن جميع التكوينات الأبسط أو البديلة تؤدي إلى أداء أسوأ مقارنة بالنموذج الكامل.
عن المؤلف
تشنغكي لي
Zhengqi Li هو عالم أبحاث في Google Research. تشمل اهتماماته البحثية الرؤية الحاسوبية ثلاثية ورباعية الأبعاد، والعرض المعتمد على الصور، والتصوير الحاسوبي، خاصة في الصور والفيديوهات البرية. حصل على درجة الدكتوراه في علوم الكمبيوتر من جامعة كورنيل، حيث كان يشرف عليه نوح سنافيلي.
حصل على جائزة التنويه الشرفي لأفضل ورقة بحثية لعام 2019 من CVPR، ومنحة Google للدكتوراه لعام 2020، وزمالة Adobe للأبحاث لعام 2020، وجائزة Baidu Global Artificial Intelligence لأفضل 100 نجم صاعد في الصين لعام 2021، وجائزة CVPR 2023 الفخرية لأفضل ورقة بحثية.
مراجع:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
مع شد وجذب، تعود الوردة إلى الحياة! يقترح جوجل ديناميكيات الصور التوليدية، وسيكون كل شيء حيًا من الآن فصاعدًا
المصدر الأصلي: Xinzhiyuan
انظر، بسحب لطيف، تبدأ الوردة في التحرك.
أخيرًا، تم تنفيذه، ويمكن إنشاء حلقة لا نهائية من الفيديو من خلال التفاعل مع صورة واحدة.
في المستقبل، لن يعد خيال الفنانين محدودًا بالأطر التقليدية، وسيكون كل شيء ممكنًا في مساحة الصورة الديناميكية هذه.
كل شيء في الصورة ينبض بالحياة
إن حركة كل شيء في العالم متعددة الوسائط.
تمايلت الملابس المعلقة في الفناء ذهابًا وإيابًا مع الريح.
عند التقاط الصورة، قد يتمكن الباحثون من تخيل كيفية تحركها عند التقاط الصورة.
ونظرًا للتطور الحالي للنماذج التوليدية، وخاصة نماذج الانتشار، فمن الممكن نمذجة توزيعات غنية ومعقدة للغاية.
وهذا يجعل من الممكن تنفيذ العديد من التطبيقات التي كانت مستحيلة في السابق، مثل إنشاء صور واقعية بشكل عشوائي من النص. بالإضافة إلى كونه مفيدًا في مجال الصورة، يمكن أيضًا استخدام نموذج الانتشار لنمذجة مجال الفيديو.
يتم تدريب النموذج بناءً على مسارات الحركة المستخرجة تلقائيًا من عدد كبير من تسلسلات الفيديو الحقيقية.
مشروطًا بالصورة المدخلة، يتنبأ النموذج المدرب بـ "نسيج الحركة العشوائية العصبية": مجموعة من معاملات الحركة الأساسية التي تصف المسار المستقبلي لكل بكسل.
بعد ذلك، يتم استخدام نموذج الانتشار للتنبؤ بـ "نسيج الحركة العشوائية العصبية." ويولد النموذج معاملات لتردد واحد فقط في كل مرة، ولكنه ينسق هذه التنبؤات عبر نطاقات تردد مختلفة.
يمكن تحويل بنية مساحة التردد الناتجة إلى مسارات حركة بيكسل كثيفة لمسافات طويلة، والتي يمكن استخدامها لتجميع الإطارات المستقبلية وتحويل الصور الثابتة إلى رسوم متحركة واقعية.
مقدمة عن التكنولوجيا
بناء على صورة واحدة
يتكون النظام الذي أنشأه الباحثون من وحدتين: "وحدة التنبؤ بالإجراء" و"وحدة العرض المستندة إلى الصور".
أولاً، استخدم الباحثون "نموذج الانتشار الكامن" كصورة مُدخلة
في الخطوة الثانية، يتم استخدام تحويل فورييه المنفصل العكسي لتحويل نسيج الحركة العشوائية المتوقعة إلى سلسلة من مجالات إزاحة الحركة.
سيتم استخدام حقول إزاحة الحركة هذه لتحديد موضع كل بكسل إدخال في كل خطوة زمنية مستقبلية.
باستخدام حقول الحركة المتوقعة هذه، تستخدم وحدة العرض الخاصة بالباحثين تقنيات العرض المستندة إلى الصور لالتقاط ميزات التشفير من صور RGB المدخلة وفك تشفير هذه الميزات المنتقاة إلى إطارات الإخراج من خلال شبكة تركيب الصور.
نسيج الحركة العشوائية العصبية
نسيج الحركة
في الأبحاث السابقة، حدد نسيج الحركة سلسلة من خرائط الإزاحة ثنائية الأبعاد المتغيرة بمرور الوقت.
لإنشاء إطار مستقبلي في الوقت t، يمكن استخدام خريطة الإزاحة المقابلة، من
كما تم توضيحه سابقًا في أبحاث رسومات الكمبيوتر، يمكن وصف العديد من الحركات الطبيعية، وخاصة الحركات التذبذبية، على أنها تراكب لمجموعة صغيرة من المذبذبات التوافقية، ممثلة بترددات، وسعة، وأطوار مختلفة.
إحدى الطرق لإدخال العشوائية في الحركة هي دمج مجالات الضوضاء. ولكن كما أظهرت الأبحاث السابقة، فإن إضافة ضوضاء عشوائية مباشرة داخل النطاقات المكانية والزمانية لحقول الحركة المتوقعة غالبًا ما تؤدي إلى رسوم متحركة غير واقعية أو غير مستقرة.
علاوة على ذلك، فإن استخدام نسيج الحركة في المجال الزمني المحدد أعلاه يعني أنه يجب التنبؤ بحقول الإزاحة T 2D لإنشاء مقطع فيديو يحتوي على إطارات T. لتجنب التنبؤ بمثل هذا التمثيل الكبير للمخرجات، فإن العديد من طرق الرسوم المتحركة السابقة إما تولد إطارات فيديو بشكل انحداري أو تتنبأ بشكل مستقل بكل إطار مخرجات مستقبلي من خلال التضمين الزمني الإضافي.
ومع ذلك، لا تضمن أي من الاستراتيجيتين أن تكون إطارات الفيديو التي تم إنشاؤها متسقة مؤقتًا على المدى الطويل، وقد ينتج كلاهما مقاطع فيديو تنحرف أو تتباعد بمرور الوقت.
لحل المشكلات المذكورة أعلاه، يمثل الباحثون نسيج الحركة لكل بكسل لمشهد الإدخال في مجال التردد (أي مسارات الحركة الكاملة لجميع وحدات البكسل) وصياغة مشكلة التنبؤ بالحركة كتحويل صورة إلى صورة متعدد الوسائط مهمة.
استخدم الباحثون نموذج الانتشار الكامن (LDM) لتوليد نسيج حركة عشوائي يتكون من مخطط طيفي للحركة ثنائي الأبعاد لقناة 4K، حيث K << T هو عدد الترددات النموذجية، وعند كل تردد، احتاج الباحثون إلى أربعة كميات قياسية لتمثيل معاملات فورييه المعقدة في الأبعاد x و y.
الصورة أدناه توضح هذه القوام العصبي الحركي العشوائي.
لاختبار هذه الفرضية، قام الباحثون بحساب متوسط طيف الحركة المستخرج من 1000 مقطع فيديو حقيقي مدته 5 ثوانٍ تم أخذ عينات منها بشكل عشوائي. كما هو موضح في الصورة اليسرى أدناه، تتركز الطاقة بشكل أساسي على المكونات ذات التردد المنخفض.
ومن الناحية العملية، وجد الباحثون أن معاملات فورييه K = 16 الأولى كانت كافية لإعادة إنتاج الحركات الطبيعية الأصلية بأمانة في مجموعة من مقاطع الفيديو والمشاهد الحقيقية.
استخدم نموذج الانتشار للتنبؤ بالإجراءات
اختار الباحثون نموذج الانتشار الكامن (LDM) باعتباره جوهر وحدة التنبؤ بالعمل الخاصة بالباحثين لأن LDM أكثر كفاءة من الناحية الحسابية من نموذج الانتشار في مساحة البكسل مع الحفاظ على جودة التوليد.
يتضمن LDM القياسي بشكل أساسي وحدتين:
يقوم جهاز التشفير التلقائي المتغير (VAE) بضغط صورة الإدخال في المساحة الكامنة من خلال جهاز التشفير z = E(I)، ثم يعيد بناء الإدخال من الميزات الكامنة من خلال جهاز فك التشفير I = D(z).
نموذج انتشار يعتمد على U-Net، والذي يتعلم تقليل الضوضاء بشكل متكرر للميزات الكامنة بدءًا من الضوضاء العشوائية الغوسية.
لا يتم تطبيق تدريب الباحثين على إدخال الصور، بل على أنسجة الحركة العشوائية من تسلسلات فيديو حقيقية، والتي يتم تشفيرها ثم نشرها بعدد n من الخطوات في جدول تباين محدد مسبقًا لإنتاج متغيرات كامنة صاخبة.
** التطبيع التكيفي للتردد **
لاحظ الباحثون مشكلة حيث أن أنسجة الحركة العشوائية لها خصائص توزيع محددة في التردد. كما هو موضح في اللوحة اليسرى من الصورة أعلاه، فإن سعة نسيج الحركة للباحثين تتراوح من 0 إلى 100، وتضمحل بشكل كبير تقريبًا مع زيادة التردد.
وبما أن نماذج الانتشار تتطلب قيم مخرجات تتراوح بين 0 و1 للتدريب المستقر وتقليل الضوضاء، يجب على الباحثين تطبيع معاملات S المستخرجة من مقاطع الفيديو الحقيقية قبل التدريب عليها.
إذا قام الباحثون بقياس حجم معاملات S إلى [0,1] بناءً على عرض الصورة وارتفاعها، فإن جميع المعاملات تقريبًا ستكون قريبة من الصفر عند الترددات الأعلى، كما هو موضح في الشكل أعلاه (على اليمين).
قد تنتج النماذج المدربة على مثل هذه البيانات إجراءات غير دقيقة لأنه أثناء الاستدلال، حتى أخطاء التنبؤ الصغيرة قد تؤدي إلى أخطاء نسبية كبيرة بعد إلغاء التسوية، عندما يكون حجم المعامل S المقيس قريبًا جدًا من الصفر.
ولحل هذه المشكلة، استخدم الباحثون تقنية تطبيع بسيطة ولكنها فعالة للتكيف مع التردد. على وجه التحديد، قام الباحثون أولاً بتطبيع معاملات فورييه عند كل تردد بشكل مستقل بناءً على الإحصائيات المحسوبة من مجموعة التدريب.
** تقليل الضوضاء المنسق بالتردد **
تتمثل إحدى الطرق المباشرة للتنبؤ بنسيج الحركة العشوائية S مع نطاقات التردد K في إخراج موتر بقنوات 4K من شبكة U-Net ذات انتشار قياسي.
ومع ذلك، فإن تدريب النموذج على إنتاج مثل هذا العدد الكبير من القنوات غالبًا ما ينتج عنه مخرجات سلسة وغير دقيقة بشكل مفرط.
هناك طريقة أخرى تتمثل في التنبؤ بالمخطط الطيفي للحركة عند كل تردد فردي بشكل مستقل عن طريق حقن تضمينات تردد إضافية في LDM، ولكن هذا يؤدي إلى تنبؤات غير ذات صلة في مجال التردد وبالتالي إجراءات غير واقعية.
لذلك اقترح الباحثون استراتيجية تقليل الضوضاء المنسقة بالتردد الموضحة في الشكل أدناه. على وجه التحديد، بالنظر إلى صورة الإدخال I0، نقوم أولاً بتدريب LDM على التنبؤ بخرائط نسيج الحركة العشوائية بأربع قنوات لكل تردد فردي، حيث نقوم بإدخال تضمينات تردد إضافية في LDM جنبًا إلى جنب مع تضمينات الخطوة الزمنية في الشبكة.
ويصف الباحثون أيضًا كيفية عرض الإطار ˆIt في المستقبل t باستخدام نسيج حركة عشوائي S متوقع لصورة إدخال معينة I0. أولاً، استخدم الباحثون المجال الزمني العكسي FFT (تحويل فورييه السريع) لحساب مجال مسار الحركة عند كل نقطة بكسل p
نقوم بتدريب مستخرج الميزات وشبكة التوليف بشكل مشترك مع إطارات البداية والهدف المأخوذة عشوائيًا من مقاطع فيديو حقيقية، حيث نستخدم مجال التدفق المقدر من I0 إلى It لتشويه الميزات المشفرة لـ I0 واستخدام فقدان الإدراك الحسي VGG للتنبؤ ˆيقوم بالإشراف .
مزيد من التطبيقات الموسعة
كما أوضح الباحثون تطبيق إضافة التأثيرات الديناميكية إلى الصورة الثابتة الواحدة باستخدام عملية التمثيل الحركي والرسوم المتحركة التي اقترحها الباحثون.
** صورة إلى فيديو **
يقوم نظام الباحثين بتحريك صورة ثابتة واحدة من خلال التنبؤ أولاً بنسيج الحركة العشوائية العصبية من الصورة المدخلة، ومن خلال تطبيق وحدة العرض المستندة إلى الصور الخاصة بالباحثين على مجال إزاحة الحركة المشتق من نسيج الحركة العشوائية.
نظرًا لأننا صممنا حركة المشهد بشكل صريح، فقد سمح لنا ذلك بإنشاء مقاطع فيديو بطيئة الحركة عن طريق الاستيفاء الخطي لحقول إزاحة الحركة وتكبير (أو تصغير) الحركة المتحركة عن طريق ضبط سعة معاملات نسيج الحركة العشوائية المتوقعة.
** حلقة سلسة **
في بعض الأحيان يكون من المفيد إنشاء مقاطع فيديو بحركة متكررة سلسة، مما يعني عدم وجود انقطاع في المظهر أو الحركة بين بداية الفيديو ونهايته.
لسوء الحظ، من الصعب العثور على مجموعة تدريب كبيرة من مقاطع الفيديو التي يتم تكرارها بسلاسة. لذلك، ابتكر الباحثون طريقة باستخدام نموذج نشر الحركة الخاص بالباحثين، والذي تم تدريبه على مقاطع فيديو عادية غير متكررة، لإنتاج مقاطع فيديو متكررة بسلاسة.
مستوحاة من الأبحاث الحديثة حول تحرير الصور الموجهة، فإن نهج الباحثين هو تقنية الحركة ذاتية التوجيه التي تستخدم قيود حلقة واضحة لتوجيه عملية أخذ عينات تقليل الضوضاء.
على وجه التحديد، خلال كل خطوة تكرارية لتقليل الضوضاء في مرحلة الاستدلال، قام الباحثون بتضمين إشارة توجيه حركة إضافية جنبًا إلى جنب مع التوجيه القياسي الخالي من المصنف، حيث أجبرنا كل بكسل على أن يكون في مواضع البداية والنهاية للإطار وتكون السرعات متشابهة قدر الإمكان.
** إنشاء رسوم متحركة تفاعلية من صورة واحدة **
إن طيف الحركة المكانية للصورة في مقطع فيديو تمت ملاحظته لجسم متذبذب يقارب الأساس الفيزيائي للاهتزاز للكائن.
تلتقط الأشكال المشروطة الديناميكيات التذبذبية لجسم ما عند ترددات مختلفة، لذلك يمكن استخدام إسقاط مساحة الصورة لأنماط اهتزاز الجسم لنمذجة استجابة الكائن لقوة محددة من قبل المستخدم مثل الوخز أو السحب.
ولذلك، استخدم الباحثون تقنية التحليل النموذجي التي تمت دراستها مسبقًا، والتي تفترض أن حركة الجسم يمكن تفسيرها من خلال تراكب مجموعة من الرنانات.
يتيح ذلك للباحثين كتابة مجال إزاحة الحركة ثنائية الأبعاد لمساحة الصورة للاستجابة الفيزيائية للكائن كمجموع مرجح لمعاملات طيف فورييه والإحداثيات النمطية المعقدة لكل خطوة زمنية للمحاكاة t، والزمن t.
التقييم التجريبي
أجرى فريق البحث مقارنة كمية بين الطريقة الأحدث والطريقة الأساسية على مجموعة اختبارية من مقاطع الفيديو غير المرئية.
لقد وجد أن نهج Google يتفوق بشكل كبير على الخطوط الأساسية السابقة للرسوم المتحركة ذات الصورة الواحدة من حيث جودة تركيب الصورة والفيديو.
على وجه التحديد، تعد مسافات FVD وDT-FVD من Google أقل بكثير، مما يشير إلى أن مقاطع الفيديو التي تم إنشاؤها بهذه الطريقة أكثر واقعية وتماسكًا مؤقتًا.
نظرًا لأن Google تستخدم تمثيل نسيج الحركة العشوائية العالمي، فإن منهجها ينشئ مقاطع فيديو أكثر اتساقًا بمرور الوقت ولا تنحرف أو تتدهور بمرور الوقت.
أولاً، يتم عرض الشريحة الزمانية المكانية Xt للفيديو الذي تم إنشاؤه، كما هو موضح في الشكل 7.
تشبه ديناميكيات مقاطع الفيديو التي تم إنشاؤها بواسطة Google أنماط الحركة التي تمت ملاحظتها في مقاطع الفيديو المرجعية الحقيقية المقابلة (العمود الثاني). لا يمكن للخطوط الأساسية مثل I2V العشوائي وMCVD محاكاة المظهر والحركة بشكل واقعي مع مرور الوقت.
تنتج الطريقة التي تم إنشاؤها بواسطة Google إطارات تعرض عددًا أقل من القطع الأثرية والتشوهات مقارنة بالطرق الأخرى، كما أن حقول الحركة ثنائية الأبعاد المقابلة هي الأكثر تشابهًا مع حقول الإزاحة المرجعية المقدرة من مقاطع الفيديو الحقيقية المقابلة.
عن المؤلف
تشنغكي لي
حصل على جائزة التنويه الشرفي لأفضل ورقة بحثية لعام 2019 من CVPR، ومنحة Google للدكتوراه لعام 2020، وزمالة Adobe للأبحاث لعام 2020، وجائزة Baidu Global Artificial Intelligence لأفضل 100 نجم صاعد في الصين لعام 2021، وجائزة CVPR 2023 الفخرية لأفضل ورقة بحثية.
مراجع: