معتادا على الانتشار المستقر ، ولديه الآن أخيرا نموذج Matryoshka Diffusion ، الذي صنعته Apple مرة أخرى.
المصدر الأصلي: قلب الآلة
مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
في عصر الذكاء الاصطناعي التوليدية ، أصبحت نماذج الانتشار أداة شائعة لتطبيقات الذكاء الاصطناعي التوليدية مثل الصور والفيديو و 3D والصوت وتوليد النص. ومع ذلك ، لا يزال توسيع نموذج الانتشار إلى المجال عالي الدقة يمثل تحديا كبيرا ، حيث يجب على النموذج إعادة ترميز جميع المدخلات عالية الدقة في كل خطوة. يتطلب حل هذه التحديات استخدام بنى عميقة مع كتل الانتباه ، مما يجعل التحسين أكثر صعوبة ويستهلك المزيد من قوة الحوسبة والذاكرة.
ما يجب القيام به ركزت بعض الأعمال الحديثة على معماريات الشبكات الفعالة للصور عالية الاستبانة. ومع ذلك ، لا تظهر أي من الطرق الحالية نتائج تتجاوز دقة 512×512 ، وتتخلف جودة التوليد عن جودة الطرق المتتالية أو الكامنة السائدة.
لنأخذ OpenAI DALL-E 2 و Google IMAGEN و NVIDIA eDiffI كأمثلة ، والتي توفر قوة الحوسبة من خلال تعلم نموذج واحد منخفض الدقة ونماذج انتشار متعددة فائقة الدقة ، حيث يتم تدريب كل مكون على حدة. من ناحية أخرى ، تتعلم نماذج الانتشار الكامنة (LDMs) فقط نماذج الانتشار منخفضة الدقة وتعتمد على أجهزة التشفير التلقائي عالية الدقة المدربة بشكل فردي. بالنسبة لكلا السيناريوهين ، تعمل خطوط الأنابيب متعددة المراحل على تعقيد التدريب والاستدلال ، وغالبا ما تتطلب الضبط الدقيق أو المعلمات الفائقة.
في هذه الورقة ، يقترح الباحثون نماذج انتشار ماتريوشكا (MDM) ، وهو نموذج انتشار جديد لتوليد صور عالية الدقة من طرف إلى طرف. سيتم إصدار الرمز قريبا.
عنوان:
الفكرة الرئيسية المقدمة في الدراسة هي إجراء عملية نشر مشتركة بدقة متعددة باستخدام بنية UNet متداخلة كجزء من توليد عالي الدقة.
وجدت الدراسة أن MDM ، جنبا إلى جنب مع بنية UNet المتداخلة ، حققت 1) خسارة متعددة الدقة: تحسن بشكل كبير في سرعة التقارب لتقليل ضوضاء المدخلات عالية الدقة. 2) خطة تدريب تقدمية فعالة ، بدءا من تدريب نموذج انتشار منخفض الدقة وإضافة مدخلات ومخرجات عالية الدقة تدريجيا كما هو مخطط لها. تظهر النتائج التجريبية أن الجمع بين الخسارة متعددة الدقة والتدريب التدريجي يمكن أن يحقق توازنا أفضل بين تكلفة التدريب وجودة النموذج.
قيمت الدراسة MDM من حيث توليد الصور الشرطية للفئة بالإضافة إلى توليد الصور والفيديو الشرطي النصي. يتيح MDM تدريب النماذج عالية الدقة دون الحاجة إلى التسلسل أو الانتشار الكامن. أظهرت دراسات الاجتثاث أن كلا من فقدان الدقة المتعددة والتدريب التدريجي يحسن بشكل كبير من كفاءة التدريب وجودته.
دعنا نلقي نظرة على الصور ومقاطع الفيديو التالية التي تم إنشاؤها بواسطة MDM.
نظرة عامة على المنهجية
وفقا للباحثين ، يتم تدريب نموذج نشر MDM من طرف إلى طرف بدقة عالية أثناء استخدام تكوين البيانات الهرمي. يقوم MDM أولا بتعميم نموذج الانتشار القياسي في مساحة الانتشار ، ثم يقترح بنية متداخلة مخصصة وعملية تدريب.
أولا ، دعونا نلقي نظرة على كيفية تعميم نموذج الانتشار القياسي في الفضاء الموسع.
على عكس الأساليب المتتالية أو الكامنة ، يتعلم MDM عملية انتشار واحدة ذات بنية هرمية من خلال تقديم عملية نشر متعددة الدقة في مساحة ممتدة. وهذا موضح في الشكل 2 الآتي.
على وجه التحديد ، بالنظر إلى نقطة بيانات x ∈ R ^ N ، يحدد الباحث المتغير الكامن المعتمد على الوقت z \ _t = z \ _t ^ 1 ، . . . ، z_t^R ∈ R ^ N \ _1 + ... NR。
وفقا للباحثين ، فإن نمذجة الانتشار في مساحة ممتدة لها ميزتان. أولا ، نحن مهتمون بشكل عام بإخراج الدقة الكاملة z \ _t ^ R أثناء الاستدلال ، ويتم التعامل مع جميع المخرجات الأخرى متوسطة الدقة كمتغيرات كامنة إضافية z \ _t ^ r ، مما يضيف تعقيدا إلى توزيع النمذجة. ثانيا ، توفر التبعيات متعددة الدقة فرصة لمشاركة الأوزان والحسابات عبر z \ _t ^ r ، وإعادة توزيع الحساب بطريقة أكثر كفاءة وتمكين التدريب الفعال والاستدلال.
دعونا نلقي نظرة على كيفية عمل UNet المتداخلة.
على غرار نماذج الانتشار النموذجية ، قام الباحثون بتطبيق MDM باستخدام بنية شبكة UNet ، حيث يتم استخدام الاتصالات المتبقية والكتل الحسابية بالتوازي للحفاظ على معلومات الإدخال الدقيقة. تحتوي الكتل الحسابية هنا على تلافيف متعددة الطبقات وطبقات انتباه ذاتي. رموز NestedUNet و UNet القياسية هي كما يلي.
بالإضافة إلى بساطته مقارنة بالطرق الهرمية الأخرى ، يسمح NestedUNet بتخصيص الحسابات بأكثر الطرق فعالية. كما هو موضح في الشكل 3 أدناه ، وجد الباحثون الأوائل أن MDM حقق قابلية توسع أفضل بكثير عندما تم تخصيص معظم المعلمات والحسابات بأقل دقة.
أخيرا ، هناك ** التعلم **.
قام الباحثون بتدريب MDM على دقة متعددة باستخدام أهداف تقليدية لتقليل الضوضاء ، كما هو موضح في المعادلة (3) أدناه.
يتم استخدام التدريب التدريجي هنا. قام الباحثون بتدريب MDM مباشرة من طرف إلى طرف باتباع المعادلة أعلاه (3) وأظهروا تقاربا أفضل من طريقة خط الأساس الأصلية. ووجدوا أن تدريب النماذج عالية الدقة قد تم تسريعه بشكل كبير باستخدام طريقة تدريب تقدمية بسيطة مماثلة لتلك المقترحة في ورقة GAN.
تتجنب طريقة التدريب هذه التدريب المكلف وعالي الدقة منذ البداية وتسرع التقارب العام. ليس ذلك فحسب ، بل قاموا أيضا بدمج التدريب المختلط الدقة ، والذي يدرب العينات بدقة نهائية مختلفة في وقت واحد في دفعة واحدة.
التجارب والنتائج
MDM هي تقنية للأغراض العامة لأي مشكلة يمكنها ضغط أبعاد الإدخال تدريجيا. وترد مقارنة MDM بنهج خط الأساس في الشكل 4 أدناه.
يوضح الجدول 1 مقارنة بين ImageNet (FID-50K) و COCO (FID-30K).
توضح الأشكال 5 و 6 و 7 أدناه نتائج MDM في توليد الصور (الشكل 5) ، وتحويل النص إلى صورة (الشكل 6) ، وتحويل النص إلى فيديو (الشكل 7). على الرغم من تدريبه على مجموعة بيانات صغيرة نسبيا ، فقد أظهر MDM قدرة قوية على عدم اللقطة لإنتاج صور ومقاطع فيديو عالية الدقة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تم الكشف عن النموذج الكبير لمخطط Wensheng من Apple: نشر ماتريوشكا ، يدعم دقة 1024 × 1024
المصدر الأصلي: قلب الآلة
في عصر الذكاء الاصطناعي التوليدية ، أصبحت نماذج الانتشار أداة شائعة لتطبيقات الذكاء الاصطناعي التوليدية مثل الصور والفيديو و 3D والصوت وتوليد النص. ومع ذلك ، لا يزال توسيع نموذج الانتشار إلى المجال عالي الدقة يمثل تحديا كبيرا ، حيث يجب على النموذج إعادة ترميز جميع المدخلات عالية الدقة في كل خطوة. يتطلب حل هذه التحديات استخدام بنى عميقة مع كتل الانتباه ، مما يجعل التحسين أكثر صعوبة ويستهلك المزيد من قوة الحوسبة والذاكرة.
ما يجب القيام به ركزت بعض الأعمال الحديثة على معماريات الشبكات الفعالة للصور عالية الاستبانة. ومع ذلك ، لا تظهر أي من الطرق الحالية نتائج تتجاوز دقة 512×512 ، وتتخلف جودة التوليد عن جودة الطرق المتتالية أو الكامنة السائدة.
لنأخذ OpenAI DALL-E 2 و Google IMAGEN و NVIDIA eDiffI كأمثلة ، والتي توفر قوة الحوسبة من خلال تعلم نموذج واحد منخفض الدقة ونماذج انتشار متعددة فائقة الدقة ، حيث يتم تدريب كل مكون على حدة. من ناحية أخرى ، تتعلم نماذج الانتشار الكامنة (LDMs) فقط نماذج الانتشار منخفضة الدقة وتعتمد على أجهزة التشفير التلقائي عالية الدقة المدربة بشكل فردي. بالنسبة لكلا السيناريوهين ، تعمل خطوط الأنابيب متعددة المراحل على تعقيد التدريب والاستدلال ، وغالبا ما تتطلب الضبط الدقيق أو المعلمات الفائقة.
في هذه الورقة ، يقترح الباحثون نماذج انتشار ماتريوشكا (MDM) ، وهو نموذج انتشار جديد لتوليد صور عالية الدقة من طرف إلى طرف. سيتم إصدار الرمز قريبا.
الفكرة الرئيسية المقدمة في الدراسة هي إجراء عملية نشر مشتركة بدقة متعددة باستخدام بنية UNet متداخلة كجزء من توليد عالي الدقة.
وجدت الدراسة أن MDM ، جنبا إلى جنب مع بنية UNet المتداخلة ، حققت 1) خسارة متعددة الدقة: تحسن بشكل كبير في سرعة التقارب لتقليل ضوضاء المدخلات عالية الدقة. 2) خطة تدريب تقدمية فعالة ، بدءا من تدريب نموذج انتشار منخفض الدقة وإضافة مدخلات ومخرجات عالية الدقة تدريجيا كما هو مخطط لها. تظهر النتائج التجريبية أن الجمع بين الخسارة متعددة الدقة والتدريب التدريجي يمكن أن يحقق توازنا أفضل بين تكلفة التدريب وجودة النموذج.
قيمت الدراسة MDM من حيث توليد الصور الشرطية للفئة بالإضافة إلى توليد الصور والفيديو الشرطي النصي. يتيح MDM تدريب النماذج عالية الدقة دون الحاجة إلى التسلسل أو الانتشار الكامن. أظهرت دراسات الاجتثاث أن كلا من فقدان الدقة المتعددة والتدريب التدريجي يحسن بشكل كبير من كفاءة التدريب وجودته.
دعنا نلقي نظرة على الصور ومقاطع الفيديو التالية التي تم إنشاؤها بواسطة MDM.
وفقا للباحثين ، يتم تدريب نموذج نشر MDM من طرف إلى طرف بدقة عالية أثناء استخدام تكوين البيانات الهرمي. يقوم MDM أولا بتعميم نموذج الانتشار القياسي في مساحة الانتشار ، ثم يقترح بنية متداخلة مخصصة وعملية تدريب.
أولا ، دعونا نلقي نظرة على كيفية تعميم نموذج الانتشار القياسي في الفضاء الموسع.
على عكس الأساليب المتتالية أو الكامنة ، يتعلم MDM عملية انتشار واحدة ذات بنية هرمية من خلال تقديم عملية نشر متعددة الدقة في مساحة ممتدة. وهذا موضح في الشكل 2 الآتي.
دعونا نلقي نظرة على كيفية عمل UNet المتداخلة.
على غرار نماذج الانتشار النموذجية ، قام الباحثون بتطبيق MDM باستخدام بنية شبكة UNet ، حيث يتم استخدام الاتصالات المتبقية والكتل الحسابية بالتوازي للحفاظ على معلومات الإدخال الدقيقة. تحتوي الكتل الحسابية هنا على تلافيف متعددة الطبقات وطبقات انتباه ذاتي. رموز NestedUNet و UNet القياسية هي كما يلي.
قام الباحثون بتدريب MDM على دقة متعددة باستخدام أهداف تقليدية لتقليل الضوضاء ، كما هو موضح في المعادلة (3) أدناه.
تتجنب طريقة التدريب هذه التدريب المكلف وعالي الدقة منذ البداية وتسرع التقارب العام. ليس ذلك فحسب ، بل قاموا أيضا بدمج التدريب المختلط الدقة ، والذي يدرب العينات بدقة نهائية مختلفة في وقت واحد في دفعة واحدة.
التجارب والنتائج
MDM هي تقنية للأغراض العامة لأي مشكلة يمكنها ضغط أبعاد الإدخال تدريجيا. وترد مقارنة MDM بنهج خط الأساس في الشكل 4 أدناه.