لماذا تتخلف نماذج اللغة عن نماذج الانتشار من حيث التوليد البصري؟ تظهر الأبحاث من Google ، CMU أن الرمز المميز هو المفتاح.
مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
بدأت نماذج اللغة الكبيرة (LLM أو LM) في إنشاء لغات ، ولكن بمرور الوقت أصبحت قادرة على إنشاء محتوى بطرق متعددة وأصبحت مهيمنة في الصوت والكلام وإنشاء الكود والتطبيقات الطبية والروبوتات والمزيد.
بالطبع ، يمكن ل LM أيضا إنشاء صور ومقاطع فيديو. أثناء هذه العملية ، يتم تعيين وحدات بكسل الصورة بواسطة الرموز المرئية في سلسلة من الرموز المميزة المنفصلة. ثم يتم إدخال هذه الرموز في محول LM وتستخدم للنمذجة التوليدية تماما مثل المفردات. على الرغم من أن LM قد أحرزت تقدما كبيرا في التوليد البصري ، إلا أن LM لا يزال أداؤها أسوأ من نماذج الانتشار. على سبيل المثال ، عند تقييمه على مجموعة بيانات ImageNet ، المعيار الذهبي لتوليد الصور ، كان أداء أفضل نموذج لغة أسوأ بنسبة 48٪ من نموذج الانتشار (FID 3.41 مقابل 1.79 عند إنشاء الصور بدقة 256ˆ256).
لماذا تتخلف نماذج اللغة عن نماذج الانتشار من حيث التوليد البصري؟ يعتقد باحثون من Google ، CMU ، أن السبب الرئيسي هو عدم وجود تمثيل مرئي جيد ، على غرار نظام لغتنا الطبيعية ، لنمذجة العالم المرئي بشكل فعال. لتأكيد هذه الفرضية ، أجروا دراسة.
رابط الورق:
تظهر هذه الدراسة أنه مع الرمز المرئي الجيد ، تتفوق نماذج لغة الإخفاء على نماذج انتشار SOTA من حيث الدقة التوليدية وكفاءة معايير الصورة والفيديو لنفس بيانات التدريب وأحجام النماذج القابلة للمقارنة وميزانية التدريب. هذا هو أول دليل على أن نموذج اللغة يتفوق على نموذج الانتشار على معيار ImageNet الشهير.
يجب التأكيد على أن الغرض من الباحثين ليس تأكيد ما إذا كان نموذج اللغة متفوقا على النماذج الأخرى ، ولكن لتعزيز استكشاف طرق الترميز المرئي LLM. يتمثل الاختلاف الأساسي بين LLM والنماذج الأخرى ، مثل نماذج الانتشار ، في أن LLM يستخدم تنسيقا كامنا منفصلا ، أي الرموز المميزة التي تم الحصول عليها من تصور الرموز المميزة. تظهر هذه الدراسة أنه لا ينبغي التغاضي عن قيمة هذه الرموز المرئية المنفصلة بسبب مزاياها التالية:
التوافق مع LLM. الميزة الرئيسية لتمثيل الرمز المميز هي أنه يشترك في نفس شكل رمز اللغة ، مما يسمح له بالاستفادة مباشرة من التحسينات التي قام بها المجتمع على مر السنين لتطوير LLM ، بما في ذلك التدريب والاستدلال بشكل أسرع ، والتقدم في البنية التحتية للنموذج ، وطرق توسيع نطاق النماذج ، والابتكارات مثل تحسين GPU / TPU. توحيد الرؤية واللغة من خلال نفس المساحة الرمزية يمكن أن يضع الأساس لماجستير متعدد الوسائط حقا يمكن فهمه وتوليده ومنطقه في بيئتنا المرئية.
تمثيل الضغط. يمكن أن توفر الرموز المميزة المنفصلة منظورا جديدا لضغط الفيديو. يمكن استخدام الرموز المرئية كتنسيق جديد لضغط الفيديو لتقليل تخزين القرص وعرض النطاق الترددي الذي تشغله البيانات أثناء الإرسال عبر الإنترنت. على عكس وحدات بكسل RGB المضغوطة ، يمكن تغذية هذه الرموز المميزة مباشرة في النموذج التوليدي ، متجاوزة إلغاء الضغط التقليدي وخطوات الترميز المحتملة. يمكن أن يؤدي ذلك إلى تسريع معالجة تطبيقات الفيديو ، وهو أمر مفيد بشكل خاص في سيناريوهات الحوسبة الطرفية.
مزايا الفهم البصري. أظهرت الدراسات السابقة أن الرموز المميزة المنفصلة ذات قيمة كأهداف ما قبل التدريب في تعلم التمثيل تحت الإشراف الذاتي ، كما تمت مناقشته في BEiT و BEVT. بالإضافة إلى ذلك ، وجدت الدراسة أن استخدام الرموز كمدخلات نموذجية يحسن المتانة والتعميم.
في هذه الورقة ، يقترح الباحثون رمزا للفيديو يسمى MAGVIT-v2 ، والذي يهدف إلى تعيين مقاطع الفيديو (والصور) في رموز منفصلة مضغوطة.
يعتمد النموذج على رمز الفيديو SOTA – MAGVIT ضمن إطار VQ-VAE. بناء على ذلك ، يقترح الباحثون تقنيتين جديدتين: 1) طريقة قياس كمية جديدة خالية من البحث تجعل من الممكن تعلم عدد كبير من الكلمات لتحسين جودة توليد نموذج اللغة. 2) من خلال التحليل التجريبي الشامل ، حددوا تعديلات على MAGVIT لا تعمل فقط على تحسين جودة البناء ، ولكن أيضا تسمح بترميز الصور ومقاطع الفيديو باستخدام مفردات مشتركة.
تظهر النتائج التجريبية أن النموذج الجديد يتفوق على رمز الفيديو السابق الأفضل أداء ، MAGVIT ، في ثلاثة مجالات رئيسية. أولا ، يعمل النموذج الجديد على تحسين جودة بناء MAGVIT بشكل كبير ، مما يؤدي إلى تحديث SOTA على معايير الصور والفيديو الشائعة. ثانيا ، أظهرت دراسات المستخدم أن جودة ضغطها تتجاوز جودة MAGVIT ومعيار ضغط الفيديو الحالي HEVC. علاوة على ذلك ، يمكن مقارنته بالجيل التالي من برنامج ترميز الفيديو VVC. أخيرا ، أظهر الباحثون أن عملتهم المميزة الجديدة كانت أقوى في مهمة فهم الفيديو مع إعدادين وثلاث مجموعات بيانات مقارنة ب MAGVIT.
مقدمة الطريقة
تقدم هذه الورقة رمزا جديدا للفيديو يهدف إلى تعيين المساحة الزمنية ديناميكيا في المشاهد المرئية إلى رموز منفصلة مدمجة مناسبة لنماذج اللغة. بالإضافة إلى ذلك ، تعتمد الطريقة على MAGVIT.
ثم سلطت الدراسة الضوء على تصميمين جديدين: التكميم الخالي من البحث (LFQ) والتحسينات على نموذج الرمز المميز.
** لا يوجد تكميم للبحث **
في الآونة الأخيرة ، حقق نموذج VQ-VAE تقدما كبيرا ، ولكن أحد عيوب هذه الطريقة هو أن العلاقة بين تحسين جودة إعادة الإعمار وجودة الجيل اللاحق غير واضحة. يعتقد الكثير من الناس خطأ أن تحسين إعادة الإعمار يعادل تحسين توليد نماذج اللغة ، على سبيل المثال ، يمكن أن يؤدي توسيع المفردات إلى تحسين جودة إعادة الإعمار. ومع ذلك ، فإن هذا التحسن ينطبق فقط على توليد المفردات الصغيرة ، والتي يمكن أن تضر بأداء نموذج اللغة عندما تكون المفردات كبيرة جدا.
تقلل هذه المقالة بعد تضمين دفتر رموز VQ-VAE إلى 0، وهو دفتر الرموز
يتم استبداله بمجموعة من الأعداد الصحيحة
وفيه
。
على عكس طراز VQ-VAE ، فإن هذا التصميم الجديد يلغي تماما الحاجة إلى عمليات البحث المضمنة ، ومن هنا جاء اسم LFQ. وجدت هذه الورقة أن LFQ يمكن أن يحسن جودة توليد نموذج اللغة عن طريق زيادة المفردات. كما هو موضح في المنحنى الأزرق في الشكل 1 ، يتحسن كل من إعادة البناء والتوليد مع زيادة المفردات - وهي ميزة لم يتم ملاحظتها في مناهج VQ-VAE الحالية.
حتى الآن ، هناك العديد من طرق LFQ المتاحة ، ولكن هذه المقالة تناقش متغيرا بسيطا. على وجه التحديد ، يتحلل الفضاء الكامن ل LFQ إلى منتجات ديكارتية لمتغيرات أحادية البعد ، أي
。 افترض إعطاء متجه ميزة
، تمثل كميا كل بعد من أبعاد q (z) التي تم الحصول عليها مما يلي:
بالنسبة إلى LFQ ، يكون مؤشر الرمز المميز ل q (z) هو:
بالإضافة إلى ذلك ، تضيف هذه المقالة أيضا عقوبة الإنتروبيا أثناء التدريب:
** تحسينات نموذج الرمز المميز المرئي **
الصور الموحدة - ترميز الفيديو. من أجل بناء رمز موحد للصور والفيديو ، هناك حاجة إلى تصميم جديد. وجدت هذه المقالة أن 3D CNNs تعمل بشكل أفضل من المحولات المكانية.
تستكشف هذه الورقة خيارين محتملين للتصميم ، مثل الشكل 2 ب الذي يجمع بين C-ViViT و MAGVIT. يستخدم الشكل 2 ج التفاف ثلاثي الأبعاد السببي الزمني بدلا من CNN ثلاثي الأبعاد العادي.
يقارن الجدول 5 أ التصميم في الشكل 2 تجريبيا ويجد أن شبكات CNN السببية 3D تعمل بشكل أفضل.
بالإضافة إلى استخدام طبقة 3D CNN السببية ، تم إجراء تعديلات معمارية أخرى لتحسين أداء MAGVIT ، مثل تغيير جهاز اختزال التشفير من متوسط التجميع إلى الالتفاف التدريجي. مثال آخر هو إضافة طبقة تطبيع المجموعة التكيفية قبل الكتلة المتبقية لكل دقة في وحدة فك الترميز.
النتائج التجريبية
تتحقق التجارب من أداء الرمز المميز المقترح في هذه الورقة من ثلاثة أجزاء: توليد الفيديو والصور ، وضغط الفيديو ، والتعرف على الحركة. يقارن الشكل 3 بصريا نتائج Tokenizer مع الدراسات السابقة.
توليد الفيديو. ويبين الجدول 1 أن هذا النموذج يفوق جميع حالة التقنية الصناعية السابقة في كلا المعيارين، مما يدل على أن الرمز المرئي الجيد يلعب دورا مهما في تمكين الكائنات الحية المحورة من إنتاج مقاطع فيديو عالية الجودة.
يوضح الشكل 4 عينة نوعية من النموذج.
توليد الصور. في هذا البحث، يتم تقييم نتائج توليد الصور ل MAGVIT-v2 تحت إعدادات حالة فئة ImageNet القياسية. أظهرت النتائج أن النموذج المقترح يتفوق على نموذج الانتشار الأفضل أداء من حيث جودة أخذ العينات (ID و IS) وكفاءة وقت الاستدلال (خطوة أخذ العينات).
يوضح الشكل 5 التصور.
ضغط الفيديو. النتائج موضحة في الجدول 3 ، ويتفوق النموذج على MAGVIT في جميع المقاييس ويتفوق على جميع الطرق على LPIPS.
فهم الفيديو. كما هو موضح في الجدول 4 ، يتفوق MAGVIT-v2 على أفضل MAGVIT السابق في هذه التقييمات.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
في توليد الصور والفيديو ، هزم نموذج اللغة نموذج الانتشار لأول مرة ، والرمز المميز هو المفتاح
بدأت نماذج اللغة الكبيرة (LLM أو LM) في إنشاء لغات ، ولكن بمرور الوقت أصبحت قادرة على إنشاء محتوى بطرق متعددة وأصبحت مهيمنة في الصوت والكلام وإنشاء الكود والتطبيقات الطبية والروبوتات والمزيد.
بالطبع ، يمكن ل LM أيضا إنشاء صور ومقاطع فيديو. أثناء هذه العملية ، يتم تعيين وحدات بكسل الصورة بواسطة الرموز المرئية في سلسلة من الرموز المميزة المنفصلة. ثم يتم إدخال هذه الرموز في محول LM وتستخدم للنمذجة التوليدية تماما مثل المفردات. على الرغم من أن LM قد أحرزت تقدما كبيرا في التوليد البصري ، إلا أن LM لا يزال أداؤها أسوأ من نماذج الانتشار. على سبيل المثال ، عند تقييمه على مجموعة بيانات ImageNet ، المعيار الذهبي لتوليد الصور ، كان أداء أفضل نموذج لغة أسوأ بنسبة 48٪ من نموذج الانتشار (FID 3.41 مقابل 1.79 عند إنشاء الصور بدقة 256ˆ256).
لماذا تتخلف نماذج اللغة عن نماذج الانتشار من حيث التوليد البصري؟ يعتقد باحثون من Google ، CMU ، أن السبب الرئيسي هو عدم وجود تمثيل مرئي جيد ، على غرار نظام لغتنا الطبيعية ، لنمذجة العالم المرئي بشكل فعال. لتأكيد هذه الفرضية ، أجروا دراسة.
تظهر هذه الدراسة أنه مع الرمز المرئي الجيد ، تتفوق نماذج لغة الإخفاء على نماذج انتشار SOTA من حيث الدقة التوليدية وكفاءة معايير الصورة والفيديو لنفس بيانات التدريب وأحجام النماذج القابلة للمقارنة وميزانية التدريب. هذا هو أول دليل على أن نموذج اللغة يتفوق على نموذج الانتشار على معيار ImageNet الشهير.
يجب التأكيد على أن الغرض من الباحثين ليس تأكيد ما إذا كان نموذج اللغة متفوقا على النماذج الأخرى ، ولكن لتعزيز استكشاف طرق الترميز المرئي LLM. يتمثل الاختلاف الأساسي بين LLM والنماذج الأخرى ، مثل نماذج الانتشار ، في أن LLM يستخدم تنسيقا كامنا منفصلا ، أي الرموز المميزة التي تم الحصول عليها من تصور الرموز المميزة. تظهر هذه الدراسة أنه لا ينبغي التغاضي عن قيمة هذه الرموز المرئية المنفصلة بسبب مزاياها التالية:
التوافق مع LLM. الميزة الرئيسية لتمثيل الرمز المميز هي أنه يشترك في نفس شكل رمز اللغة ، مما يسمح له بالاستفادة مباشرة من التحسينات التي قام بها المجتمع على مر السنين لتطوير LLM ، بما في ذلك التدريب والاستدلال بشكل أسرع ، والتقدم في البنية التحتية للنموذج ، وطرق توسيع نطاق النماذج ، والابتكارات مثل تحسين GPU / TPU. توحيد الرؤية واللغة من خلال نفس المساحة الرمزية يمكن أن يضع الأساس لماجستير متعدد الوسائط حقا يمكن فهمه وتوليده ومنطقه في بيئتنا المرئية.
تمثيل الضغط. يمكن أن توفر الرموز المميزة المنفصلة منظورا جديدا لضغط الفيديو. يمكن استخدام الرموز المرئية كتنسيق جديد لضغط الفيديو لتقليل تخزين القرص وعرض النطاق الترددي الذي تشغله البيانات أثناء الإرسال عبر الإنترنت. على عكس وحدات بكسل RGB المضغوطة ، يمكن تغذية هذه الرموز المميزة مباشرة في النموذج التوليدي ، متجاوزة إلغاء الضغط التقليدي وخطوات الترميز المحتملة. يمكن أن يؤدي ذلك إلى تسريع معالجة تطبيقات الفيديو ، وهو أمر مفيد بشكل خاص في سيناريوهات الحوسبة الطرفية.
مزايا الفهم البصري. أظهرت الدراسات السابقة أن الرموز المميزة المنفصلة ذات قيمة كأهداف ما قبل التدريب في تعلم التمثيل تحت الإشراف الذاتي ، كما تمت مناقشته في BEiT و BEVT. بالإضافة إلى ذلك ، وجدت الدراسة أن استخدام الرموز كمدخلات نموذجية يحسن المتانة والتعميم.
في هذه الورقة ، يقترح الباحثون رمزا للفيديو يسمى MAGVIT-v2 ، والذي يهدف إلى تعيين مقاطع الفيديو (والصور) في رموز منفصلة مضغوطة.
يعتمد النموذج على رمز الفيديو SOTA – MAGVIT ضمن إطار VQ-VAE. بناء على ذلك ، يقترح الباحثون تقنيتين جديدتين: 1) طريقة قياس كمية جديدة خالية من البحث تجعل من الممكن تعلم عدد كبير من الكلمات لتحسين جودة توليد نموذج اللغة. 2) من خلال التحليل التجريبي الشامل ، حددوا تعديلات على MAGVIT لا تعمل فقط على تحسين جودة البناء ، ولكن أيضا تسمح بترميز الصور ومقاطع الفيديو باستخدام مفردات مشتركة.
تظهر النتائج التجريبية أن النموذج الجديد يتفوق على رمز الفيديو السابق الأفضل أداء ، MAGVIT ، في ثلاثة مجالات رئيسية. أولا ، يعمل النموذج الجديد على تحسين جودة بناء MAGVIT بشكل كبير ، مما يؤدي إلى تحديث SOTA على معايير الصور والفيديو الشائعة. ثانيا ، أظهرت دراسات المستخدم أن جودة ضغطها تتجاوز جودة MAGVIT ومعيار ضغط الفيديو الحالي HEVC. علاوة على ذلك ، يمكن مقارنته بالجيل التالي من برنامج ترميز الفيديو VVC. أخيرا ، أظهر الباحثون أن عملتهم المميزة الجديدة كانت أقوى في مهمة فهم الفيديو مع إعدادين وثلاث مجموعات بيانات مقارنة ب MAGVIT.
مقدمة الطريقة
تقدم هذه الورقة رمزا جديدا للفيديو يهدف إلى تعيين المساحة الزمنية ديناميكيا في المشاهد المرئية إلى رموز منفصلة مدمجة مناسبة لنماذج اللغة. بالإضافة إلى ذلك ، تعتمد الطريقة على MAGVIT.
ثم سلطت الدراسة الضوء على تصميمين جديدين: التكميم الخالي من البحث (LFQ) والتحسينات على نموذج الرمز المميز.
** لا يوجد تكميم للبحث **
في الآونة الأخيرة ، حقق نموذج VQ-VAE تقدما كبيرا ، ولكن أحد عيوب هذه الطريقة هو أن العلاقة بين تحسين جودة إعادة الإعمار وجودة الجيل اللاحق غير واضحة. يعتقد الكثير من الناس خطأ أن تحسين إعادة الإعمار يعادل تحسين توليد نماذج اللغة ، على سبيل المثال ، يمكن أن يؤدي توسيع المفردات إلى تحسين جودة إعادة الإعمار. ومع ذلك ، فإن هذا التحسن ينطبق فقط على توليد المفردات الصغيرة ، والتي يمكن أن تضر بأداء نموذج اللغة عندما تكون المفردات كبيرة جدا.
تقلل هذه المقالة بعد تضمين دفتر رموز VQ-VAE إلى 0، وهو دفتر الرموز
على عكس طراز VQ-VAE ، فإن هذا التصميم الجديد يلغي تماما الحاجة إلى عمليات البحث المضمنة ، ومن هنا جاء اسم LFQ. وجدت هذه الورقة أن LFQ يمكن أن يحسن جودة توليد نموذج اللغة عن طريق زيادة المفردات. كما هو موضح في المنحنى الأزرق في الشكل 1 ، يتحسن كل من إعادة البناء والتوليد مع زيادة المفردات - وهي ميزة لم يتم ملاحظتها في مناهج VQ-VAE الحالية.
الصور الموحدة - ترميز الفيديو. من أجل بناء رمز موحد للصور والفيديو ، هناك حاجة إلى تصميم جديد. وجدت هذه المقالة أن 3D CNNs تعمل بشكل أفضل من المحولات المكانية.
تستكشف هذه الورقة خيارين محتملين للتصميم ، مثل الشكل 2 ب الذي يجمع بين C-ViViT و MAGVIT. يستخدم الشكل 2 ج التفاف ثلاثي الأبعاد السببي الزمني بدلا من CNN ثلاثي الأبعاد العادي.
النتائج التجريبية
تتحقق التجارب من أداء الرمز المميز المقترح في هذه الورقة من ثلاثة أجزاء: توليد الفيديو والصور ، وضغط الفيديو ، والتعرف على الحركة. يقارن الشكل 3 بصريا نتائج Tokenizer مع الدراسات السابقة.