التطورات الجديدة في نماذج البايت الكبيرة: أول إدخال لتحديد المواقع المرئية لتحقيق فهم مشترك متعدد الوسائط دقيق الحبيبات ، ومصدر مفتوح ، وقابل للتشغيل التجريبي

巴比特_

2023-08-15 04:52:59

المصدر الأصلي: Qubit

نموذج البايت الكبير ، BuboGPT هنا.

يدعم ثلاثة أوضاع للنص والصورة والصوت لتحقيق فهم مشترك متعدد الوسائط دقيق الحبيبات.

أين تجيب وماذا تقول وما يقال وما لا يقال يتضح في لمحة:

بالإضافة إلى "العيون الذكية" ، هناك أيضًا "آذان ذكية". يمكن لـ BuboGPT سماع تفاصيل لا يستطيع البشر ملاحظتها:

** Audio-1-chime-bird-breeze ** ، كيوبت ، 20 ثانية

طاقة عالية في المستقبل!

فهم مشترك ثلاثي الوسائط ، وصف نصي + وضع الصورة + تحديد موضع الصوت ، نقرة واحدة للحصول عليه ، وتحديد مصدر الصوت بدقة:

** Audio-7-dork-bark ** ، كيوبت ، 6 ثوانٍ

لا تقلق ، الأمر لم ينته بعد!

حتى في حالة عدم وجود علاقة مباشرة بين الصوت والصورة ، يمكن وصف العلاقة المحتملة بينهما بشكل معقول.ومن الممكن أيضًا سرد القصص من خلال النظر إلى الصور وتحديد الأصوات:

** صوت -11-ستة-كلل ** ، كيوبت ، 1 دقيقة

بالنظر إلى الأمر بهذه الطريقة ، تقوم BuboGPT ببعض الأعمال ، وهو أمر "جيد" بدرجة كافية.

وبحسب الباحثين:

لا تقوم النماذج الكبيرة متعددة الوسائط الشائعة مؤخرًا مثل MiniGPT-4 و LLaVA و X-LLM بإجراء اتصالات أساسية بأجزاء معينة من الإدخال ، ولكنها تقوم فقط بإنشاء خرائط ذات حبيبات خشنة. بينما يستفيد BuboGPT من المعلومات الثرية والمراسلات الواضحة بين النص والطرائق الأخرى ، فإنه يمكن أن يوفر فهمًا دقيقًا للأشياء المرئية وطريقة معينة.

لذلك ، عندما يصف BuboGPT الصورة ، يمكن أن يشير إلى الموقع المحدد للكائن في الصورة.

BuboGPT: تقديم التوصيل البصري لـ LLM لأول مرة

بالإضافة إلى الأمثلة المذكورة أعلاه التي شاركها المؤلف على YouTube ، أظهر فريق البحث أيضًا العديد من الحيل التي لعبها BuboGPT في الورقة.

منذ وقت طويل لرؤية ضفدع يعزف على البيانو! هل يمكن لمثل هذا الرسم البياني BuboGPT أن يصف بدقة أيضًا؟

كيف أجاب Kangkang معًا:

لا يمكنك فقط وصف وضع الضفدع بدقة ، ولكنك تعلم أنه ** بانجو **؟

اسأله عن الأماكن المثيرة للاهتمام في الصورة ، ويمكنه أيضًا تلخيص كل شيء في خلفية الصورة.

BuboGPT "اختبار البصر + السمع + التعبير" ، قام الباحثون بتشغيله على هذا النحو ، فلنستمع إلى هذا الصوت أولاً.

** مجفف شعر صوتي -9- كيوبت ، 5 ثوانٍ

دعونا نلقي نظرة على وصف BuboGPT:

يمكن لـ BuboGPT فهم جنس الشخص الموجود في الصورة بدقة ومصدر الصوت وما حدث في الصورة.

التأثير جيد جدًا لأن Byte استخدم طريقة إدخال تحديد الموضع المرئي في LLM هذه المرة.

الطريقة المحددة ثم ننظر إلى أسفل.

تهدف بنية BuboGPT إلى تحقيق فهم متعدد الوسائط من خلال تعلم مساحة دلالية مشتركة ومواصلة استكشاف العلاقات الدقيقة بين الكائنات المرئية المختلفة والطرائق المختلفة.

من أجل استكشاف العلاقة الدقيقة بين الكائنات المرئية المختلفة والطرائق المختلفة ، قام الباحثون أولاً ببناء خط أنابيب توطين مرئي جاهز يعتمد على SAM.

يتكون خط الأنابيب هذا من ثلاث وحدات: ** وحدة وضع العلامات ** (وحدة وضع العلامات) ، ** وحدة الموقع ** (وحدة التأريض) و ** وحدة مطابقة الكيان ** (وحدة مطابقة الكيان).

العملية تقريبا مثل هذا:

أولاً ، تعد وحدة وضع العلامات نموذجًا مدربًا مسبقًا يمكنه إنشاء ملصقات نصية متعددة مرتبطة بإدخال صورة.

تقوم وحدة الترجمة المستندة إلى SAM بترجمة القناع الدلالي أو المربع المحيط المرتبط بكل تسمية نصية على الصورة.

بعد ذلك ، تستخدم وحدة مطابقة الكيان القدرة المنطقية لـ LLM لاسترداد الكيانات المتطابقة من التسميات وأوصاف الصور.

هذه هي الطريقة التي يستخدم بها الباحثون اللغة كجسر لربط الأشياء المرئية بالطرائق الأخرى.

من أجل جعل مدخلات أي مجموعة من الأوضاع الثلاثة تحقق نتائج جيدة ، اعتمد الباحثون مخطط تدريب من مرحلتين مشابه لـ Mini-GTP4:

** التدريب المسبق أحادي النمط وتعديل التعليمات متعدد الوسائط **.

على وجه التحديد ، يستخدم BuboGPT ImageBind باعتباره مشفر الصوت ، و BLIP-2 باعتباره المشفر المرئي ، و Vicuna باعتباره LLM مدرب مسبقًا.

في مرحلة ما قبل التدريب الأحادي الوسيط ، يتم تدريب الطريقة المقابلة Q-Former وطبقات الإسقاط الخطي على كمية كبيرة من البيانات المقترنة بالنص النموذجي.

للإدراك البصري ، نقوم فقط بتدريب طبقة الإسقاط على جزء إنشاء التسمية التوضيحية للصورة ونحافظ على ثبات Q-Former من BLIP2.

لفهم الصوت ، قاموا بتدريب كل من Q-Former وأجزاء إنشاء التسميات التوضيحية الصوتية.

في كلا الإعدادين بدون استخدام أي تلميحات () ، يتلقى النموذج فقط الصورة أو الصوت المقابل كإدخال ويتوقع التسمية التوضيحية المقابلة (التسمية التوضيحية).

** ** ###### ** △ ** تعليمات الإدخال المختلفة تتبع الأمثلة

في مرحلة تعديل التعليمات متعددة الوسائط ، يتم إنشاء مجموعة بيانات تعليمات متعددة الوسائط عالية الجودة لضبط طبقة الإسقاط الخطي ، بما في ذلك:

نص الصورة: ضبط التعليمات المرئية باستخدام مجموعتي بيانات في MiniGPT-4 و LLaVa.
نص صوتي: يتم إنشاء سلسلة من البيانات التعبيرية والوصفية بناءً على مجموعة بيانات كلوثو.
نص الصورة الصوتية: استنادًا إلى مجموعة بيانات VGGSS ، يتم إنشاء زوج بيانات ضبط توجيه ثلاثي الوسائط <صوت ، صورة ، نص ، ويتم تقديم عينات سلبية أيضًا لتحسين النموذج.

وتجدر الإشارة إلى أنه من خلال تقديم عينات سلبية "أزواج الصور والصوت" للمطابقة الدلالية ، يمكن محاذاة BuboGPT بشكل أفضل ، وتكون قدرة الفهم المشترك متعدد الوسائط أقوى.

في الوقت الحالي ، تم فتح كود BuboGPT ومجموعة البيانات من مصادر مفتوحة ، كما تم إصدار العرض التوضيحي ، لنجربه بسرعة.

تجربة اللعب التجريبية الضحلة

منطقة الوظيفة لصفحة BuboGPT التجريبية واضحة في لمحة ، والعملية بسيطة جدًا أيضًا.يمكنك تحميل الصور أو الصوت على الجانب الأيمن ، ونافذة BuboGPT للإجابة ونافذة سؤال المستخدم على الجانب الأيسر:

بعد تحميل الصورة ، انقر فوق الزر الأول أدناه لتحميل الصورة المقسمة:

التقط صورة للسور العظيم كمثال ، قام BuboGPT بتفكيكه بهذه الطريقة ، وحدد الجبال والمعالم السياحية وأسوار المدينة:

عندما طلبنا منها وصف هذه الصورة ، كانت إجابتها أكثر تحديدًا ودقة في الأساس:

يمكنك أن ترى أن المحتوى الموجود في المربع المقسم قد تغير أيضًا ، بما يتوافق مع محتوى نص الإجابة.

إليكم صورة أخرى ، بقطعة صوت ، ويتطابق BuboGPT أيضًا بشكل صحيح مع مصدر الصوت:

** صوت -8-دراجات \ _ جرس ** ، كيوبت ، 22 ثانية

بالطبع ، سوف يفشل أيضًا في التعرف والتعبير بشكل غير صحيح ، على سبيل المثال ، لا يوجد أحد في الصورة أدناه ، والصوت مجرد جرس ، لكن يبدو أن وصفه لا يتطابق مع الصورة.

أسرع أفراد الأسرة المهتمون وجربوها بأنفسهم ~~

منفذ: [1] [2]

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.