نموذج الحوار الصوتي المحلي واسع النطاق موجود هنا: يشارك Li Kaifu في كل شيء، ثنائي اللغة ومتعدد الوسائط باللغتين الصينية والإنجليزية، ومفتوح المصدر ومتوفر تجاريًا
أول نموذج مفتوح المصدر للحوار الصوتي ثنائي اللغة باللغتين الصينية والإنجليزية موجود هنا!
في الأيام القليلة الماضية، ظهرت ورقة بحثية عن نموذج متعدد الوسائط للنص الكلامي واسع النطاق على arXiv، وظهر اسم شركة النماذج الكبيرة التابعة لـ Kai-fu Lee 01.ai - 01.ai - بين الشركات المميزة .
تقترح هذه الورقة نموذج حوار ثنائي اللغة صيني-إنجليزي متاح تجاريًا LLaSM، والذي يدعم كلاً من التسجيل وإدخال النص، ولا توجد مشكلة مع "الزوجي المختلط":
تعتقد الورقة أن "الدردشة الصوتية" هي طريقة أكثر ملاءمة وطبيعية للتفاعل بين الذكاء الاصطناعي والأشخاص، وليس فقط من خلال إدخال النص.
باستخدام النماذج الكبيرة، يتخيل بعض مستخدمي الإنترنت بالفعل سيناريو "كتابة التعليمات البرمجية أثناء الاستلقاء والتحدث".
يأتي هذا البحث من LinkSoul.AI وجامعة بكين وZero-One Wansi، وهو الآن مفتوح المصدر ويمكن أيضًا تجربته مباشرة بلغة Huahuanglian.
دعونا نرى كيف يعمل.
دعم إدخال النص والصوت، ويمكن للهاتف المحمول أيضًا تشغيله
وفقًا للباحثين، يعد LLaSM أول نموذج حوار مفتوح المصدر ومتاح تجاريًا يدعم الحوار متعدد الوسائط ثنائي اللغة بين الكلام والنص باللغتين الصينية والإنجليزية.
لذا، دعونا نلقي نظرة على إدخال النص الصوتي وقدرته على اللغتين الصينية والإنجليزية.
أولاً، دعونا نحدث تصادمًا ثقافيًا صينيًا-إنجليزيًا، ودعه يعلق على لي باي بالإنجليزية:
لا بأس، لقد ذكرت بشكل صحيح سلالة لي باي. إذا كنت لا تفهم اللغة الإنجليزية، فلا بأس بترجمتها مباشرة إلى اللغة الصينية:
بعد ذلك، جرّب سؤالًا مختلطًا باللغتين الصينية والإنجليزية، مع إضافة "الطعام المقلي" باللغة الصينية، وستكون نتيجة النموذج جيدة أيضًا:
فلنجرب النموذج مرة أخرى وندعه يجري بعض التقييمات لمعرفة أيهما أقوى، Li Bai أو Du Fu.
يمكن ملاحظة أن النموذج أعطى تقييمًا محايدًا للغاية بعد التفكير لفترة من الوقت، كما أنه يتمتع أيضًا بـ "الحس السليم للتعامل مع المياه" الأساسي للنماذج الكبيرة (رأس الكلب اليدوي)
وبطبيعة الحال، ليس فقط أجهزة الكمبيوتر، ولكن الهواتف المحمولة يمكن أن تلعب أيضا.
دعونا نحاول استخدام الصوت لإدخال "اقترح علي وصفة":
يمكن ملاحظة أن النموذج يُخرج بدقة وصفة "جبنة الباذنجان"، لكنني لا أعرف ما إذا كانت جيدة أم لا.
ومع ذلك، عندما جربناه، وجدنا أيضًا أن هذا النموذج يحتوي أحيانًا على أخطاء.
على سبيل المثال، في بعض الأحيان لا "يفهم الكلام البشري" جيدًا.
عندما يُطلب منك إخراج محتوى مختلط باللغة الصينية والإنجليزية، فسوف يتظاهر بعدم فهم اللغة الإنجليزية وإخراجها:
عندما سُئل باللغتين الصينية والإنجليزية المختلطة عما إذا كان يريد الاستماع إلى أغنية "Taylor Swift's Red"، اتجه العارض مباشرة إلى خطأ كبير وأصدر جملة مرارًا وتكرارًا، حتى أنه غير قادر على التوقف...
بشكل عام، عند مواجهة أسئلة أو طلبات مختلطة باللغتين الصينية والإنجليزية، فإن قدرة إخراج النموذج لا تزال غير جيدة جدًا.
ولكن بشكل منفصل، فإن قدرته على التعبير باللغتين الصينية والإنجليزية جيدة جدًا.
إذًا، كيف يتم تنفيذ مثل هذا النموذج؟
**ما هو النموذج الجديد الذي صنعته؟ **
انطلاقًا من اللعب التجريبي، يحتوي LLaSM على ميزتين رئيسيتين: واحدة تدعم الإدخال الصيني والإنجليزية، والأخرى هي الإدخال المزدوج للصوت والنص.
لتحقيق هاتين النقطتين، يجب إجراء بعض التعديلات في البنية وبيانات التدريب على التوالي.
من الناحية المعمارية، يدمج LLaSM نموذج التعرف على الكلام الحالي ونموذج اللغة الكبير.
يتكون LLaSM من ثلاثة أجزاء، بما في ذلك نموذج التعرف التلقائي على الكلام Whisper والمحول المشروط والنموذج الكبير LLaMA.
من بينها، يكون Whisper مسؤولاً عن تلقي إدخال الكلام الأصلي وإخراج التمثيل المتجه لميزات الكلام؛ ويكون محول الطريقة مسؤولاً عن محاذاة تضمين الكلام والنص؛ ويكون LLaMA مسؤولاً عن فهم تعليمات إدخال الكلام والنص وإنشاء الاستجابات.
ينقسم تدريب النموذج إلى مرحلتين. المرحلة الأولى تقوم بتدريب محول الطريقة، وتجميد المشفر والنموذج الكبير، أي أنها تتيح له تعلم محاذاة الصوت والنص؛ أما المرحلة الثانية فتقوم بتجميد المشفر، وتدريب محول الطريقة، و النموذج الكبير، لتعلم قدرات الحوار متعدد الوسائط.
فيما يتعلق ببيانات التدريب، قام الباحثون بتجميع مجموعة بيانات LLaSM-Audio-Instructions التي تحتوي على 199000 حوار و508000 عينة نصية.
ومن بين 508000 عينة من نصوص الكلام، هناك 80000 عينة من الكلام الصيني و428000 عينة من الكلام باللغة الإنجليزية.
يستخدم الباحثون بشكل أساسي تقنية تحويل النص إلى كلام لإنشاء حزم صوتية لمجموعات البيانات هذه بناءً على مجموعات البيانات مثل WizardLM وShareGPT وGPT-4-LLM، مع تصفية المحادثات غير الصالحة.
يعد هذا أيضًا حاليًا أكبر أمر نصي صوتي صيني وإنجليزي يتبع مجموعة البيانات، لكنه لا يزال قيد التصنيف، ووفقًا للباحثين، سيكون مفتوح المصدر بعد فرزه.
ومع ذلك، فإن الورقة لا تقارن مخرجاتها مع نماذج الكلام أو النماذج النصية الأخرى في الوقت الحالي.
عن المؤلف
تأتي هذه الورقة من LinkSoul.AI وجامعة بكين وZero One Thing.
المؤلفان المشاركان يو شو وسيوي دونغ كلاهما من LinkSoul.AI، وعملا سابقًا في معهد بكين تشي يوان لأبحاث الذكاء الاصطناعي.
LinkSoul.AI هي شركة ناشئة تعمل بالذكاء الاصطناعي وقد أطلقت سابقًا أول نموذج كبير مفتوح المصدر باللغة الصينية Llama 2.
باعتبارها شركة نماذج كبيرة مملوكة لـ Kai-Fu Lee، ساهمت Zero One World أيضًا في هذا البحث. تظهر صفحة الوجه المعانقة للمؤلف وينهاو هوانغ أنه تخرج من جامعة فودان.
عنوان الورقة:
الموقع التجريبي:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
نموذج الحوار الصوتي المحلي واسع النطاق موجود هنا: يشارك Li Kaifu في كل شيء، ثنائي اللغة ومتعدد الوسائط باللغتين الصينية والإنجليزية، ومفتوح المصدر ومتوفر تجاريًا
المصدر: كيوبيت
أول نموذج مفتوح المصدر للحوار الصوتي ثنائي اللغة باللغتين الصينية والإنجليزية موجود هنا!
في الأيام القليلة الماضية، ظهرت ورقة بحثية عن نموذج متعدد الوسائط للنص الكلامي واسع النطاق على arXiv، وظهر اسم شركة النماذج الكبيرة التابعة لـ Kai-fu Lee 01.ai - 01.ai - بين الشركات المميزة .
دعم إدخال النص والصوت، ويمكن للهاتف المحمول أيضًا تشغيله
وفقًا للباحثين، يعد LLaSM أول نموذج حوار مفتوح المصدر ومتاح تجاريًا يدعم الحوار متعدد الوسائط ثنائي اللغة بين الكلام والنص باللغتين الصينية والإنجليزية.
لذا، دعونا نلقي نظرة على إدخال النص الصوتي وقدرته على اللغتين الصينية والإنجليزية.
أولاً، دعونا نحدث تصادمًا ثقافيًا صينيًا-إنجليزيًا، ودعه يعلق على لي باي بالإنجليزية:
يمكن ملاحظة أن النموذج أعطى تقييمًا محايدًا للغاية بعد التفكير لفترة من الوقت، كما أنه يتمتع أيضًا بـ "الحس السليم للتعامل مع المياه" الأساسي للنماذج الكبيرة (رأس الكلب اليدوي)
دعونا نحاول استخدام الصوت لإدخال "اقترح علي وصفة":
يمكن ملاحظة أن النموذج يُخرج بدقة وصفة "جبنة الباذنجان"، لكنني لا أعرف ما إذا كانت جيدة أم لا.
ومع ذلك، عندما جربناه، وجدنا أيضًا أن هذا النموذج يحتوي أحيانًا على أخطاء.
على سبيل المثال، في بعض الأحيان لا "يفهم الكلام البشري" جيدًا.
عندما يُطلب منك إخراج محتوى مختلط باللغة الصينية والإنجليزية، فسوف يتظاهر بعدم فهم اللغة الإنجليزية وإخراجها:
ولكن بشكل منفصل، فإن قدرته على التعبير باللغتين الصينية والإنجليزية جيدة جدًا.
إذًا، كيف يتم تنفيذ مثل هذا النموذج؟
**ما هو النموذج الجديد الذي صنعته؟ **
انطلاقًا من اللعب التجريبي، يحتوي LLaSM على ميزتين رئيسيتين: واحدة تدعم الإدخال الصيني والإنجليزية، والأخرى هي الإدخال المزدوج للصوت والنص.
لتحقيق هاتين النقطتين، يجب إجراء بعض التعديلات في البنية وبيانات التدريب على التوالي.
من الناحية المعمارية، يدمج LLaSM نموذج التعرف على الكلام الحالي ونموذج اللغة الكبير.
يتكون LLaSM من ثلاثة أجزاء، بما في ذلك نموذج التعرف التلقائي على الكلام Whisper والمحول المشروط والنموذج الكبير LLaMA.
من بينها، يكون Whisper مسؤولاً عن تلقي إدخال الكلام الأصلي وإخراج التمثيل المتجه لميزات الكلام؛ ويكون محول الطريقة مسؤولاً عن محاذاة تضمين الكلام والنص؛ ويكون LLaMA مسؤولاً عن فهم تعليمات إدخال الكلام والنص وإنشاء الاستجابات.
فيما يتعلق ببيانات التدريب، قام الباحثون بتجميع مجموعة بيانات LLaSM-Audio-Instructions التي تحتوي على 199000 حوار و508000 عينة نصية.
ومن بين 508000 عينة من نصوص الكلام، هناك 80000 عينة من الكلام الصيني و428000 عينة من الكلام باللغة الإنجليزية.
يستخدم الباحثون بشكل أساسي تقنية تحويل النص إلى كلام لإنشاء حزم صوتية لمجموعات البيانات هذه بناءً على مجموعات البيانات مثل WizardLM وShareGPT وGPT-4-LLM، مع تصفية المحادثات غير الصالحة.
ومع ذلك، فإن الورقة لا تقارن مخرجاتها مع نماذج الكلام أو النماذج النصية الأخرى في الوقت الحالي.
عن المؤلف
تأتي هذه الورقة من LinkSoul.AI وجامعة بكين وZero One Thing.
المؤلفان المشاركان يو شو وسيوي دونغ كلاهما من LinkSoul.AI، وعملا سابقًا في معهد بكين تشي يوان لأبحاث الذكاء الاصطناعي.
LinkSoul.AI هي شركة ناشئة تعمل بالذكاء الاصطناعي وقد أطلقت سابقًا أول نموذج كبير مفتوح المصدر باللغة الصينية Llama 2.
الموقع التجريبي: