سطرين من التعليمات البرمجية لحل قيود حوار نموذج اللغة الكبيرة! أصدر فريق جيا جيا جيايا الصيني في هونغ كونغ ومعهد ماساتشوستس للتكنولوجيا تقنية تمديد النص الطويلة جدا

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

ضاع في منتصف الطريق ، النموذج كسول ، كلما كان السياق أطول ، كلما أصبح النموذج أغبياء ... إذا كنت قد جربت منتجات نموذج لغة كبيرة ، فسيشعر المستخدمون بمحدودية طول إدخال النص إلى حد ما ، مثل عندما تريد مناقشة بعض المحتوى الأطول قليلا مع النموذج الكبير ، فأنت بحاجة إلى تقسيم الإدخال ، وسيتم نسيان النقاط الرئيسية للإدخال السابق قريبا بواسطة النموذج الكبير.

هذا عيب نموذجي في حوار نموذج اللغة الكبيرة! مثل الأطفال الذين يولدون بعجز في الانتباه ، من الصعب التركيز على إنهاء كتاب جديد. مفتاح العيب هو أن النموذج يفتقر إلى إمكانات معالجة النصوص الطويلة. لقد تم كسر ذلك الآن.

في الآونة الأخيرة ، ظهرت التقنيات الجديدة والنماذج الجديدة التي أصدرها فريق Jia Jiaya ومعهد ماساتشوستس للتكنولوجيا بهدوء في القوائم الساخنة لمواقع الويب الرئيسية مفتوحة المصدر: معانقة القائمة الساخنة للوجه أولا ، و paperwithcode hot أولا ، و Github all python project hot خامسا ، وتجاوز نجوم GitHub 1,000 في أسبوع ، وشوهدت المشاركات الفنية ذات الصلة على Twitter ما يقرب من 180,000 ...

وصل GitHub Stars إلى 1.3 ألف

تلقت المنشورات التقنية ذات الصلة على Twitter ما يقرب من 180,000 ألف مشاهدة

التكنولوجيا ، المسماة LongLoRa ، عملية ولكنها بسيطة بشكل مدهش: مع سطرين فقط من التعليمات البرمجية وجهاز A100 من 8 بطاقات ، يمكن تمديد طول النص لنموذج 7B إلى 100 ألف رمز ، ويمكن تمديد طول النص لنموذج 70B إلى 32 ألف رمز ؛ في الوقت نفسه ، أصدر فريق البحث أيضا LongAlpaca ، أول نموذج لحوار النص الطويل بلغة كبيرة مع معلمات 70B.

** تم إصدار أول نموذج لغة كبيرة للنص الطويل 70B في العالم **

لقد حل اقتراح LongLoRA عيوب الحوار في نموذج اللغة العالمية الكبيرة لأول مرة ، ومنذ ذلك الحين ، لم تعد عشرات الصفحات من الأوراق ومئات الصفحات من التقارير والكتب الضخمة النقطة العمياء للنماذج الكبيرة.

في هذا الصدد ، قال بعض المهنيين بحماس أن LongLoRA هو مصباح الأمل في متاهة نماذج اللغة الكبيرة! إنه يمثل إعادة تفكير الصناعة واهتمامها بنماذج اللغة الكبيرة ذات النص الطويل ، ويوسع بشكل فعال نافذة السياق لنماذج اللغات الكبيرة ، ويسمح للنموذج بالنظر في تسلسلات النص الطويل ومعالجتها ، وهو اختراع مبتكر لنماذج اللغة الكبيرة.

بالإضافة إلى الابتكارات التكنولوجية ، تتمثل إحدى الصعوبات التي تواجهها نماذج اللغات الكبيرة في التعامل مع مشاكل النص الطويل في عدم وجود بيانات حوار النص الطويل المتاحة للجمهور.

تحقيقا لهذه الغاية ، قام فريق البحث بجمع أزواج أسئلة وأجوبة نصية طويلة بدقة 9K ، بما في ذلك العديد من الأسئلة والأجوبة حول الكتب والأوراق والتقارير المتعمقة وحتى البيانات المالية الشهيرة.

لم يكن كافيا للإجابة على الأسئلة الطويلة ، فقد اختار الفريق مجموعة أسئلة وأجوبة قصيرة بدقة 3K ممزوجة بمجموعة أسئلة وأجوبة طويلة بدقة 9K للتدريب ، بحيث يتمتع نموذج النص الطويل الكبير بقدرات حوار النص القصير في نفس الوقت. مجموعة البيانات الكاملة هذه ، المسماة LongAlpaca-12k ، مفتوحة المصدر حاليا.

استنادا إلى مجموعة بيانات LongAlpaca-12k ، قام فريق البحث بتدريب وتقييم أحجام المعلمات المختلفة 7B و 13B و 70B والنماذج مفتوحة المصدر بما في ذلك LongAlpaca-7B و LongAlpaca-13B و LongAlpaca-70B.

قراءة الروايات وتغيير الأوراق والإشارة إلى أن الاقتصاد هو الملك الشامل

بدون مزيد من اللغط ، حدد بشكل أعمى بعض العروض التوضيحية لرؤية تأثير LongAlpaca لنموذج كبير يطبق تقنية LongLoRA المتراكبة على مجموعة أسئلة وأجوبة 12K.

让系统新读一篇论文,并根据ICLR的审查指南,对其提出修改意见,从而提升该论文的接收率。LongAlpaca的意见是:通过更精确地阐明新颖性,提供更严格和更有对比性的实验结果(包括具体的数据集和指标) ، والتطبيق الأوسع والاتجاه المستقبلي ، مع التركيز على المساهمات والآثار الرئيسية ، وسيتم تحسين فرص قبول الورقة.

الآن ، دع النظام يقرأ ورقتين مختلفتين جديدتين ، ودع LongAlpaca يلخص الاختلافات الأسلوبية بين مؤتمرات ICLR و CVPR. يخلص LongAlpaca إلى أن أوراق CVPR تميل إلى أن تكون أكثر تنظيما وتجريبا ، مع التركيز على التطبيق العملي والتقنية. من ناحية أخرى ، فإن أسلوب مقال ICLR أكثر مرونة ، حيث يركز على التحليلات النظرية الرئيسية والاشتقاقات الرياضية بدلا من التنسيقات القياسية.

يمكن ملاحظة أن نموذج LongAlpaca المدرب يمكنه بسهولة قبول الأوراق الأكاديمية الطويلة الجديدة ، وهو دقيق تماما في الإجابة على الأسئلة ذات الصلة أكاديميا.

بعد ذلك ، دعونا نلقي نظرة على تفسير نموذج LongAlpaca في المجال الاقتصادي مع عتبة عالية من القراءة والفهم.

واستنادا إلى مجموعة النظرة العامة التي أعدها صندوق النقد الدولي عن الآفاق الاقتصادية العالمية في الفترة من 2012 إلى 2023، يلخص التقرير الوضع الاقتصادي عاما بعد عام ويتنبأ بالاتجاهات الاقتصادية المستقبلية. أخبرتنا LongAlpaca أن الوضع الاقتصادي العالمي في عام 2023 غير مؤكد ، ومن المتوقع أن يتباطأ النمو مقارنة بعام 2022. وفي السنوات المقبلة، سيكون التوسع الاقتصادي العالمي معتدلا وأقل مما كان متوقعا، في حين أن التحديات الرئيسية مثل التوترات الجيوسياسية وتقلب الأسواق المالية لا تزال قائمة ويلزم التصدي لها بعناية من خلال التعاون المتعدد الأطراف والإصلاحات الهيكلية.

يمكن ل LongAlpaca أيضا قراءة روايات جديدة وتحليل المحتوى بعد قراءتها. نماذج المقارنة المختارة أدناه هي LongAlpaca و Llama2 مع معلمات 13B ، وإلقاء نظرة على أداء كل منها.

في الكتاب الشهير "رحلة إلى الغرب" ، لماذا يكون Sun Wukong قويا جدا عندما يثير المتاعب في القصر السماوي ، لكنه شعر بالإحباط مرارا وتكرارا في طريقه للحصول على الكتب المقدسة؟ قدم LongAlpaca 5 أسباب ، والتي يمكن تلخيصها تقريبا على أنها "عدم نضج Monkey King ، والمعارضين الأقوياء ، والقوة المحدودة ، وخداع العدو ، والنقص الأولي في الصحابة وعوامل أخرى أدت إلى فشله في الرحلة". ولكن مع مرور الوقت ، اكتسب الحكمة والخبرة والرفاق ، مما مكنه من هزيمة ألد أعدائه. "

إجابة Llama2 أبسط. "في حين أنه يثير ضجة حول القصر السماوي ، فليس من الدقيق بالضرورة القول إنه يمثل قوة غير مهزومة. في الواقع ، هزم في النهاية من قبل تانغ سانزانغ القوي في رحلة إلى الغرب. لم يعط Llama2 الإجابة الصحيحة وأثار أيضا الحاجة إلى مزيد من المعلومات حول المحتوى.

هذه المرة ، دع النظام يقرأ "مشكلة الأجسام الثلاثة" مرة أخرى ، ثم اسأل لماذا اتصل Ye Wenjie بالأجانب في الجزء الأول ، ولماذا ندم على ذلك في المرحلة اللاحقة؟ تعتقد Long Alpaca أن اتصال Ye Wenjie الأولي مع الأجانب كان مدفوعا بالمثالية والانتقام ، ولكن بمرور الوقت ، تغيرت نظرتها للإنسانية ، مدركة الخطر الذي قد تجلبه للبشرية جمعاء ، وينمو ندمها يوما بعد يوم. كان الجواب واضحا جدا.

كانت إجابة Llama2 ، "من خلال التفاعل مع الكائنات الفضائية ، تأمل في اكتساب فهم أعمق لطبيعة الكون ومكانها فيه." أدركت Ye Wenjie تدريجيا أن الأجانب وتقنياتهم لا يمكنهم حل مشكلتها. كانت الإجابة عامة ، ثم بدأ في التعليق على الرواية ككل ، والإجابة على غير الأسئلة.

من الإجابات التي قدمتها النماذج ، يمكن ملاحظة أن بعض النماذج مثل Llama2 [2] ربما تكون قد شاهدت الرواية أثناء عملية ما قبل التدريب ، ولكن إذا طرحت سؤالا نصيا قصيرا يعتمد فقط على موضوع الرواية ، فإن الإجابة ليست مثالية.

إجابات النموذجين متناقضة ، والأعلى والمنخفض مرتفعان. LongAlpaca هي يد جيدة في تغيير الأوراق الأكاديمية ، والتعليق على الاتجاهات الاقتصادية العالمية ، وقراءة الروايات ، متغلبة على Llama2.

سطران من التعليمات البرمجية وثلاثة استنتاجات رئيسية

يمكن القول إن Llama2 هو أحد أقوى النماذج مفتوحة المصدر في مجتمع الذكاء الاصطناعي ، حيث يقود الصناعة ، ويمكن أن يفوز LongAlpaca بالفعل. نجحت تقنية LongLoRA التي تقف وراءها في جذب انتباه مستخدمي الإنترنت ، كيف فعلت ذلك؟

اتضح أنه في عملية معالجة النص الطويل في نماذج اللغات الكبيرة ، تتركز التكلفة الرئيسية للحساب في آلية الاهتمام الذاتي ، وتزداد النفقات العامة مع طول النص.

استجابة لهذه المشكلة ، اقترح فريق البحث تقنية LongLoRA ومحاكاة آلية الاهتمام الذاتي العالمية من خلال التجميع والتعويض.

ببساطة ، هو تقسيم الرموز المميزة المقابلة للنص الطويل إلى مجموعات مختلفة ، وإجراء حسابات الانتباه الذاتي داخل كل مجموعة ، ويتم تعويض طريقة التجميع من رؤوس انتباه مختلفة. لا يمكن لهذه الطريقة توفير مقدار الحساب بشكل كبير فحسب ، بل يمكنها أيضا الحفاظ على انتقال مجال الاستقبال العالمي.

وطريقة التنفيذ هذه موجزة جدا أيضا ، حيث يمكن إكمال سطرين فقط من التعليمات البرمجية!

[5]يستكشف LongLoRA أيضا طرقا للتدريب في الرتب المنخفضة. طرق التدريب الأصلية منخفضة الرتبة ، مثل LoRA ، لا يحقق نتائج جيدة في ترحيل طول النص. على أساس التدريب منخفض الرتبة ، تقدم LongLoRA طبقات التضمين (طبقة التضمين وطبقات التطبيع) للضبط الدقيق ، وذلك لتحقيق تأثير الضبط الكامل.

عند إجراء توسيع النص والتدريب بأطوال مختلفة ، يمكن الإشارة إلى التأثيرات المحددة ل LongLoRa و LoRA وتقنيات الضبط الدقيق لجميع المعلمات في ثلاثة أبعاد:

من حيث الحيرة والحيرة ، يتدهور أداء طريقة LoRA الأصلية ، بينما يمكن ل LongLoRA والضبط الدقيق لجميع المعلمات الحفاظ على نتائج جيدة تحت أطوال نص مختلفة.

من حيث استهلاك الذاكرة ، يتمتع LongLoRA و LoRA الأصلي بتوفير كبير مقارنة بالضبط الدقيق للمعلمة الكاملة. على سبيل المثال ، بالنسبة لتدريب النموذج بطول 8k ، يقلل LongLoRA من استهلاك الذاكرة من 46.3 جيجابايت إلى 25.6 جيجابايت مقارنة بالضبط الدقيق للمعلمة الكاملة.

من حيث وقت التدريب, لتدريب نموذج طول 64k, مقارنة مع LoRA التقليدية, يقلل LongLoRA من وقت التدريب من حوالي 90 ~ 100 ساعة إلى 52.4 ساعة, في حين أن الضبط الدقيق للمعلمة الكامل يتجاوز 1000 ساعة.

طريقة التدريب البسيطة ، والحد الأدنى من موارد الحوسبة واستهلاك الوقت ، والدقة الممتازة تجعل LongLoRA ممكنا على نطاق واسع. في الوقت الحاضر ، كانت جميع التقنيات والنماذج ذات الصلة مفتوحة المصدر ، ويمكن للمستخدمين المهتمين نشر تجربتهم الخاصة.

تجدر الإشارة إلى أن هذه تحفة أخرى لفريق Jajaya بعد نموذج LISA الكبير متعدد الوسائط الذي "يمكنه تقسيم كل شيء" الذي تم إصداره في 9 أغسطس. مع وجود شهرين فقط ، يجب القول أن سرعة وقدرة هذا البحث مذهلة مثل LongLoRA.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت