الآن فقط ، تم إصدار Baichuan Intelligent Baichuan2-192K ، مع أطول نافذة سياق في العالم! بعد قراءة "مشكلة الأجسام الثلاثة" في وقت واحد ، فزت ب 7 SOTAs

** مصدر المقال: نيو تشييوان **

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

أطول نافذة سياق في العالم هنا! اليوم ، أصدرت Baichuan Intelligent نموذج Baichuan2-192K الكبير ، بطول نافذة سياق يصل إلى 192 ألف (350000 حرف صيني) ، وهو 4.4 ضعف نموذج كلود 2 و 14 مرة من GPT-4!

معيار جديد في مجال نوافذ السياق الطويلة ، هنا!

اليوم ، أصدرت Baichuan Intelligent رسميا النموذج الكبير مع أطول نافذة سياق في العالم - Baichuan2-192K.

على عكس النموذج السابق ، يصل طول نافذة السياق لهذا النموذج إلى 192 كيلو بايت ، وهو ما يعادل حوالي 350,000 حرف صيني.

لكي نكون أكثر تحديدا ، يمكن ل Baichuan2-192K معالجة الأحرف الصينية 14 مرة أكثر من GPT-4 (سياق 32K ، حوالي 25000 كلمة) و Claude 2 (سياق 100K ، حوالي 80000 كلمة) ، ويمكنه قراءة نسخة من "مشكلة الأجسام الثلاثة" في جلسة واحدة.

تم تحديث سجل نافذة السياق الذي كان كلود يحتفظ به لفترة طويلة اليوم

رمي الجزء الأول من مشكلة الأجسام الثلاثة "ذات مرة على الأرض" إليها ، مضغ Baichuan2-192K قليلا ، وعرف على الفور القصة بأكملها جيدا.

ما هو الرقم الموجود في الصورة 36 في العد التنازلي الذي رآه وانغ مياو؟ الجواب: 1194:16:37. ما هو طراز الكاميرا الذي يستخدمه؟ ج: لايكا M2. كم مرة شرب هو وداشي إجمالا؟ إجابه: مرتين.

بالنظر إلى "الغابة المظلمة" الثانية ، لم تجب Baichuan2-192K على الفور فقط بأن منظمة الأرض ثلاثية الأجسام قد أنشأت قاعدتين للضفة الحمراء ، وأن "قطرات الماء" مصنوعة من مواد ذات تفاعلات قوية.

علاوة على ذلك ، حتى الأسئلة التي لا تحظى بشعبية والتي قد لا تتمكن "مشكلة الأجسام الثلاثة وعلماء المستوى العشرة" من الإجابة عليها ، فإن Baichuan2-192K يجيد أيضا الإجابات ، ومن السهل الإجابة عليها.

من لديه أكبر عدد من مظاهر اسمه؟ إجابه: لوه جي.

يمكن القول أنه عندما يتم توسيع نافذة السياق إلى 350000 كلمة ، يبدو أن تجربة استخدام النموذج الكبير قد فتحت فجأة عالما جديدا!

** أطول سياق في العالم ، يقود كلود 2 في جميع المجالات **

نموذج كبير ، ما الذي سيكون عالقا في الرقبة؟

بأخذ ChatGPT كمثال ، على الرغم من أن قدراته مذهلة ، فإن هذا النموذج "كلي القدرة" له قيد لا مفر منه - فهو يدعم فقط 32 ألف رمز كحد أقصى (25000 حرف صيني) في السياق. تحتاج المهن مثل المحامين والمحللين وما إلى ذلك إلى التعامل مع النصوص التي تستغرق وقتا أطول بكثير من ذلك في معظم الأوقات.

تسمح نافذة السياق الأكبر للنموذج بالحصول على معلومات دلالية أكثر ثراء من الإدخال ، وحتى إجراء الأسئلة والأجوبة ومعالجة المعلومات مباشرة بناء على فهم النص الكامل.

نتيجة لذلك ، لا يمكن للنموذج التقاط أهمية السياق بشكل أفضل فحسب ، والقضاء على الغموض ، ولكن أيضا إنشاء محتوى بشكل أكثر دقة ، وتخفيف مشكلة "الوهم" ، وتحسين الأداء. علاوة على ذلك ، مع مباركة السياق الطويل ، يمكن أيضا دمجها بعمق مع المزيد من المشاهد الرأسية ، وتلعب حقا دورا في عمل الناس وحياتهم وتعلمهم.

في الآونة الأخيرة ، تلقى وادي السيليكون يونيكورن أنثروبيك استثمارات 4 مليارات من أمازون و 2 مليار استثمار من جوجل. يرتبط تفضيل العملاقين بالطبع بمكانة كلود الرائدة في تكنولوجيا القدرة على السياق الطويل.

هذه المرة ، يتجاوز نموذج النافذة الطويلة Baichuan-192K الذي أصدرته Baichuan Intelligence بكثير Claude 2-100K في طول نافذة السياق ، كما حقق ريادة شاملة في تقييم أبعاد متعددة مثل جودة إنشاء النص وفهم السياق وقدرة الأسئلة والأجوبة.

**10 مراجعات موثوقة ، 7 SOTAs **

Long هي قائمة صادرة عن جامعة كاليفورنيا وبيركلي وجامعات أخرى لتقييم نماذج النوافذ الطويلة ، والتي تقيس بشكل أساسي قدرة النموذج على تذكر وفهم محتوى النوافذ الطويلة.

من حيث الفهم السياقي ، يتقدم Baichuan2-192K بشكل كبير على النماذج الأخرى في قائمة تقييم فهم نص النافذة الطويلة الموثوقة طويلة ، ولا يزال بإمكانه الحفاظ على أداء قوي للغاية بعد طول نافذة يزيد عن 100 ألف.

في المقابل ، ينخفض التأثير الكلي بشكل سيء للغاية بعد أن يتجاوز طول نافذة كلود 2 80 كيلو.

بالإضافة إلى ذلك ، كان أداء Baichuan2-192K جيدا أيضا في 10 مجموعات تقييم من النصوص الطويلة الصينية والإنجليزية Q& والملخصات ، مثل Dureader و NarrativeQA و LSHT و TriviaQA.

من بينها ، حققت 7 SOTA ، والتي تفوقت بشكل كبير على نماذج النوافذ الطويلة الأخرى.

الارتباك هو معيار مهم للغاية عندما يتعلق الأمر بجودة إنشاء النص.

يمكن أن نفهم ببساطة أنه عند استخدام مستند عالي الجودة يتوافق مع عادات اللغة الطبيعية البشرية كمجموعة اختبار ، كلما زاد احتمال أن يولد النموذج النسخة الصينية من مجموعة الاختبار ، قل ارتباك النموذج ، وكان النموذج أفضل.

وفقا لنتائج اختبار "مجموعة بيانات نمذجة اللغة المعيارية PG-19" الصادرة عن DeepMind ، كان مستوى الارتباك في Baichuan2-192K ممتازا في المرحلة الأولية ، واستمرت قدرة نمذجة التسلسل ل Baichuan2-192K في التحسن مع توسع طول النافذة.

### ** التحسين المشترك للخوارزميات الهندسية ، والتحسين المتزامن لأداء الطول **

في حين أن السياقات الطويلة يمكن أن تحسن أداء النموذج ، فإن النوافذ الطويلة تعني أيضا المزيد من قوة الحوسبة والمزيد من ذاكرة الفيديو.

في الوقت الحاضر ، تتمثل الممارسة الشائعة في الصناعة في تحريك النافذة وتقليل أخذ العينات وتقليص النموذج وما إلى ذلك.

ومع ذلك ، فإن جميع هذه الأساليب تضحي بجوانب أخرى من النموذج بدرجات متفاوتة.

من أجل حل هذه المشكلة ، يحقق Baichuan2-192K توازنا بين طول النافذة وأداء النموذج من خلال التحسين الشديد للخوارزميات والهندسة ، ويحقق التحسين المتزامن لطول النافذة وأداء النموذج.

بادئ ذي بدء ، من حيث الخوارزميات ، تقترح Baichuan Intelligent مخطط استقراء لترميز الموضع الديناميكي RoPE و ALiBi ، والذي يمكنه تنفيذ درجات مختلفة من الاستيفاء الديناميكي لقناع الانتباه لترميز موضع ALiBi بأطوال مختلفة ، والتي يمكن أن تعزز قدرة نمذجة النموذج على الاعتماد على التسلسلات الطويلة مع ضمان الدقة.

ثانيا ، من حيث الهندسة ، على أساس إطار التدريب الموزع المطور ذاتيا ، تدمج Baichuan Intelligence جميع تقنيات التحسين المتقدمة تقريبا في السوق ، بما في ذلك توازي الموتر ، وتوازي التدفق ، وتوازي التسلسل ، وإعادة الحساب والتفريغ ، وقد أنشأت مجموعة شاملة من المخططات الموزعة المتوازية 4D ، والتي يمكنها العثور تلقائيا على الإستراتيجية الموزعة الأكثر ملاءمة وفقا لحالة الحمل المحددة للنموذج ، مما يقلل بشكل كبير من احتلال الذاكرة في عملية التدريب والاستدلال على النوافذ الطويلة.

**يتم فتح الاختبار الداخلي رسميا ، ويتم إصدار التجربة المباشرة **

الآن ، بدأت Baichuan2-192K رسميا الإصدار التجريبي المغلق!

تم توصيل Baichuan2-192K بتطبيقاتها وأعمالها الخاصة من خلال مكالمات API ، والآن توصلت وسائل الإعلام المالية وشركات المحاماة والمؤسسات الأخرى إلى التعاون مع Baichuan Intelligence.

من المتصور أنه مع تطبيق قدرات السياق الطويل الرائدة عالميا في Baichuan2-192K على سيناريوهات محددة مثل وسائل الإعلام والتمويل والقانون ، فإنها ستوسع بلا شك مساحة أوسع لتنفيذ النماذج الكبيرة.

من خلال واجهات برمجة التطبيقات ، يمكن دمج Baichuan2-192K بشكل فعال في المزيد من المشاهد الرأسية ودمجها بعمق معها.

في الماضي ، غالبا ما أصبحت المستندات التي تحتوي على كميات هائلة من المحتوى جبلا لم نتمكن من عبوره في عملنا ودراستنا.

باستخدام Baichuan2-192K ، يمكن معالجة مئات الصفحات من المواد وتحليلها في وقت واحد ، ويمكن استخراج المعلومات الهامة وتحليلها.

سواء كان ملخصا / مراجعة طويلة للمستند ، أو مقالة أو تقريرا طويلا ، أو مساعدة برمجة معقدة ، فإن Baichuan2-192K سيوفر دفعة كبيرة.

بالنسبة لمديري الصناديق ، يمكن أن يساعد في تلخيص وتفسير البيانات المالية ، وتحليل مخاطر الشركة وفرصها.

بالنسبة للمحامين ، يمكن أن يساعد في تحديد المخاطر في مستندات قانونية متعددة ومراجعة العقود والمستندات القانونية.

بالنسبة للمطورين ، يمكن أن يساعد في قراءة مئات الصفحات من وثائق التطوير والإجابة على الأسئلة الفنية.

منذ ذلك الحين ، كان لدى غالبية الباحثين العلميين أيضا أداة بحث علمي ، ويمكنهم تصفح عدد كبير من الأوراق بسرعة وتلخيص أحدث التطورات المتطورة.

علاوة على ذلك ، فإن السياق الأطول لديه إمكانات أكبر.

الوكيل والتطبيقات متعددة الوسائط هي النقاط الساخنة للبحث في الصناعة الحالية. مع القدرات السياقية الأطول ، يمكن للنماذج الكبيرة معالجة وفهم المدخلات متعددة الوسائط المعقدة بشكل أفضل ، مما يتيح نقل التعلم بشكل أفضل.

طول السياق، ساحة معركة للجنود

يمكن القول أن طول نافذة السياق هو أحد التقنيات الأساسية للنماذج الكبيرة.

الآن ، تبدأ العديد من الفرق ب "إدخال نص طويل" لبناء القدرة التنافسية المتباينة للنموذج الأساسي. إذا كان عدد المعلمات يحدد مدى تعقيد النموذج الكبير ، فإن طول نافذة السياق يحدد مقدار "الذاكرة" التي يمتلكها النموذج الكبير.

قال سام ألتمان ذات مرة أننا اعتقدنا أننا نريد سيارة طائرة ، وليس 140/280 حرفا ، ولكن في الواقع أردنا 32000 رمز.

في الداخل والخارج ، يمكن وصف الأبحاث والمنتجات لتوسيع نافذة السياق بأنها لا حصر لها.

في مايو من هذا العام ، أثار GPT-4 ، الذي يحتوي على سياق 32K ، نقاشا ساخنا.

في ذلك الوقت ، أشاد مستخدمو الإنترنت الذين فتحوا هذا الإصدار ب GPT-4 32K كأفضل مدير منتج في العالم.

سرعان ما أعلنت شركة Anthropic الناشئة أن كلود كان قادرا على دعم طول رمز السياق البالغ 100 ألف ، أي حوالي 75000 كلمة.

بمعنى آخر ، بعد أن يقرأ الشخص العادي نفس القدر من المحتوى في حوالي 5 ساعات ، يتعين عليه قضاء المزيد من الوقت في الهضم والحفظ والتحليل. بالنسبة لكلود ، يستغرق الأمر أقل من 1 دقيقة.

في مجتمع المصادر المفتوحة ، اقترحت Meta أيضا طريقة يمكنها توسيع إمكانات السياق بشكل فعال ، والتي يمكن أن تجعل نافذة السياق للنموذج الأساسي تصل إلى 32,768 رمزا مميزا ، وحققت تحسينات كبيرة في الأداء في مختلف مهام اكتشاف السياق التركيبي ونمذجة اللغة.

تظهر النتائج أن النموذج الذي يحتوي على معلمات 70B قد حقق أداء يتجاوز gpt-3.5-turbo-16K في العديد من المهام ذات السياق الطويل.

عنوان:

يمكن لطريقة LongLoRA التي اقترحها باحثون من فرق هونغ كونغ الصينية ومعهد ماساتشوستس للتكنولوجيا تمديد طول النص لنموذج 7B إلى 100 ألف رمز وطول النص لنموذج 70B إلى 32 ألف رمز مع سطرين فقط من التعليمات البرمجية وآلة A100 ذات 8 بطاقات.

عنوان:

استخدم باحثون من DeepPavlov و AIRI ومعهد لندن للعلوم الرياضية طريقة محول الذاكرة المتكررة (RMT) لزيادة طول السياق الفعال ل BERT إلى "2 مليون رمز غير مسبوق" والحفاظ على دقة استرجاع عالية للذاكرة.

ومع ذلك ، بينما يمكن أن يتوسع RMT إلى أطوال تسلسل لا نهائية تقريبا دون زيادة استهلاك الذاكرة ، لا تزال هناك مشكلة اضمحلال الذاكرة في RNNs وأوقات استدلال أطول.

عنوان:

حاليا ، يتراوح طول نافذة السياق ل LLMs بشكل أساسي بين 4,000-100,000 رمز مميز ، ويستمر في النمو.

من خلال البحث متعدد الأوجه حول نافذة السياق في صناعة الذكاء الاصطناعي والأوساط الأكاديمية ، فإنه يظهر أهميته ل LLMs.

وهذه المرة ، بشر النموذج المحلي الكبير بلحظة تسليط الضوء التاريخية لأطول نافذة سياق.

لا تمثل نافذة السياق 192K ، التي قامت بتحديث سجل الصناعة ، اختراقا آخر في تقنية النماذج واسعة النطاق لشركة Baichuan Intelligence فحسب ، بل تمثل أيضا معلما آخر في تطوير النموذج واسع النطاق. سيؤدي هذا حتما إلى جولة جديدة من الصدمة لإصلاح شكل جانب المنتج.

تأسست Baichuan Intelligent في أبريل 2023 ، وقد أصدرت على التوالي أربعة نماذج كبيرة تجارية مفتوحة المصدر ومجانية من Baichuan-7B / 13B و Baichuan2-7B / 13B في 6 أشهر فقط ، بالإضافة إلى نموذجين كبيرين مغلقي المصدر من Baichuan-53B و Baichuan2-53B.

بهذه الطريقة ، هو في الأساس ماجستير في القانون في اليوم الأول من شهر يناير.

الآن ، مع إصدار Baichuan2-192K ، ستدخل تقنية نافذة السياق الطويل ذات الطراز الكبير أيضا العصر الصيني بالكامل!

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت