أقوى نموذج نص طويل في العالم ، والذي يمكنه قراءة 350000 حرف صيني في المرة الواحدة: Baichuan2-192K متصل بالإنترنت

لم تكن قراءة الكتب ذات النماذج الكبيرة بهذه السرعة من قبل.

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

تقوم الشركات الناشئة النموذجية المحلية واسعة النطاق بإنشاء سجلات جديدة في طليعة التكنولوجيا.

في 30 أكتوبر ، أصدرت Baichuan Intelligence رسميا نموذج Baichuan2-192K الطويل للنافذة الكبيرة ، مما زاد من طول نافذة سياق نموذج اللغة الكبيرة (LLM) إلى ** 192K token **.

هذا يعادل جعل النموذج الكبير يعالج حوالي 350,000 حرف صيني في المرة الواحدة ، وهو أطول 14 مرة من GPT-4 (رمز 32K ، حوالي 25,000 حرف) و 4.4 مرة أطول من Claude 2.0 (رمز 100K ، حوالي 80,000 حرف).

بمعنى آخر ، يمكن ل Baichuan2-192K قراءة نسخة من مشكلة الأجسام الثلاثة 2 في جلسة واحدة ، مما يجعلها أكبر نموذج مع أطول نافذة سياق معالجة في العالم. بالإضافة إلى ذلك ، فإنه يتفوق بشكل كبير على منافسيه في أبعاد متعددة مثل جودة إنشاء النص ، وفهم السياق ، والقدرة على الأسئلة والأجوبة.

ما الذي يمكن لنموذج كبير يمكنه فهم النصوص الطويلة جدا في وقت واحد؟ قدم Baichuan ذكي مظاهرة بسيطة.

قم بتحميل ملف PDF لكامل "مشكلة الأجسام الثلاثة 2: الغابة المظلمة" ، ونموذج Baichuan هو 300000 كلمة. بعد ذلك ، إذا طرحت أي أسئلة حول الرواية ، يمكن للنموذج تقديم إجابة موجزة ودقيقة.

في بعض الأحيان نلجأ إلى الذكاء الاصطناعي للحصول على المساعدة ، وليس لاستخدام خيالهم ، ولكن لاستخراج معلومات دقيقة. باستخدام Baichuan2-192K ، يمكننا فك تشفير عشرات أو حتى مئات الصفحات من مستندات العقد بسرعة ، والسماح الذكاء الاصطناعي بتقديم ملخص موجز بسرعة ، والتقريب هو قراءة السرعة الكمية:

إذن ماذا لو حصلت فجأة على مهمة جديدة ولدي مجموعة من الملفات لقراءتها؟

يمكنك حزمها وتحميلها معا مباشرة ، ويمكن لنموذج Baichuan دمج خمس مقالات إخبارية بسهولة في مقالة واحدة.

نظرا لأن المحتوى الذي يمكن أن يفهمه النموذج الكبير يصبح أطول ، فكلما تم تطبيقه أكثر فأكثر. كما نعلم جميعا ، تعد القدرة على نمذجة النص الطويل شرطا أساسيا لتطبيق العديد من السيناريوهات. هذه المرة ، أخذت Baichuan زمام المبادرة في هذه الصناعة.

** من عشرات الآلاف من الكلمات إلى مئات الآلاف من الكلمات ، تسارع الشركات الناشئة الرائدة لاغتنام "النافذة الطويلة" **

إذا انتبهت إلى تطبيق النماذج الكبيرة في اتجاه فهم النص ، فقد تلاحظ ظاهرة: في البداية ، قد تكون النصوص المستخدمة لتقييم قدرة النموذج بعض التقارير المالية والتقارير الفنية ، والتي تتراوح عادة من اثنتي عشرة صفحة إلى عشرات الصفحات ، وعادة ما يكون عدد الكلمات عشرات الآلاف من الكلمات. ولكن بعد ذلك ، تطور نص الاختبار تدريجيا إلى عدة ساعات من محاضر الاجتماعات ، أو مئات الآلاف من كلمات الروايات ، وأصبحت المنافسة أكثر حدة وصعوبة.

في الوقت نفسه ، تكتسب الشركات النموذجية الكبيرة التي تدعي أنها قادرة على فهم السياقات الأطول زخما. على سبيل المثال ، منذ بعض الوقت ، تلقت شركة Anthropic ، الشركة التي تقف وراء كلود ، والتي ادعت أنها قادرة على تحقيق نافذة سياق رمزية تبلغ 100 ألف ، مليارات الدولارات من التمويل من Microsoft و Google ، مما دفع سباق التسلح الكبير إلى مستوى جديد.

لماذا تتحدى هذه الشركات النصوص الطويلة؟

بادئ ذي بدء ، من منظور التطبيق ، يتعين على العديد من العمال الذين يستخدمون نماذج كبيرة لتحسين الإنتاجية حتما التعامل مع النصوص الطويلة ، مثل المحامين والمحللين والاستشاريين ، وما إلى ذلك ، وكلما كانت نافذة السياق أكبر ، كلما اتسع نطاق الأشياء التي يمكن لهؤلاء الأشخاص القيام بها مع النماذج الكبيرة ؛ ثانيا ، من وجهة نظر فنية ، كلما زادت المعلومات التي يمكن أن تحملها النافذة ، زادت المعلومات التي يمكن أن يشير إليها النموذج عند إنشاء الكلمة التالية ، قل احتمال حدوث "الهلوسة" ، وكلما كانت المعلومات أكثر دقة ، وهو شرط ضروري لتنفيذ تقنية النموذج الكبير. لذلك ، أثناء محاولة تحسين أداء النموذج ، تتنافس الشركات أيضا لمعرفة من يمكنه جعل نافذة السياق أكبر وبالتالي وضعها في المزيد من سيناريوهات التطبيق.

كما ترون من بعض الأمثلة الموضحة سابقا ، يتفوق Baichuan2-192K في كل من جودة إنشاء النص وفهم السياق. وبالإضافة إلى هذه النتائج النوعية، يمكننا أيضا ملاحظة ذلك في بعض بيانات التقييم الكمي.

** Baichuan2-192K: كلما زاد طول الملف ، زادت الميزة **

في تقييم جودة إنشاء النص ، يسمى مقياس مهم للغاية "الارتباك": عندما نأخذ مستندات عالية الجودة تتوافق مع عادات اللغة الطبيعية البشرية كمجموعة اختبار ، كلما زاد احتمال قيام النموذج بتوليد النسخة الصينية من مجموعة الاختبار ، قل ارتباك النموذج ، وكان النموذج أفضل.

تسمى مجموعة الاختبار المستخدمة لاختبار حيرة نموذج Baichuan الكبير PG-19. تم إنتاج مجموعة البيانات هذه من قبل باحثي DeepMind وتم تصنيعها باستخدام مواد من كتب Project Gutenberg ، لذلك يتمتع PG-19 بجودة الكتاب.

نتائج الاختبار موضحة في الشكل أدناه. كما ترون ، في المرحلة الأولية (على يسار المحور الأفقي ، عندما يكون طول السياق أقصر) ، يكون مستوى الارتباك في Baichuan2-192K عند مستوى منخفض. مع زيادة طول السياق ، تصبح مزاياه أكثر وضوحا ، وحتى الارتباك يستمر في الانخفاض. يشير هذا إلى أن Baichuan2-192K أكثر قدرة على الحفاظ على جودة إنشاء النص على مستوى الكتاب في السياقات الطويلة.

من حيث الفهم السياقي ، فإن أداء Baichuan2-192K مثير للإعجاب أيضا.

يتم تقييم هذه الكفاءة باستخدام Long ، وهو معيار فهم النص الموثوق للنافذة الطويلة. Long هي قائمة صادرة عن جامعة كاليفورنيا وبيركلي وجامعات أخرى لتقييم نماذج النوافذ الطويلة ، والتي تقيس بشكل أساسي قدرة النموذج على تذكر وفهم محتوى النوافذ الطويلة ، وكلما ارتفعت درجة النموذج ، كان ذلك أفضل.

كما ترون من نتائج التقييم في الرسم البياني أدناه ، تمكنت Baichuan2-192K من الحفاظ على أداء عال ثابت مع زيادة طول السياق ، حتى بعد أن يتجاوز طول النافذة 100 كلفن. في المقابل ، ينخفض الأداء العام ل Claude 2 بشكل كبير بعد طول نافذة يزيد عن 80 ألفا.

بالإضافة إلى ذلك ، تم اختبار النموذج على Dureader و NarrativeQA و TriviaQA و LSHT ومجموعات تقييم أخرى من النصوص الطويلة Q& والملخصات باللغتين الصينية والإنجليزية. تظهر النتائج أن Baichuan 2-192K يعمل أيضا بشكل جيد ، متفوقا على النماذج الأخرى في معظم مهام تقييم النص الطويل.

باختصار ، كلما طالت معالجة المحتوى ، كان الأداء النسبي لنموذج Baichuan الكبير أفضل.

** 192K سياق طويل للغاية ، كيف فعلت بايتشوان ذلك؟ **

هناك إجماع في صناعة الذكاء الاصطناعي على أن توسيع نافذة السياق يمكن أن يحسن أداء النماذج الكبيرة بشكل فعال ، لكن نافذة السياق الطويلة جدا تعني متطلبات طاقة حوسبة أعلى وضغطا أكبر للذاكرة.

من أجل التخفيف من هذا الضغط ، ظهرت بعض طرق التسوية في الصناعة ، مثل جعل النموذج أصغر. دع النموذج يتخلى بنشاط عن النص السابق عن طريق تحريك النافذة ، وما إلى ذلك ، واحتفظ فقط بآلية الانتباه لأحدث المدخلات ؛ من خلال اختزال السياق أو RAG (التوليد المعزز للاسترجاع) ، وآلية الانتباه التي تحتفظ فقط ببعض المدخلات ، وما إلى ذلك.

على الرغم من أن هذه الطرق يمكن أن تزيد من طول نافذة السياق ، إلا أنها جميعا تلحق الضرر بأداء النموذج بدرجات متفاوتة. بمعنى آخر ، يضحون بأداء جوانب أخرى من النموذج مقابل طول نافذة السياق ، مثل عدم قدرة النموذج على الإجابة على الأسئلة المعقدة بناء على معلومات النص الكامل ، وصعوبة النظر في الإجابات عبر نصوص متعددة.

يحقق Baichaun2-192K ** الذي أصدرته Baichuan هذه المرة توازنا بين طول النافذة وأداء النموذج من خلال التحسين النهائي للخوارزميات والهندسة ، ويحقق التحسين المتزامن لطول النافذة وأداء النموذج **.

فيما يتعلق بالخوارزميات ، تقترح Baichuan Intelligent مخطط استقراء لتشفير الموقع الديناميكي ل RoPE و ALiBi ، والذي يمكنه تنفيذ درجات مختلفة من الاستيفاء الديناميكي لقناع الانتباه ل ALiBi \ _mask من الدقة المختلفة ، والتي يمكن أن تعزز قدرة النمذجة للنموذج على الاعتماد على تسلسلات طويلة مع ضمان الدقة.

من حيث الهندسة ، على أساس إطار التدريب الموزع المطور ذاتيا ، تدمج Baichuan Intelligent جميع تقنيات التحسين المتقدمة في السوق ، بما في ذلك توازي الموتر ، وتوازي التدفق ، وتوازي التسلسل ، وإعادة الحساب ووظائف التفريغ ، وما إلى ذلك ، لإنشاء مجموعة شاملة من الحلول الموزعة المتوازية 4D. يمكن لهذا الحل العثور تلقائيا على الإستراتيجية الموزعة الأكثر ملاءمة وفقا لحالة التحميل المحددة ، مما يقلل بشكل كبير من شغل الذاكرة في عملية استدلال النافذة الطويلة.

** خوض معركة النماذج الكبيرة ، كن سريعا **

تأسست Baichuan Intelligence في أبريل من هذا العام ، ويمكن القول تقريبا أنها شركة ناشئة نموذجية واسعة النطاق مع أسرع تكرار تكنولوجي في الصناعة. في نصف عام فقط منذ إنشائها ، أصدرت الشركة أربعة نماذج تجارية مفتوحة المصدر ومجانية ، Baichuan-7B / 13B و Baichuan2-7B / 13B ، بالإضافة إلى نموذجين مغلقي المصدر ، Baichuan-53B و Baichuan2-53B.

في المتوسط ، يتم إصدار نموذج كبير جديد كل شهر.

تدمج سلسلة Baichuan من النماذج الكبيرة فهم النوايا واسترجاع المعلومات وتقنيات التعلم المعزز ، جنبا إلى جنب مع الضبط الدقيق الخاضع للإشراف ومواءمة النوايا البشرية ، وتعمل بشكل جيد في مجالات الإجابة على أسئلة المعرفة وإنشاء النصوص. هذه النماذج الكبيرة مفضلة أيضا في الصناعة بسبب قدراتها: تجاوز العدد التراكمي للتنزيلات لسلسلة Baichuan من نماذج المصادر المفتوحة في مجتمعات المصادر المفتوحة الرئيسية 6 ملايين ؛ تتقدم Baichuan 2 على Llama 2 في جميع الأبعاد ، مما يؤدي إلى تطوير النظام البيئي مفتوح المصدر في الصين.

في 31 أغسطس ، أخذت Baichuan Intelligent زمام المبادرة في تمرير "التدابير المؤقتة لإدارة خدمات الذكاء الاصطناعي التوليدية" ، وكانت الشركة النموذجية الوحيدة واسعة النطاق التي تأسست هذا العام بين الدفعة الأولى من 8 شركات. في 25 سبتمبر ، افتتحت Baichuan Intelligent واجهة Baichuan API ، ودخلت رسميا حقل To B ، وبدأت عملية التسويق.

يمكن القول أنه من البحث والتطوير التكنولوجي إلى الهبوط ، فإن سرعة Baichuan سريعة بما فيه الكفاية.

بدأ Baichuan2-192K الذي تم إصداره للتو رسميا الاختبار التجريبي المغلق وسيكون مفتوحا للشركاء الأساسيين في شكل مكالمات API. وقالت بايتشوان إنها توصلت إلى تعاون مع وسائل الإعلام المالية وشركات المحاماة ، وطبقت قدرات السياق الطويل الرائدة في Baichuan2-192K على سيناريوهات محددة مثل وسائل الإعلام والتمويل والقانون ، وسيتم توفيرها قريبا لمستخدمي المؤسسات في شكل مكالمات API والنشر المخصخص.

بعد فتحها بالكامل في شكل واجهات برمجة التطبيقات ، يمكن دمج Baichuan2-192K بعمق مع عدد كبير من السيناريوهات الرأسية ، وتلعب دورا في عمل الناس وحياتهم وتعلمهم ، وتساعد مستخدمي الصناعة على تحسين الكفاءة بشكل كبير. يمكن ل Baichuan2-192K معالجة وتحليل مئات الصفحات من المواد في وقت واحد ، وهي مساعدة كبيرة لسيناريوهات العالم الحقيقي مثل تلخيص المستندات الطويلة ، ومراجعة المستندات الطويلة ، وكتابة المقالات أو التقارير الطويلة ، والمساعدة في البرمجة المعقدة.

في السابق ، كشف وانغ شياو تشوان ، المؤسس والرئيس التنفيذي لشركة Baichuan Intelligence ، أنه في النصف الثاني من هذا العام ، ستطلق Baichuan نموذجا كبيرا بمستوى 100 مليار ، ومن المتوقع أن يكون هناك نشر لتطبيق C-end الفائق العام المقبل.

في مواجهة الفجوة مع OpenAI ، اعترف Wang Xiaochuan بأن هناك بالفعل فجوة بيننا وبين OpenAI من حيث المثل العليا ، وهدف OpenAI هو استكشاف سقف الذكاء ، بل إنهم يأملون في تصميم تقنية تربط 10 ملايين وحدة معالجة رسومات معا. ومع ذلك ، من حيث التطبيق ، نحن نسير بشكل أسرع من الولايات المتحدة ، ويمكن للتطبيق والخبرة البيئية المتراكمة في عصر الإنترنت أن تجعلنا نذهب بشكل أسرع وأبعد ، لذلك يسمى مفهوم Baichuan لصنع نموذج كبير "** خطوة واحدة أبطأ على المثالية ، ثلاث خطوات أسرع على الأرض **".

من وجهة النظر هذه ، تعد Baichuan2-192K امتدادا لهذا المفهوم ، وستعمل أطول نافذة سياق في العالم بلا شك على تسريع عملية تقنية النماذج الكبيرة الذكية في Baichuan.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت