تم إصدار تفاصيل تدريب OpenAI's GPT-4 لـ "ناهيك عن الموت" ، وهذا هو تفسيري

2023-07-17 05:58:58

المصدر الأصلي: أقلية

مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI

كان صباحًا عاديًا قبل أيام قليلة. كنت أقوم بنقل الطوب بشكل يومي ، وفجأة تدفقت جميع أنواع المعلومات: "أسرع ، تم تسريب هيكل نموذج GPT-4 ، وسيتجاوز النموذج الكبير المنتج محليًا ذلك مرة أخرى!"

قم بتشغيل وسائل التواصل الاجتماعي وانظر ، حسنًا ، لست بحاجة إلى التحدث باللغة الإنجليزية ، وقد قام السكان المحليون بالفعل بالاتصال بالإنترنت. أنا مقتنع حقًا بهذه السرعة. ومع ذلك ، عندما ذهبت لتتبع المصدر ومعرفة مدى موثوقية المعلومات ، شعرت فجأة أنني خرجت من دائرة التكنولوجيا من دائرة الترفيه.

في ضوء الوضع الحالي للإنترنت حيث تنتشر "الأخبار الكاذبة" في جميع أنحاء السماء ، كان أول شيء فعلته بعد رؤية هذه الأخبار هو تتبع المصدر.

▍ مدخلات وعموم

كانت نقطة البداية لاستخراج معلوماتي عبارة عن سلسلة تغريدات تمت مشاركتها على Hacker News تم استخراجها عبر Thread Reader (أرشفة 11 يوليو). انقر لفتحه ، وهناك جملتان:

تم تسريب تفاصيل GPT-4. لقد انتهى الأمر.

مستوى هذا الحزب الرئيسي ليس أدنى من مستوى الصين.

كما نعلم جميعًا ، حطمت شركة OpenAI التزامها بالفتح أثناء إطلاق GPT-4 ، دون الكشف عن أي وزن أو تفاصيل فنية ، وانتقدت على نطاق واسع من قبل الصناعة. ربما هذا هو سبب استخدام المدون لـ It is over stalk لتقديم التأثير الدرامي لـ "انعكاس المؤامرة".

بالنظر إلى المحتوى مرة أخرى ، فهو تفاصيل تدريب GPT-4 الضيقة من OpenAI. كان هناك الكثير من التكهنات حول هذه المعلومات ، لكن المسؤول لم يفصح عنها. وعندما يتم ذكرها ، فهي غامضة للغاية (النص الأصلي غامض نسبيًا ، باستخدام الكثير من الاختصارات والمصطلحات ، سيتم شرح بعضها لاحقًا) :

** مقدار معلمات النموذج **: 1.8 تريليون ، حوالي 10 مرات أكبر من GPT-3.5 (175 مليار).
** عمق طبقة النموذج **: 120 طبقة.
** نموذج معماري **: نموذج خبير مختلط (وزارة البيئة ، انظر أدناه للتوضيح) ، ما مجموعه 16 "خبيرًا" ، لكل منهم 111 مليار متغير. كل تمريرة إلى الأمام للاستدلال (إنشاء مخرجات رمزية) تختار خبيرين.
** بيانات التدريب **: إجمالي 13 تيرابايت (13 تريليون) بيانات رمزية. يتم إعادة تدريب البيانات النصية مرتين ، ويتم إعادة تدريب بيانات الكود 4 مرات. هذه البيانات مهمة للغاية في الواقع وسيتم تحليلها بالتفصيل لاحقًا.
** الإستراتيجية الموازية **: موازاة موتر بثمانية اتجاهات + موازية لخط أنابيب بـ16 اتجاهًا. توجد مجموعات GPU متعددة في تدريب مراكز بيانات مختلفة في وقت واحد ، كل مجموعة بها 128 وحدة معالجة رسومات.
** سياق ما قبل التدريب **: 8 كيلو. تم ضبط الإصدار 32K بدقة من 8K.
** تكلفة التدريب **: تدريب مستمر لمدة 90 إلى 100 يوم على 25000 A100s بمعدل 2.15e25 تقريبًا. بسعر 1 دولار لكل 100 ساعة ، سيكلف حوالي 63 مليون دولار. (يمكن إجراؤه اليوم في حوالي 55 يومًا باستخدام حوالي 8192 H100 بتكلفة تقديرية تبلغ 21.5 مليون دولار).

السؤال هو ، كيف جاءت هذه المعلومات ، وهل هي موثوقة؟

اتبع الكرمة للمس "البطيخ" ، ووجدت ناشر هذه السلسلة من التغريدات - Yam Peleg.

على الرغم من أنني لم أتابع حساب هذا الرجل العجوز ، فقد قرأت مقالاته السابقة. إنه الرئيس التنفيذي لـ "شركة ناشئة" في إسرائيل (ولكن تم تأسيسها منذ 15 عامًا ، وقد لا يكون من المناسب تسميتها شركة ناشئة) ؛ لدي خبرة هندسية غنية وأفهم النماذج اللغوية الكبيرة. لقد حاولت لعكس الكراك مترجم رمز GPT-4 و ChatGPT. في يونيو من هذا العام ، عندما زار أعضاء OpenAI إسرائيل ، ذهب فالج أيضًا للمشاركة في المناقشة والتواصل ، والتقط أيضًا صورة مع الرئيس التنفيذي سام التمان.

عند قراءة مقال هذا الرجل العجوز ، لا يسعني إلا التفكير في توم ، ضابط الاتصال الطلابي الذي التقيته في إسرائيل ، والذي يمكنه أن يجعل دمك يغلي إذا قلت أي شيء.

من اليسار: Sam Altman، Yam Peleg (المصدر:Yampeleg)

بالنظر إلى أن هذا الرجل العجوز كان يبحث عن OpenAI ويعرف الكثير من الأشخاص داخل OpenAI ، لذلك إذا حصل على بعض المعلومات الداخلية ، أعتقد أن المصداقية عالية جدًا في الواقع.

لكن عندما كنت على وشك دراسة منشوراته بعناية في الليل ، اكتشفت فجأة أنه حذف جميع المنشورات السابقة. في البداية ، اعتقدت أن OpenAI غطتني ، لكنني كنت سعيدًا لأنني احتفظت بالملف. بعد إلقاء نظرة فاحصة ، وجدت أن ذلك لم يكن بسبب طلب OpenAI للحذف ، ولكن لأنه أبلغ أيضًا عن ذلك من عمود دفع وشكوى من انتهاك حقوق الطبع والنشر.

المصدر الأصلي لهذا هو عمود Substack يسمى SemiAnalysis وقد نشروا مقالة بعنوان GPT-4 Architecture، Infrastructure، Training Dataset، Costs، Vision، MoE في وقت سابق ، خلف جدار حماية.

بعد التحقق من ذلك ، اكتشفت:

SemiAnalysis هي شركة بحث واستشارات متخصصة في مجال أشباه الموصلات تركز على سلسلة توريد أشباه الموصلات بدءًا من المواد الأولية الكيميائية وحتى التصنيع الجاهز لتصميم IP والاستراتيجية. أسس الشركة ديلان باتيل ، محلل ومهندس يتمتع بخبرة سنوات عديدة في صناعة أشباه الموصلات. شغل باتيل مناصب تتراوح من مهندس تصميم إلى مدير تسويق في Intel و AMD و Qualcomm والمزيد. يضم فريق SemiAnalysis أيضًا عددًا من المحللين والاستشاريين المتخصصين في مجال أشباه الموصلات. لكل منهم مجالات خبرة مختلفة ، مثل الذكاء الاصطناعي ، والحوسبة السحابية ، والشبكات ، والتخزين ، والمركبات الكهربائية ، وتردد الراديو ، وإنترنت الأشياء ، وما إلى ذلك. إنهم يزودون العملاء بتحليل شامل لسلسلة التوريد لأشباه الموصلات وخدمات استشارية من المواد الخام الكيميائية إلى القوات المسلحة البوروندية لتصميم IP والاستراتيجية.

في وقت سابق ، نشرت SemiAnalysis أيضًا مقالًا يكشف عن أن مهندسي Google قالوا في اتصالات داخلية "ليس لدينا خندق ، ولا يوجد لدينا OpenAI" (ليس لدينا خندق ، ولا يوجد OpenAI) ، مما أثار الكثير من النقاش. تم تأكيد صحة هذه المقالة لاحقًا.

من وجهة النظر هذه ، قد يكون للأخ ديلان باتيل بالفعل بعض المطلعين ، وينبغي أن تظل مصداقية المعلومات التي قدموها مقبولة.

أما السبب الذي جعلهم يتوقون إلى حث Brother Yam على حذف التغريدات - لأن هذه "المعلومات الداخلية" قيّمة بالفعل ، وتكلف الاشتراكات في مقالات SemiAnalysis المدفوعة 500 دولار سنويًا. اشتراك Brother Yam في إصدار النخبة يكلف 1000 دولار.

▍ تحليل البطاقة

وفقًا لهذه الخصوصيات والمفاهيم ، فإن رأيي هو أن هذه الإشاعة لا تزال تتمتع بدرجة معينة من المصداقية. فيما يلي بعض التحليلات التي أجريتها بناءً على هذه المعلومات ، والتي أقترحها للمناقشة.

ستركز المنافسة على النماذج الخاصة على التوازي

وفقًا لهذه الشائعات ، إذا كنت ترغب في تدريب منافس GPT-4 ، فمن المقدر أنه باستخدام حوالي 8192 شريحة H100 ، بسعر 2 دولار في الساعة ، يمكن إكمال التدريب المسبق في حوالي 55 يومًا ، والتكلفة هي حوالي 21.5 مليون دولار (150 مليون يوان صيني).

هذه التكلفة ليست كبيرة جدًا بالنسبة لسوق LLM المضطرب الحالي. يمكن للاعبين المحليين الرئيسيين الحاليين إجراء العديد من الدورات التدريبية بسهولة. لذا ، لكي نكون صادقين هذه المرة ، قد لا يكون من المفاخر حقًا قياس GPT-4 في نصف عام من خلال إمكانات النموذج (على الأقل مقياس المعلمات).

إذا لم تكن تكلفة التدريب مشكلة ، فهل ستكون بيانات التدريب مشكلة؟ لا أعتقد ذلك أيضًا. يشاع أن بيانات التدريب الخاصة بـ GPT-4 بها إجمالي 13 تيرا (13 تريليون) توكن. للمقارنة ، تحتوي كل من مجموعتي البيانات العامة CommonCrawl و RefinedWeb على رموز 5T. يُشاع أن الباقي يأتي من Twitter و Reddit و YouTube ؛ تزعم بعض الدعاوى القضائية أيضًا أن OpenAI استخدمت بيانات مقرصنة من "مكتبات الظل" مثل LibGen و SciHub.

لذلك ، أعتقد أن حجم هذه البيانات ليس بعيد المنال ، بالإضافة إلى أن الدولة نفسها راكمت الكثير من الموارد الصينية ، لذلك لا ينبغي أن تكون بيانات التدريب مشكلة كبيرة.

بالنسبة للقضايا الأخرى مثل التدريب المسبق والضبط الدقيق والتشفير الصيني وفك التشفير ، في الواقع ، لا يوجد الكثير من الأسرار التقنية ، والأساليب مفتوحة نسبيًا. بالنظر إلى الموارد الكافية ، يجب حلها في غضون نصف عام.

إذن ، العتبة الأخيرة المتبقية هي التوازي. في الواقع ، تم استخدام قدر كبير من المساحة في هذه الإشاعة لتقديم محتوى ذي صلة ، ولا يزال المستوى المهني مرتفعًا نسبيًا ، ويمكنني فقط تقديم بعض التفسيرات السطحية هنا.

بشكل تقريبي ، ما يسمى بالمشكلة الموازية هي أن لديك نموذجًا كبيرًا ، كيف تدع معظم الناس يستخدمونه في نفس الوقت بأقل تكلفة. هذا ينطوي على الكثير من قضايا التصميم الاحترافية.في حالة موارد الحوسبة الثابتة ، كيف يتم تخصيص موارد الحوسبة في روابط مختلفة؟ كيف يتم التعامل مع التزامن؟ كيف تدير الذاكرة؟

تحدد قدرة المعالجة المتوازية تجربة المستخدم بشكل مباشر. في الوقت الحالي ، تعتبر ChatGPT و API المستندة إلى GPT-3.5 سلسة نسبيًا ، وهي قوية جدًا. قد يقول الجميع هنا أن LLMs المحلية الأخرى أو كلود التي اختبرتها أسرع من GPT-3.5. ومع ذلك ، لم يفكر الجميع في حجم الاستخدام ، حيث تتمتع GPT-3.5 بمثل هذا الأداء في ظل هذا التزامن العالي.إذا لم يتمكن المصنعون الآخرون من مطابقة قدرة OpenAI ، فلن يتمكنوا من الاستيلاء على سوق OpenAI.

لذلك ، قد تصبح القدرات الموازية واحدة من نقاط المنافسة الرئيسية للعديد من منافسي OpenAI.

تركز GPT-5 على الوسائط المتعددة

كما ذكرنا سابقًا ، يُشاع أن GPT-4 عبارة عن نموذج "خليط من الخبراء" (MoE) يتكون من 16 نموذجًا خبيرًا. فيما يلي شرح موجز لما هو "خلط الخبراء" ، والذي يشير إلى تقسيم "مشكلة" المستخدم إلى عدة مشاكل فرعية ، ويتم تسليم كل مشكلة فرعية إلى نموذج أصغر (أي "خبير") إلى حل ، ومن ثم من خلال "نموذج التوجيه" يتم تحديدها ودمجها ، ثم إخراجها إلى المستخدم.

تزعم الشائعات أيضًا أن كل "خبير" في GPT-4 لديه 111 مليار معلمة مكافئة لـ GPT-3 (وهذا يتوافق مع معلمات GPT-4 التي قال Sam Altman سابقًا أنها أصغر من GPT-3.5) ، والتي يوجد منها 55 مليار معلمة مشتركة. يستخدم كل مسار استدلال أمامي (إنشاء مخرجات رمزية) اثنين من "الخبراء" ، يستهلكان بشكل فعال حوالي 280 مليار معلمة. هذا الرقم أقل بكثير من العدد المطلوب بدون وزارة التربية والتعليم ، وهو مشابه أيضًا لتوقعات العديد من الباحثين في المرحلة المبكرة.

تجدر الإشارة إلى أن الشائعات تشير إلى إعادة استخدام بيانات النص والرمز المستخدمة في تدريب GPT-4. بالاقتران مع اختيار استخدام إطار عمل وزارة التربية والتعليم ، أعتقد شخصيًا: إما أن البيانات النصية عالية الجودة التي يمكن الحصول عليها بسهولة في الوقت الحالي قريبة من الاستنفاد ، أو تحسين أداء LLM عن طريق زيادة كمية البيانات دون حدود هو بالفعل أمر بالغ الأهمية. محدود.

ومع ذلك ، بغض النظر عن الموقف ، إذا أراد GPT-5 تحقيق تقدم كبير في الأداء ، فيجب أن يكون قادرًا على الاستفادة الكاملة من الكمية الكبيرة الحالية من بيانات الفيديو والصورة والصوت ، وبعبارة أخرى ، فهو " متعدد الوسائط ".

تكمن المشكلة في أنه وفقًا لهذه الشائعات ، فإن الوسائط المتعددة البصرية الحالية لـ OpenAI ليس لديها الكثير لتقدمه. إنه برنامج تشفير مرئي مستقل يستخدم النص كمدخلات للتدريب المسبق ثم يستخدم حوالي 2 تريليون من الرموز للضبط الدقيق. من الواضح أن طريقة التدريب هذه لا يمكنها الاستفادة الكاملة من بيانات الفيديو والصورة والصوت الموجودة.

لذلك ، أكدت OpenAI دائمًا أن GPT-5 لم يتم تدريبه ، وأن الاحتمال صحيح. قبل تدريب GPT-5 ، كان عليهم إيجاد بنية أفضل للنموذج متعدد الوسائط حتى يتمكن النموذج من الاستفادة الكاملة من بيانات الصوت والفيديو. فقط من خلال القدرة على استخدام بيانات التدريب عالية الجودة هذه ، يمكن لـ GPT-5 الحصول على تحسين كافٍ للقدرة. (في الوقت نفسه ، إذا كان بإمكان GPT-5 حقًا الاستفادة الكاملة من بيانات الصوت والفيديو هذه ، فسواء كانت AGI أو OpenAI "Super Intelligence Body" المقترحة مؤخرًا ، فيبدو أنها ليست بعيدة جدًا.)

ربما يكون OpenAI قد نشر هذه الإشاعة عمدًا

هذا الاستنتاج هو تكهنات شخصية بحتة. الحقائق لا تكفي ، فقط ألقِ نظرة.

ما أفهمه هو أن OpenAI تدرك جيدًا أن الخندق المائي لـ GPT-4 ليس عميقًا ؛ في جنون اليوم ، ليس من الصعب على المنافسين اللحاق بالركب. وكما تم تحليله أعلاه ، لا ينبغي الانتهاء من هيكل النموذج الحالي متعدد الوسائط واسع النطاق. في هذا الوقت ، إذا ظهر لاعبون جدد واختراقوا الوسائط المتعددة ، فإن احتمال تجاوز OpenAI بواسطة المنحنى مرتفع جدًا أيضًا .

لذلك ، قد تكون هذه خطة OpenAI لإبطاء الحرب - سأكشف لك بعض معلومات GPT-4 ، دع اللاعبين الرئيسيين يقومون أولاً بعمل إعادة تمثيل GPT-4 ، والسير في الطريق الذي سلكته OpenAI بالفعل.

إذا وضع OpenAI خلال هذه العملية الأساس لتدريب GPT-5 وأكمل البحث الأولي للنموذج الكبير متعدد الوسائط ، حتى لو تم تجاوز GPT-4 بواسطة نماذج اللغات الكبيرة الأخرى ، فلن ينزعج OpenAI. أنا شخصياً أعتقد أن تعدد الوسائط من المحتمل أن يكون الجيل الأخير من المشاركة البشرية ، وقد يكون الذكاء الاصطناعي العام هو القوة الرئيسية في تطوير النموذج المستقبلي وتطوره. بمعنى آخر ، إذا فزت هذه المرة ، فقد تفوز حتى النهاية.

شاهد النسخة الأصلية

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.