لماذا النموذج الكبير بطيء جدًا؟اتضح أنني أفكر كثيرًا: الاتجاه الجديد هو نفس خوارزمية التفكير التي يفكر بها البشر

2023-09-11 07:25:37

مصدر الصورة: تم إنشاؤها بواسطة Unbounded AI

الحدس البشري هو قدرة غالباً ما يتجاهلها باحثو الذكاء الاصطناعي، لكنه دقيق للغاية لدرجة أننا حتى نحن أنفسنا لا نفهمه بالكامل. اقترح فريق بحث من Virginia Tech وMicrosoft خوارزمية التفكير (AoT) في ورقة بحثية حديثة، والتي تجمع بين الحدس وانتظام الأساليب الخوارزمية لتوفير التكاليف بشكل كبير مع ضمان أداء LLM.

لقد تطورت النماذج اللغوية واسعة النطاق بوتيرة سريعة في الآونة الأخيرة، مما يدل على قدرات ملحوظة في حل المشكلات العامة، وتوليد التعليمات البرمجية، واتباع التعليمات.

في حين اعتمدت النماذج المبكرة على استراتيجيات الإجابة المباشرة، فقد تحركت الأبحاث الحالية نحو مسار تفكير خطي من خلال تحليل المشكلة إلى مهام فرعية لاكتشاف الحلول، أو عن طريق تعديل السياق لاستغلال الآليات الخارجية لتغيير توليد الرموز المميزة.

على غرار الإدراك البشري، يبدو أن استراتيجيات LLM المبكرة تحاكي الفورية 1 (ردود الفعل السريعة)، التي تتميز باتخاذ القرار المندفع. في المقابل، تعكس الأساليب الأحدث مثل سلسلة الأفكار (CoT) والأقل إلى الأكثر (L2M) الطبيعة الاستبطانية لـ 2 (التفكير البطيء). تجدر الإشارة إلى أنه يمكن تحسين قدرة التفكير المنطقي الحسابي في LLM من خلال دمج خطوات التفكير الوسيطة.

ومع ذلك، إذا كانت المهمة تتطلب تخطيطًا أعمق واستكشافًا عقليًا أوسع، فإن القيود المفروضة على هذه الأساليب تصبح واضحة. على الرغم من أن CoT المتكامل ذاتيًا (CoT-SC) يمكنه استخدام مخرجات LLM متعددة للوصول إلى نتائج متفق عليها، إلا أن الافتقار إلى التقييم التفصيلي قد يؤدي بالنموذج إلى السير في الاتجاه الخاطئ. تعد شجرة التفكير (ToT) التي ستظهر في عام 2023 حلاً جديرًا بالملاحظة. يتم استخدام ماجستير واحد لتوليد الأفكار، ويتم استخدام ماجستير آخر لتقييم مزايا هذه الأفكار، تليها دورة "الإيقاف المؤقت والتقييم والمتابعة". من الواضح أن هذه العملية التكرارية المبنية على البحث الشجري فعالة، خاصة بالنسبة للمهام ذات الاستمرارية الطويلة. يعتقد الباحثون أن هذا التطور هو استخدام أدوات خارجية لتعزيز LLM، على غرار استخدام البشر لأدوات للتحايل على قيود ذاكرتهم العاملة.

من ناحية أخرى، فإن طريقة LLM المحسنة هذه لا تخلو من العيوب. أحد العيوب الواضحة هو أن عدد الاستعلامات والمتطلبات الحسابية يمكن أن يرتفع بشكل كبير. يتكبد كل استعلام إلى واجهة برمجة تطبيقات LLM عبر الإنترنت مثل GPT-4 نفقات مالية كبيرة ويزيد من زمن الوصول، وهو قيد مهم بشكل خاص للتطبيقات في الوقت الفعلي. يمكن أن يؤدي الكمون المتراكم لهذه الاستعلامات إلى الإضرار بالكفاءة الإجمالية للسيناريو. من ناحية البنية التحتية، يمكن للتفاعلات المستمرة أن تضع ضغطًا على النظام، مما قد يحد من عرض النطاق الترددي ويقلل من توفر النموذج. بالإضافة إلى ذلك، لا يمكن تجاهل التأثير على البيئة، حيث ستؤدي الاستعلامات المستمرة إلى زيادة استهلاك الطاقة لمركز البيانات الذي يستهلك الكثير من الطاقة بالفعل، مما يزيد من البصمة الكربونية.

بناءً على هذه الاعتبارات، فإن الهدف الأمثل للباحثين هو تقليل عدد الاستعلامات المستخدمة بواسطة طرق الاستدلال الحالية متعددة الاستعلامات بشكل كبير، مع الحفاظ على الأداء الكافي لتمكين النموذج من التعامل مع المهام التي تتطلب استخدامًا ماهرًا للمعرفة العالمية، وبالتالي توجيه الأشخاص أن نكون أكثر مسؤولية وكفاءة، وأن نستخدم موارد الذكاء الاصطناعي بكفاءة.

من خلال التفكير في تطور LLM من 1 إلى 2، يمكن للمرء أن يرى ظهور عامل رئيسي: الخوارزميات. يتم تنظيم الخوارزميات وتوفر طريقة لمساعدة الأشخاص على استكشاف مساحات المشكلات وتطوير الاستراتيجيات وبناء الحلول. على الرغم من أن الكثير من الأدبيات السائدة تتعامل مع الخوارزميات كأدوات خارجية لماجستير في القانون، مع الأخذ في الاعتبار إمكانية التكاثر التوليدي المتأصل في LLM، فهل يمكننا توجيه هذا المنطق التكراري لاستيعاب الخوارزمية في LLM؟

قام فريق بحث في Virginia Tech وMicrosoft بجمع تعقيد التفكير البشري والدقة المنهجية للأساليب الخوارزمية في محاولة لتعزيز التفكير داخل LLM من خلال دمج الجانبين.

تؤكد الأبحاث الحالية أن البشر يعتمدون غريزيًا على تجارب الماضي عند حل المشكلات المعقدة للتأكد من أنهم يفكرون بشكل شمولي بدلاً من التركيز الضيق على تفاصيل واحدة. يقتصر نطاق توليد LLM فقط على الحد الرمزي الخاص به، ويبدو أنه مقدر له اختراق عقبات الذاكرة العاملة البشرية.

مستوحين من هذه الملاحظة، استكشف الباحثون ما إذا كان بمقدور LLM تمكين استكشاف هرمي مماثل للأفكار، وتصفية الخيارات غير الممكنة من خلال الإشارة إلى الخطوات الوسيطة السابقة - كل ذلك ضمن دورة توليد LLM. في حين أن البشر جيدون في الحدس والحرص، فإن الخوارزميات جيدة في الاستكشاف المنظم والمنهجي. تميل التقنيات الحالية مثل CoT إلى الابتعاد عن هذه الإمكانات التآزرية والتركيز بشكل كبير على الدقة الميدانية لـ LLM. من خلال استغلال القدرات العودية لماجستير القانون، قام الباحثون ببناء نهج هجين بين الخوارزميات البشرية. ويتم ذلك من خلال استخدام الأمثلة الخوارزمية التي تجسد جوهر الاستكشاف - بدءًا من المرشحين الأوليين وحتى الحلول التي أثبتت جدواها.

وبناء على هذه الملاحظات، اقترح الباحثون خوارزمية الأفكار (AoT).

ورق:

وعلى نطاق أوسع، من المتوقع أن يؤدي هذا النهج الجديد إلى نموذج جديد للتعلم السياقي. بدلاً من استخدام نموذج التعلم الخاضع للإشراف التقليدي المتمثل في [سؤال، إجابة] أو [سؤال، خطوات لاحقة للحصول على الإجابة]، يتبنى هذا النهج الجديد نموذجًا جديدًا [سؤال، عملية بحث، إجابة]. بطبيعة الحال، عندما نطلب من LLM استخدام خوارزمية من خلال التعليمات، نتوقع عادةً أن يقلد LLM ببساطة التفكير التكراري للخوارزمية. ومع ذلك، ما هو مثير للاهتمام هو أن LLM لديه القدرة على حقن "حدسه" الخاص، مما يجعل بحثه أكثر كفاءة من الخوارزمية نفسها.

خوارزمية التفكير

يقول الباحثون إن جوهر استراتيجيتهم البحثية هو التعرف على أوجه القصور الأساسية في نموذج التعلم السياقي الحالي. على الرغم من أن CoT يمكن أن يحسن اتساق الاتصالات العقلية، إلا أنه قد يحدث خطأ في بعض الأحيان ويعطي خطوات وسطية خاطئة.

ولتوضيح هذه الظاهرة، صمم الباحثون تجربة. عند الاستعلام عن text-davinci-003 باستخدام مهمة حسابية (مثل 11 − 2 =)، سيضيف الباحث معادلات سياقية متعددة في المقدمة والتي ستحصل على نفس النتيجة (مثل 15 − 5 = 10، 8 + 2 = 10) ).

تم العثور على انخفاض حاد في الدقة، مما يشير إلى أن مجرد إعطاء المنطق الصحيح في السياق قد يؤدي عن غير قصد إلى إضعاف القدرات الحسابية الأساسية لـ LLM.

وللحد من هذا التحيز، قد يكون جعل الأمثلة أكثر تنوعًا حلاً قابلاً للتطبيق، ولكن هذا قد يغير توزيع المخرجات قليلاً. قد يؤدي مجرد إضافة بعض المحاولات غير الناجحة (مثل البحث العشوائي) إلى تشجيع النموذج عن غير قصد على المحاولة مرة أخرى دون حل المشكلة فعليًا. من خلال فهم الطبيعة الحقيقية للسلوك الخوارزمي (حيث تكون عمليات البحث الفاشلة وعمليات الاسترداد اللاحقة مهمة، بالإضافة إلى التعلم من هذه المحاولات)، فإن الطريقة التي يدمج بها الباحثون الأمثلة السياقية هي اتباع نمط خوارزميات البحث، وخاصة بحث العمق الأول (DFS) و اتساع البحث الأول (BFS). الشكل 1 يعطي مثالا.

تركز هذه الورقة على فئة كبيرة من المهام المشابهة لمشاكل البحث عن الشجرة.

يتطلب هذا النوع من المهام تحليل المشكلة الرئيسية، وبناء حل ممكن لكل جزء، واتخاذ قرار باعتماد مسارات معينة أو التخلي عنها، مع خيار إعادة تقييم الأجزاء ذات الإمكانات الأكبر.

بدلاً من تقديم استعلامات منفصلة لكل مجموعة فرعية، استفاد الباحثون من القدرات التكرارية لماجستير القانون في حلها في مسح توليدي موحد. من خلال قصر نفسه على تفاعل واحد أو اثنين فقط من تفاعلات LLM، يمكن للنهج بشكل طبيعي دمج الرؤى من المرشحين السياقيين السابقين وحل المشكلات المعقدة التي تتطلب استكشافًا عميقًا لمجال الحل. قدم الباحثون أيضًا رؤاهم الخاصة حول الحجم الذي يجب أن تكون عليه هذه الأفكار ونوع الأمثلة السياقية التي يجب تقديمها لـ LLM لتحسين كفاءة الرمز المميز. فيما يلي المكونات الرئيسية لخوارزمية البحث الشجري وتمثيلها في الإطار الجديد.

**1.تقسيمها إلى مسائل فرعية. **في حالة وجود مشكلة، فإن إنشاء شجرة بحث تصف مسارات الاستدلال الممكنة يعد بالفعل مهمة شاقة، حتى بدون النظر إلى الجانب الفعلي لحل المشكلة. يجب أن يأخذ أي تحليل ليس فقط العلاقات المتبادلة بين المهام الفرعية، ولكن أيضًا سهولة حل كل مشكلة.

خذ على سبيل المثال عملية جمع بسيطة متعددة الأرقام: على الرغم من كفاءة أجهزة الكمبيوتر في تحويل القيم الرقمية إلى أرقام ثنائية، إلا أن البشر غالبًا ما يجدون الأرقام العشرية أكثر سهولة. علاوة على ذلك، حتى لو كانت المشاكل الفرعية هي نفسها، فقد تكون طرق التنفيذ مختلفة. يمكن أن يجد الحدس اختصارات بين خطوات الحل، وبدون الحدس، قد يكون من الضروري اتخاذ خطوات أكثر تفصيلاً.

من أجل إنشاء أمثلة صحيحة (أي أمثلة خوارزمية سياقية)، تعد هذه التفاصيل الدقيقة مهمة وتحدد الحد الأدنى لعدد الرموز المميزة التي تتطلبها LLM للحصول على أداء موثوق. وهذا لا يرضي قيود LLM على السياق فحسب، بل إنه مهم أيضًا لقدرة LLM، لأننا نأمل أن تتمكن LLM من استخدام كمية مماثلة من الرموز المميزة لحل المشكلات التي يتردد صداها مع سياقها.

**2- اقتراح حل للمشكلة الفرعية. **تتضمن إحدى الطرق السائدة الحالية أخذ عينات مباشرة من احتمالية إخراج رمز LLM المميز. على الرغم من أن هذه الطريقة فعالة للإجابات لمرة واحدة (مع بعض القيود)، إلا أنها غير قادرة أيضًا على التعامل مع بعض السيناريوهات، مثل عندما يلزم دمج تسلسل العينة في المتابعة أو تقييمه في المتابعة. لتقليل الاستعلامات النموذجية، استخدم الباحثون عملية إنشاء حلول بدون توقف. وهذا يعني، إنشاء حلول مباشرة ومستمرة للمشاكل الفرعية الرئيسية دون أي توقف مؤقت للجيل.

هناك العديد من الفوائد لهذا النهج. أولاً، تكون جميع الحلول التي تم إنشاؤها في نفس السياق المشترك، مما يلغي الحاجة إلى إنشاء استعلامات نموذجية منفصلة لتقييم كل حل. ثانيًا، على الرغم من أن الأمر قد يبدو غير بديهي في البداية، إلا أن الرموز المميزة المعزولة أو احتمالات تجميع الرموز المميزة قد لا تؤدي دائمًا إلى خيارات ذات معنى. الشكل 4 يعطي رسم تخطيطي بسيط.

**3. قياس احتمالات المشكلات الفرعية. ** كما ذكر أعلاه، تعتمد التقنيات الحالية على إشارات إضافية لتحديد إمكانات العقد الشجرية للمساعدة في اتخاذ القرارات بشأن اتجاهات الاستكشاف. تشير ملاحظاتنا إلى أن LLM يميل بطبيعته إلى إعطاء الأولوية للمرشحين الواعدين إذا كان من الممكن تضمينهم في أمثلة سياقية. وهذا يقلل من الحاجة إلى هندسة معقدة ويسمح بدمج الاستدلالات المتطورة، سواء كانت بديهية أو تعتمد على المعرفة. وبالمثل، لا يوجد أي انقطاع في النهج الجديد، مما يتيح إجراء تقييم فوري لجدوى المرشح ضمن نفس النتائج المتولدة.

**4. التراجع إلى عقدة أفضل. **يعتمد تحديد العقدة التي سيتم استكشافها بعد ذلك (بما في ذلك التراجع إلى العقد السابقة) بشكل أساسي على خوارزمية البحث الشجرية المختارة. على الرغم من أن الأبحاث السابقة استخدمت أساليب خارجية مثل آليات الترميز لعملية البحث، فإن هذا من شأنه أن يحد من جاذبيتها الأوسع ويتطلب تخصيصًا إضافيًا. يعتمد التصميم الجديد المقترح في هذه الورقة بشكل أساسي طريقة DFS المكملة بالتقليم. الهدف هو الحفاظ على القرب بين العقد الفرعية مع نفس العقدة الأصلية، وبالتالي تشجيع LLM على إعطاء الأولوية للميزات المحلية على الميزات البعيدة. بالإضافة إلى ذلك، اقترح الباحثون أيضًا مؤشرات الأداء لطريقة AoT القائمة على BFS. ويقول الباحثون إن الحاجة إلى آليات تخصيص إضافية يمكن التخلص منها من خلال الاستفادة من القدرة المتأصلة للنموذج في استخلاص الأفكار من الأمثلة السياقية.

تجربة

أجرى الباحثون تجارب على ألعاب الكلمات المتقاطعة المصغرة المكونة من 24 نقطة و5x5، وأظهرت النتائج تفوق أسلوب AoT - حيث كان أداؤه يرجع إلى أسلوب واحد (مثل الأسلوب القياسي، CoT، CoT-SC)، وكان أيضًا يمكن مقارنتها باستخدام طرق الآليات الخارجية (مثل ToT).

يتضح من الجدول 1 أن طريقة التصميم القياسية التي تتضمن CoT/CoT-SC تتخلف بشكل واضح عن طريقة البحث الشجري المستخدمة من خلال LLM.

يسلط الجدول 3 الضوء على فعالية AoT في مهمة ملء الكلمات المصغرة، حيث يتجاوز معدل نجاح ملء الكلمات الطرق السابقة باستخدام تقنيات مختلفة.

ومع ذلك، فهو أسوأ من ToT. ملاحظة مهمة هي أن حجم الاستعلام الذي يستخدمه ToT ضخم، ويتجاوز AoT بأكثر من مائة مرة. هناك عامل آخر يجعل AoT أقل شأناً من ToT وهو أن إمكانيات التراجع الكامنة في أمثلة الخوارزمية لم يتم تنشيطها بالكامل. إذا أمكن فتح هذه القدرة بالكامل، فسيؤدي ذلك إلى مرحلة توليد أطول بكثير. في المقابل، يتمتع ToT بميزة استخدام الذاكرة الخارجية للتراجع.

يناقش

هل يمكن لـ AoT تجاوز DFS الذي يحاكيه؟

كما هو موضح في الشكل 5، يستخدم AoT عددًا أقل من العقد بشكل عام مقارنة بإصدار DFS. تتبنى DFS استراتيجية موحدة عند اختيار الأشجار الفرعية لاستكشافها لاحقًا، بينما تدمج LLM الخاصة بـ AoT أساليبها الاستدلالية المتأصلة. يعكس هذا التضخيم للخوارزمية الأساسية ميزة قدرات التفكير التكراري في LLM.

كيف يؤثر اختيار الخوارزمية على أداء AoT؟

يعطي الجدول 5 النتائج التجريبية، ويمكن ملاحظة أن جميع متغيرات AoT الثلاثة تتفوق على أداء CoT ذي الاستعلام الفردي.

هذه النتيجة متوقعة، لأنه مهما كانت الخوارزمية، فإنها تبحث عن الأخطاء المحتملة وتعيد النظر فيها - إما من خلال المحاولات العشوائية في متغير البحث العشوائي، أو من خلال التراجع في تكوينات DFS أو BFS. تجدر الإشارة إلى أن كلا الإصدارين من البحث المنظم، AoT (DFS) وAoT (BFS)، أكثر كفاءة من AoT (عشوائي)، مما يسلط الضوء على مزايا الرؤى الخوارزمية في اكتشاف الحلول. ومع ذلك، AoT (BFS) متخلفة عن AoT (DFS). ومن خلال تحليل أخطاء AoT (BFS)، وجد الباحثون أنه مقارنةً بـ AoT (DFS)، فإن AoT (BFS) أكثر صعوبة في تحديد العمليات المثلى.

إذًا، كيف يمكن لعدد خطوات البحث في مثال الخوارزمية ضبط سلوك AoT؟

ويبين الشكل 6 تأثير العدد الإجمالي لخطوات البحث. من بينها، AoT (طويل) وAoT (قصير) هما على التوالي إصدارات أطول وأقصر من النتائج التي تم إنشاؤها مقارنة بـ AoT الأصلي.

أظهرت النتائج أن عدد خطوات البحث يقدم تحيزًا ضمنيًا في سرعة البحث في LLM. ومن المهم أن نلاحظ أنه حتى عند اتخاذ خطوات خاطئة، فمن المهم التأكيد على استكشاف الاتجاهات ذات الإمكانات.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
مشاركة

تعليق

0/400

لا توجد تعليقات

الموضوع
1/3
1Altcoin Season Coming?
25k درجة الشعبية
2Stablecoin Regulation Crackdown
13k درجة الشعبية
3Gate June Transparency Report
22k درجة الشعبية
4ETH Breaks Through $3,800
25k درجة الشعبية
5Institutions Buying Bitcoin
17k درجة الشعبية

تثبيت

خريطة الموقع