أصدر فريق جامعة فودان مساعدًا شخصيًا طبيًا وصحيًا صينيًا، و470 ألف مجموعة بيانات عالية الجودة مفتوحة المصدر

إظهار مزايا واضحة في جولة واحدة من الأسئلة والأجوبة وتقييمات الاستشارات الطبية والصحية متعددة الجولات.

مع ظهور التطبيب عن بعد، أصبحت الاستشارة عبر الإنترنت بشكل متزايد الخيار الأول للمرضى الذين يبحثون عن دعم طبي مناسب وفعال. في الآونة الأخيرة، أظهرت نماذج اللغة الكبيرة (LLM) قدرات قوية في التفاعل مع اللغة الطبيعية، مما جلب الأمل للمساعدين الطبيين الصحيين لدخول حياة الناس.

عادة ما تكون سيناريوهات الاستشارة الطبية والصحية معقدة، حيث يحتاج المساعدون الشخصيون إلى معرفة طبية غنية والقدرة على فهم نوايا المريض من خلال جولات متعددة من الحوار وتقديم استجابات احترافية ومفصلة. عند مواجهة الاستشارات الطبية والصحية، غالبًا ما يتجنب نماذج اللغة العامة التحدث أو الإجابة على الأسئلة التي لم يتم طرحها بسبب نقص المعرفة الطبية، وفي الوقت نفسه، يميلون إلى إكمال الاستشارة حول الجولة الحالية من الأسئلة ويفتقرون إلى القدرة المرضية على الإجابة متابعة جولات متعددة من الأسئلة. بالإضافة إلى ذلك، تعد مجموعات البيانات الطبية الصينية عالية الجودة نادرة جدًا حاليًا، مما يشكل تحديًا لتدريب نماذج لغوية قوية في المجال الطبي.

أطلق مختبر ذكاء البيانات والحوسبة الاجتماعية بجامعة فودان (FudanDISC) المساعد الشخصي الطبي والصحي الصيني - DISC-MedLLM. في تقييمات الاستشارة الطبية والصحية ذات الجولة الواحدة من الأسئلة والأجوبة والحوار متعدد الجولات، يُظهر أداء النموذج مزايا واضحة مقارنة بنماذج الحوار الطبي الكبيرة الحالية. أصدرت مجموعة البحث أيضًا مجموعة بيانات عالية الجودة للضبط الدقيق (SFT) مكونة من 470,000 - DISC-Med-SFT، كما كانت معلمات النموذج والتقارير الفنية مفتوحة المصدر أيضًا.

*عنوان الصفحة الرئيسية:

  • عنوان جيثب:
  • التقارير الفنية:

1. عرض العينة

الشكل 1: مثال على الحوار

عندما يشعر المرضى بالتوعك، يمكنهم أن يطلبوا من النموذج وصف أعراضهم الخاصة. سيقدم النموذج الأسباب المحتملة وخيارات العلاج الموصى بها كمرجع. عندما يكون هناك نقص في المعلومات، سيطلب النموذج بنشاط وصفًا تفصيليًا للأعراض .

الشكل 2: الحوار في مشهد التشاور

يمكن للمستخدمين أيضًا طرح أسئلة استشارية محددة للنموذج بناءً على ظروفهم الصحية الخاصة، وسيقدم النموذج إجابات مفصلة ومفيدة ويطرح الأسئلة بشكل استباقي عند نقص المعلومات لتعزيز ملاءمة ودقة الإجابات.

الشكل 3: الحوار المبني على التشاور حول الحالة الصحية للشخص

يمكن للمستخدمين أيضًا أن يسألوا عن المعرفة الطبية التي لا علاقة لها بأنفسهم، وسوف يجيب النموذج بشكل احترافي قدر الإمكان، حتى يتمكن المستخدمون من فهمها بشكل شامل ودقيق.

الشكل 4: حوار الاستفسار عن المعرفة الطبية الذي لا علاقة له بنفسك

2、مقدمة DISC-MedLLM

DISC-MedLLM هو نموذج طبي كبير تم تدريبه على النموذج الصيني الكبير ذو النطاق العام Baichuan-13B استنادًا إلى مجموعة البيانات عالية الجودة DISC-Med-SFT. تجدر الإشارة إلى أنه يمكن تكييف بيانات التدريب وطرق التدريب لدينا مع أي نموذج أساسي كبير.

يحتوي DISC-MedLLM على ثلاث ميزات رئيسية:

  • معرفة مهنية موثوقة وغنية. نحن نستخدم الرسم البياني للمعرفة الطبية كمصدر للمعلومات، وعينة ثلاثية، ونستخدم القدرات اللغوية للنموذج الكبير العام لبناء عينات الحوار.
  • القدرة على الاستفسار عن جولات متعددة من الحوار. نحن نستخدم سجلات حوار الاستشارة الحقيقية كمصدر للمعلومات ونستخدم نماذج كبيرة لإعادة بناء الحوار.خلال عملية البناء، يكون النموذج مطلوبًا لمواءمة المعلومات الطبية في الحوار بشكل كامل.
  • محاذاة الاستجابات لتفضيلات الإنسان. يأمل المرضى في الحصول على معلومات داعمة ومعرفة أساسية أكثر ثراءً أثناء عملية الاستشارة، لكن إجابات الأطباء البشريين غالبًا ما تكون موجزة؛ فنحن نبني عينات تعليمية عالية الجودة وصغيرة الحجم من خلال الفحص اليدوي لتتوافق مع احتياجات المرضى.

تظهر نقاط القوة في النموذج وإطار بناء البيانات في الشكل 5. نقوم بحساب التوزيع الحقيقي للمرضى من سيناريوهات الاستشارة الحقيقية لتوجيه بناء عينة مجموعة البيانات. واستنادًا إلى خريطة المعرفة الطبية وبيانات الاستشارة الحقيقية، نستخدم فكرتين لنموذج كبير في الحلقة والأشخاص في الحلقة لبناء مجموعة البيانات.

الشكل 5: هيكل DISC-Med-SFT

3. الطريقة: بناء مجموعة البيانات DISC-Med-SFT

خلال عملية التدريب النموذجية، قمنا بتكملة DISC-Med-SFT بمجموعات بيانات المجال العام وعينات البيانات من المجموعات الموجودة لتشكيل DISC-Med-SFT-ext، وترد التفاصيل في الجدول 1.

الجدول 1: مقدمة لمحتوى بيانات DISC-Med-SFT-ext

إعادة الإعمار حوار الذكاء الاصطناعي بين الطبيب والمريض

مجموعة البيانات. يتم اختيار 400000 و20000 عينة بشكل عشوائي من مجموعتي بيانات عامتين، MedDialog وcMedQA2، على التوالي، كعينات مصدر لبناء مجموعة بيانات SFT.

إعادة البناء. من أجل تكييف استجابات الطبيب في العالم الحقيقي مع الاستجابات المطلوبة عالية الجودة بتنسيق موحد، نستخدم GPT-3.5 لإكمال عملية إعادة بناء مجموعة البيانات هذه. تتطلب الكلمة (الكلمات) السريعة إعادة كتابتها لاتباع المبادئ التالية:

  • إزالة التعابير اللفظية واستخراج التعابير الموحدة وتصحيح التناقضات في استخدام لغة الأطباء.
  • التزم بالمعلومات الأساسية في إجابة الطبيب الأصلية وقدم التفسيرات المناسبة لجعلها أكثر شمولاً ومنطقية.
  • إعادة كتابة أو حذف الردود التي لا ينبغي لأطباء الذكاء الاصطناعي إرسالها، مثل مطالبة المرضى بتحديد موعد.

ويبين الشكل 6 مثالا على إعادة البناء. تتوافق إجابة الطبيب المعدلة مع هوية المساعد الطبي المعتمد على الذكاء الاصطناعي، والذي لا يلتزم فقط بالمعلومات الأساسية التي يقدمها الطبيب الأصلي، ولكنه يوفر أيضًا للمرضى مساعدة أكثر ثراءً وشمولاً.

الشكل 6: مثال على إعادة كتابة الحوار

أزواج أسئلة وأجوبة خريطة المعرفة

يحتوي الرسم البياني للمعرفة الطبية على قدر كبير من الخبرة الطبية جيدة التنظيم، والتي يمكن على أساسها إنشاء عينات تدريب أقل ضجيجًا لضمان الجودة. استنادًا إلى CMeKG، نقوم بأخذ عينات من الرسم البياني المعرفي وفقًا لمعلومات الأقسام الخاصة بعقد المرض، ونستخدم نماذج GPT-3.5 المصممة بشكل مناسب لإنشاء إجمالي أكثر من 50000 عينة حوار متنوعة للمشهد الطبي.

مجموعة بيانات التفضيلات السلوكية

في المرحلة النهائية من التدريب، ومن أجل تحسين أداء النموذج بشكل أكبر، نستخدم مجموعة بيانات أكثر انسجامًا مع تفضيلات السلوك البشري للضبط الدقيق الثانوي الخاضع للإشراف. تم اختيار حوالي 2000 عينة متنوعة وعالية الجودة يدويًا من مجموعتي بيانات MedDialog وcMedQA2. بعد إعادة كتابة العديد من الأمثلة ومراجعتها يدويًا إلى GPT-4، استخدمنا طريقة العينة الصغيرة لتزويدها بـ GPT-3.5، مما أدى إلى توليد نتائج عالية -مجموعات بيانات التفضيلات السلوكية عالية الجودة.

آخر

بيانات عامة. من أجل إثراء تنوع مجموعة التدريب وتقليل خطر تدهور القدرة الأساسية للنموذج أثناء مرحلة تدريب SFT، اخترنا بشكل عشوائي عدة عينات من مجموعتي بيانات ضبط دقيقتين عامتين تحت الإشراف moss-sft-003 وalpaca gpt4 data zh.

MedMCQA. من أجل تعزيز قدرة النموذج على الإجابة على الأسئلة، اخترنا MedMCQA، وهي مجموعة بيانات متعددة الاختيارات في المجال الطبي باللغة الإنجليزية، وقمنا بتحسين الأسئلة والإجابات الصحيحة في أسئلة الاختيار المتعدد باستخدام GPT-3.5، وتوليد حوالي 8000 محترف عينات الأسئلة والأجوبة الطبية الصينية.

4. التجربة

يدرب. كما هو موضح في الشكل أدناه، تنقسم عملية تدريب DISC-MedLLM إلى مرحلتين SFT.

الشكل 7: عملية التدريب على مرحلتين

مراجعة. يتم تقييم أداء LLMs الطبية في سيناريوهين، وهما ضمان الجودة في جولة واحدة والحوار متعدد الجولات.

  1. تقييم ضمان الجودة في جولة واحدة: من أجل تقييم دقة النموذج من حيث المعرفة الطبية، استخرجنا أكثر من 1500 سؤال متعدد الاختيارات من امتحان التأهيل الطبي الوطني الصيني (NMLEC) والامتحان الوطني للقبول للدراسات العليا (NEEP) الطب الغربي 306 تخصص، تقييم أداء النموذج في جولة واحدة من ضمان الجودة.
  2. تقييم الحوار متعدد المنعطفات: من أجل إجراء تقييم منهجي لقدرة النموذج على الحوار، بدأنا من ثلاث مجموعات بيانات عامة - المعيار الطبي الصيني (CMB-Clin)، ومجموعة بيانات الحوار الطبي الصيني (CMD)، ومجموعة بيانات النوايا الطبية الصينية ( CMID) وGPT-3.5 يلعبان دور المريض والحوار مع النموذج. تم اقتراح أربعة مؤشرات للتقييم - المبادرة والدقة والفائدة وجودة اللغة، والتي تم تسجيلها بواسطة GPT-4.

نتائج التقييم

قارن النماذج. تتم مقارنة نموذجنا مع ثلاثة ماجستير في القانون العام واثنين من ماجستير المحادثة الطبية الصينية. بما في ذلك OpenAI's GPT-3.5 وGPT-4 وBaichuan-13B-Chat وBianQue-2 وHuatuoGPT-13B.

نتائج ضمان الجودة لجولة واحدة. وترد النتائج الإجمالية لتقييم الاختيار من متعدد في الجدول 2. يُظهر GPT-3.5 تقدمًا واضحًا. حقق DISC-MedLLM المركز الثاني في إعداد العينة الصغيرة واحتل المرتبة الثالثة خلف Baichuan-13B-Chat في إعداد العينة الصفرية. والجدير بالذكر أننا نتفوق على HuatuoGPT (13B) المدربين من خلال إعداد التعلم المعزز.

الجدول 2: نتائج تقييم سؤال الاختيار الواحد

نتائج جولات متعددة من الحوار. وفي تقييم CMB-Clin، حقق DISC-MedLLM أعلى الدرجات الإجمالية، يليه HuatuoGPT. سجل نموذجنا أعلى النتائج في معيار الإيجابية، مما يسلط الضوء على فعالية نهجنا التدريبي الذي يتحيز لأنماط السلوك الطبي. وتظهر النتائج في الجدول 3.

الجدول 3: نتائج CMB-clin

في عينة CMD، كما هو موضح في الشكل 8، حصل GPT-4 على أعلى الدرجات، يليه GPT-3.5. إن درجات الأداء الإجمالية للنموذجين DISC-MedLLM وHuatuoGPT في المجال الطبي هي نفسها، وأداؤهما في الأقسام المختلفة رائع.

الشكل 8: نتيجة CMD

حالة CMID مشابهة لحالة CMD، كما هو موضح في الشكل 9، يحتفظ GPT-4 وGPT-3.5 بالصدارة. باستثناء سلسلة GPT، كان أداء DISC-MedLLM هو الأفضل. إنه يؤدي أداءً أفضل من HuatuoGPT في ثلاثة أغراض: المرض وخطة العلاج والدواء.

الشكل 9: نتائج CMID

قد يكون الأداء غير المتناسق لكل نموذج بين CMB-Clin وCMD/CMID بسبب اختلاف توزيع البيانات بين مجموعات البيانات الثلاث. يحتوي CMD وCMID على عينات أسئلة أكثر وضوحًا، وربما يكون المرضى قد حصلوا على تشخيص وعبروا عن احتياجات واضحة عند وصف الأعراض، وقد لا تكون لأسئلة المريض واحتياجاته أي علاقة بحالته الصحية الشخصية. إن الطرازين المخصصين للأغراض العامة GPT-3.5 وGPT-4، اللذان يتفوقان في العديد من الجوانب، أفضل في التعامل مع هذا الموقف.

5. الملخص

تستفيد مجموعة بيانات DISC-Med-SFT من مزايا وقدرات الحوار في العالم الحقيقي والمجال العام LLM لتعزيز ثلاثة جوانب على وجه التحديد: معرفة المجال، ومهارات الحوار الطبي، والتفضيلات البشرية؛ تقوم مجموعة البيانات عالية الجودة بتدريب DISC-Med-SFT بشكل ممتاز. لقد حقق MedLLM، وهو نموذج طبي واسع النطاق، تحسنًا كبيرًا في التفاعل الطبي، ويظهر قابلية استخدام عالية، ويُظهر إمكانات تطبيقية كبيرة.

إن البحث في هذا المجال سيجلب المزيد من الآفاق والإمكانيات لتقليل التكاليف الطبية عبر الإنترنت وتعزيز الموارد الطبية وتحقيق التوازن. سوف يقدم DISC-MedLLM خدمات طبية مريحة وشخصية لعدد أكبر من الأشخاص ويساهم في قضية الصحة العامة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت