Команда Університету Фудань випускає китайський медичний персональний помічник, у той час як відкритий код 470 000 наборів високоякісних даних

Продемонструйте очевидні переваги в однораундових питаннях і відповідях і багатораундових діалогових медичних і медичних консультаціях.

З розвитком телемедицини онлайн-консультації та консультації все частіше стають першим вибором для пацієнтів, яким потрібна зручна та ефективна медична підтримка. Нещодавно великі мовні моделі (LLM) продемонстрували потужні можливості взаємодії з природною мовою, що дає надію на те, що медичні асистенти увійдуть у життя людей.

Сценарії медичної та медичної консультації зазвичай складні. Особисті помічники повинні мати багаті медичні знання та здатність зрозуміти наміри пацієнта через кілька раундів діалогу та давати професійні та детальні відповіді. Стикаючись з медичними та медичними консультаціями, загальні мовні моделі часто уникають розмови або відповідають на запитання, які не задають через брак медичних знань; у той же час вони, як правило, завершують консультацію на поточному раунді питань і не мають задовільної здатності відповідати на декілька раундів запитань. Крім того, високоякісні китайські набори медичних даних наразі дуже рідкісні, що створює проблему для підготовки потужних мовних моделей у галузі медицини.

Лабораторія інтелекту даних і соціальних обчислень Університету Фудань (FudanDISC) випустила китайського медичного та медичного персонального помічника - DISC-MedLLM. Під час однораундового оцінювання медичних і медичних консультацій у формі запитань і відповідей і багатораундового діалогу ефективність моделі показує очевидні переваги порівняно з існуючими великими моделями медичного діалогу. Дослідницька група також випустила набір даних високоякісного контрольованого тонкого налаштування (SFT) із 470 000 даних – DISC-Med-SFT, а параметри моделі та технічні звіти також були відкритими.

  • Адреса домашньої сторінки: *Адреса Github:
  • Технічні звіти:

1. Зразок відображення

Малюнок 1: Приклад діалогу

Коли пацієнти почуваються погано, вони можуть проконсультуватися з моделлю та описати свої симптоми. Модель надасть можливі причини, рекомендовані плани лікування тощо як довідку. Якщо інформації бракує, вона завчасно запитає детальний опис симптомів.

Малюнок 2: Діалог у сцені консультації

Користувачі також можуть задавати моделі специфічні консультаційні запитання на основі стану свого здоров’я, і модель надасть докладні та корисні відповіді та завчасно задаватиме запитання, коли інформації бракує, щоб підвищити доречність і точність відповідей.

Рисунок 3: Діалог на основі консультації щодо самопочуття

Користувачі також можуть запитувати про медичні знання, які не мають відношення до них самих, і модель відповість максимально професійно, щоб користувачі могли зрозуміти це всебічно та точно.

Рисунок 4: Діалог із запитами про медичні знання, який не має нічого спільного з вами

2、Знайомство з DISC-MedLLM

DISC-MedLLM — це велика медична модель, навчена на великій китайській моделі загального домену Baichuan-13B на основі створеного нами високоякісного набору даних DISC-Med-SFT. Примітно, що наші навчальні дані та метод навчання можна адаптувати до будь-якої базової великої моделі.

DISC-MedLLM має три ключові особливості:

  • Надійні та багаті професійні знання. Ми використовуємо граф медичних знань як джерело інформації, вибіркові трійки та використовуємо мовні можливості загальної великої моделі для побудови діалогових зразків.
  • Можливість запиту для кількох раундів діалогу. Ми використовуємо реальні записи діалогу консультації як джерело інформації та використовуємо великі моделі для реконструкції діалогу.У процесі побудови модель повинна повністю узгодити медичну інформацію в діалозі.
  • Узгодьте відповіді з уподобаннями людини. Пацієнти сподіваються отримати повнішу допоміжну інформацію та базові знання під час процесу консультації, але відповіді лікарів-людей часто лаконічні; ми створюємо високоякісні невеликі зразки інструкцій шляхом ручної перевірки, щоб узгодити їх із потребами пацієнтів.

Переваги моделі та структури побудови даних показано на малюнку 5. Ми розрахували реальний розподіл пацієнтів із реальних сценаріїв консультацій, щоб керувати побудовою вибірки набору даних. На основі графіка медичних знань і реальних даних консультацій ми використали дві ідеї: велика модель у циклі та люди в цикл для створення набору даних.

Малюнок 5: Структура DISC-Med-SFT

3. Метод: Побудова набору даних DISC-Med-SFT

Під час процесу навчання моделі ми доповнили DISC-Med-SFT загальними наборами даних домену та зразками даних із існуючих корпусів, щоб сформувати DISC-Med-SFT-ext. Деталі представлені в таблиці 1.

Таблиця 1: Представлення вмісту даних DISC-Med-SFT-ext

Реконструкція ШІ діалог лікаря і пацієнта

набір даних. 400 000 і 20 000 зразків було випадковим чином відібрано з двох публічних наборів даних, MedDialog і cMedQA2, відповідно, як вихідні зразки для створення набору даних SFT.

рефактор. Щоб налаштувати реальні відповіді лікарів у необхідні високоякісні відповіді уніфікованого формату, ми використовуємо GPT-3.5 для завершення процесу реконструкції цього набору даних. Слово підказки вимагає переписування відповідно до таких принципів:

  • Видаліть словесні вирази, витягніть уніфіковані вирази та виправте невідповідності у використанні мови лікарів.
  • Дотримуйтесь ключової інформації в оригінальній відповіді лікаря та надайте відповідні пояснення, щоб бути більш вичерпними та логічними.
  • Перепишіть або видаліть відповіді, які лікарі штучного інтелекту не повинні надсилати, як-от прохання пацієнтів записатися на прийом.

На рисунку 6 показаний приклад рефакторингу. Скоригована відповідь лікаря узгоджується з особою фельдшера ШІ, який не тільки дотримується ключової інформації, наданої початковим лікарем, але й надає пацієнтам більш комплексну допомогу.

Малюнок 6: Приклад переписування діалогу

Пари запитань і відповідей на карті знань

Граф медичних знань містить велику кількість добре організованої медичної експертизи, на основі якої можна генерувати менш шумні навчальні зразки QA. Базуючись на CMeKG, ми взяли вибірку в графі знань відповідно до інформації департаменту про вузли захворювання та використали належним чином розроблені моделі GPT-3.5, щоб створити загалом понад 50 000 різноманітних зразків діалогу медичної сцени.

Набір даних про поведінкові переваги

На завершальному етапі навчання, щоб ще більше покращити продуктивність моделі, ми використовуємо набір даних, який більше відповідає уподобанням поведінки людини для вторинного контрольованого тонкого налаштування. Близько 2000 високоякісних різноманітних зразків було вручну відібрано з двох наборів даних MedDialog і cMedQA2. Після переписування кількох прикладів і їх редагування вручну до GPT-4 ми використали метод невеликої вибірки, щоб надати їх у GPT-3.5, генеруючи високий - якісні набори даних про поведінкові переваги.

інший

Загальні дані. Щоб збагатити різноманітність навчального набору та зменшити ризик деградації базових можливостей моделі під час етапу навчання SFT, ми випадковим чином вибрали кілька зразків із двох загальних контрольованих наборів даних для точного налаштування moss-sft-003 і alpaca gpt4 data ж.

MedMCQA. Щоб розширити можливості моделі для запитань і відповідей, ми вибрали MedMCQA, набір даних із запитаннями з кількома варіантами відповідей в галузі медицини англійською мовою, і використали GPT-3.5 для оптимізації запитань і правильних відповідей у запитаннях з кількома варіантами відповідей, створивши близько 8000 професійних китайських зразки медичних запитань і відповідей.

4. Експеримент

поїзд. Як показано на малюнку нижче, процес навчання DISC-MedLLM розділений на два етапи SFT.

Малюнок 7: Двоетапний процес навчання

оцінка. Ефективність медичних LLM оцінюється за двома сценаріями, а саме однораундовим QA та багаточерговим діалогом.

  1. Однораундове оцінювання якості: щоб оцінити точність моделі з точки зору медичних знань, ми витягли понад 1500 запитань із множинним вибором відповідей із Національного медичного ліцензійного іспиту Китаю (NMLEC) і Національного вступного іспиту для магістра (NEEP). Західна медицина 306 спеціальностей, щоб оцінити ефективність моделі в одному раунді забезпечення якості.
  2. Оцінка багатоповоротного діалогу: щоб систематично оцінити діалогову здатність моделі, ми почали з трьох загальнодоступних наборів даних – Китайського медичного порівняльного аналізу (CMB-Clin), Китайського медичного діалогового набору даних (CMD) і китайського медичного набору даних ( CMID) випадковим чином відбирає зразки та використовує GPT-3.5, щоб грати роль пацієнтів і розмовляти з моделлю. Запропоновано чотири показники оцінки - ініціативність, точність, корисність і якість мови, які оцінюються GPT-4.

Результати оцінювання

Порівняти моделі. Наша модель порівнюється з трьома загальними LLM і двома китайськими медичними розмовними LLM. Включаючи OpenAI GPT-3.5, GPT-4, Baichuan-13B-Chat; BianQue-2 і HuatuoGPT-13B.

Один раунд результатів QA. Загальні результати оцінювання з вибором відповідей наведено в таблиці 2. GPT-3.5 демонструє явну перевагу. DISC-MedLLM посів друге місце в установці невеликої вибірки і посів третє місце після Baichuan-13B-Chat в установці нульової вибірки. Примітно, що ми перевершуємо HuatuoGPT (13B), навчений із налаштуванням навчання з підкріпленням.

Таблиця 2: Результати оцінювання запитання з одним відповідним вибором

Результати кількох раундів діалогу. В оцінці CMB-Clin DISC-MedLLM отримав найвищу загальну оцінку, за нею слідує HuatuoGPT. Наша модель отримала найвищий бал за критерієм позитивності, підкреслюючи ефективність нашого підходу до навчання, який зміщує моделі поведінки лікаря. Результати наведені в таблиці 3.

Таблиця 3: Результати CMB-clin

У зразку CMD, як показано на малюнку 8, GPT-4 отримав найвищу оцінку, а потім GPT-3,5. Загальні показники продуктивності моделей DISC-MedLLM і HuatuoGPT у сфері медицини однакові, а їх продуктивність у різних відділах є видатною.

Малюнок 8: Результати CMD

Ситуація CMID подібна до ситуації CMD, як показано на малюнку 9, GPT-4 і GPT-3.5 зберігають лідерство. За винятком серії GPT, DISC-MedLLM показав найкращі результати. Він працює краще, ніж HuatuoGPT, у трьох цілях: хвороба, план лікування та ліки.

Малюнок 9: Результати CMID

Неузгоджена продуктивність кожної моделі між CMB-Clin і CMD/CMID може бути пов’язана з різним розподілом даних між трьома наборами даних. CMD і CMID містять більш конкретні зразки запитань, і пацієнти могли отримати діагноз і висловити чіткі потреби під час опису симптомів, і навіть запитання та потреби пацієнтів можуть не бути пов’язаними з особистим станом здоров’я. З цією ситуацією краще справляються моделі загального призначення GPT-3.5 і GPT-4, які відрізняються багатьма аспектами.

5. Резюме

Набір даних DISC-Med-SFT використовує сильні сторони та можливості діалогу в реальному світі та домену LLM загального призначення, а також здійснив цілеспрямовані вдосконалення за трьома аспектами: знання предметної області, навички медичного діалогу та переваги людини; навчання високоякісних наборів даних відмінний DISC-MedLLM, широкомасштабна медична модель, досягла значного покращення в медичній взаємодії, демонструє високу зручність використання та демонструє великий потенціал застосування.

Дослідження в цій галузі відкриють більше перспектив і можливостей для зниження онлайн-медичних витрат, просування медичних ресурсів і досягнення балансу. DISC-MedLLM надасть зручні та персоналізовані медичні послуги більшій кількості людей і зробить внесок у справу загального здоров’я.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити