Команда Университета Фудань выпустила китайского личного помощника в области медицины и здравоохранения, а также открыла исходный код 470 000 наборов высококачественных данных

Продемонстрируйте очевидные преимущества при проведении одноэтапных вопросов и ответов и многораундовых диалоговых медицинских консультаций и оценок состояния здоровья.

С развитием телемедицины онлайн-консультации и консультации все чаще становятся первым выбором для пациентов, которым нужна удобная и эффективная медицинская поддержка. Недавно модель большого языка (LLM) продемонстрировала сильные возможности взаимодействия на естественном языке, вселяя надежду на то, что медицинские помощники и помощники врачей войдут в жизнь людей.

Сценарии медицинских и медицинских консультаций обычно сложны.Личные помощники должны обладать богатыми медицинскими знаниями и способностью понимать намерения пациента посредством нескольких раундов диалога и давать профессиональные и подробные ответы. При обращении к врачам и медицинским консультациям общеязыковые модели часто избегают разговора или ответа на вопросы, которые не задаются из-за недостатка медицинских знаний; в то же время они склонны завершать консультацию по текущему кругу вопросов и не имеют удовлетворительной способности ответить на них. задайте несколько раундов вопросов. Кроме того, современные наборы высококачественных китайских медицинских данных также очень редки, что создает проблему для обучения мощных языковых моделей в медицинской сфере.

Лаборатория анализа данных и социальных вычислений Фуданьского университета (FudanDISC) выпустила китайского личного помощника в области медицины и здравоохранения — DISC-MedLLM. В однораундовых оценках вопросов и ответов и многораундовых диалоговых оценках медицинских консультаций и медицинских консультаций эффективность модели демонстрирует очевидные преимущества по сравнению с существующими моделями крупного медицинского диалога. Исследовательская группа также опубликовала высококачественный набор данных контролируемой точной настройки (SFT) из 470 000 - DISC-Med-SFT, а параметры модели и технические отчеты также были доступны в открытом доступе.

  • Адрес домашней страницы:
  • Адрес Гитхаба:
  • Технические отчеты:

1. Пример отображения

Рисунок 1: Пример диалога

Когда пациенты чувствуют себя плохо, они могут обратиться к модели и описать свои симптомы. Модель предоставит в качестве справочного материала возможные причины, рекомендуемые планы лечения и т. д. Когда информации не хватает, она заранее запросит подробное описание симптомов.

Рисунок 2: Диалог на сцене консультации

Пользователи также могут задавать модели конкретные консультационные вопросы, исходя из состояния их собственного здоровья, и модель будет давать подробные и полезные ответы и активно задавать вопросы, когда информации не хватает, чтобы повысить актуальность и точность ответов.

Рисунок 3: Диалог на основе консультации о состоянии собственного здоровья

Пользователи также могут спрашивать о медицинских знаниях, не имеющих к ним никакого отношения, и модель ответит максимально профессионально, чтобы пользователи могли понять ее комплексно и точно.

Рисунок 4: Диалог с запросом медицинских знаний, не имеющий ничего общего с вами

2、Введение в DISC-MedLLM

DISC-MedLLM — это большая медицинская модель, обученная на общей китайской большой модели Baichuan-13B на основе созданного нами высококачественного набора данных DISC-Med-SFT. Стоит отметить, что наши обучающие данные и методы обучения можно адаптировать к любой базовой большой модели.

DISC-MedLLM имеет три ключевые особенности:

  • Надежные и богатые профессиональные знания. Мы используем граф медицинских знаний в качестве источника информации, тройки выборок и используем языковые возможности общей большой модели для построения выборок диалогов.
  • Возможность запроса для нескольких раундов диалога. В качестве источника информации мы используем записи реальных диалогов консультаций, а также используем большую модель для реконструкции диалога.В процессе построения модель должна быть полностью согласована с медицинской информацией в диалоге.
  • Согласуйте ответы с человеческими предпочтениями. Пациенты надеются получить более обширную вспомогательную информацию и базовые знания в процессе консультации, но ответы врачей-людей часто бывают краткими; посредством ручного скрининга мы создаем высококачественные небольшие образцы инструкций, соответствующие потребностям пациентов.

Сильные стороны модели и структуры построения данных показаны на рисунке 5. Мы рассчитываем реальное распределение пациентов на основе реальных сценариев консультаций, чтобы определить выборку набора данных. На основе карты медицинских знаний и данных реальных консультаций мы используем две идеи: большая модель в цикле и люди в цикле, чтобы построить набор данных.

Рисунок 5: Структура DISC-Med-SFT

3. Метод: Построение набора данных DISC-Med-SFT

В процессе обучения модели мы дополнили DISC-Med-SFT наборами данных общей предметной области и выборками данных из существующих корпусов, чтобы сформировать DISC-Med-SFT-ext. Подробности представлены в таблице 1.

Таблица 1: Представление содержания данных DISC-Med-SFT-ext

Реконструкция Диалог ИИ-врача и пациента

набор данных. 400 000 и 20 000 образцов были случайным образом выбраны из двух общедоступных наборов данных, MedDialog и cMedQA2, соответственно, в качестве исходных образцов для построения набора данных SFT.

Рефакторинг. Чтобы преобразовать ответы реальных врачей в требуемые высококачественные ответы в едином формате, мы используем GPT-3.5 для завершения процесса реконструкции этого набора данных. Слова-подсказки требуют переписывания в соответствии со следующими принципами:

  • Удалите словесные выражения, извлеките унифицированные выражения и исправьте несоответствия в использовании языка врачами.
  • Придерживайтесь ключевой информации в исходном ответе врача и дайте соответствующие объяснения, чтобы они были более полными и логичными.
  • Перепишите или удалите ответы, которые врачи ИИ не должны отправлять, например, просьбу пациентов записаться на прием.

На рис. 6 показан пример рефакторинга. Скорректированный ответ врача соответствует личности искусственного фельдшера, который не только придерживается ключевой информации, предоставленной первоначальным врачом, но и предоставляет пациентам более богатую и всестороннюю помощь.

Рисунок 6: Пример переписывания диалога

Карта знаний, пары вопросов и ответов

Граф медицинских знаний содержит большое количество хорошо организованных медицинских знаний, на основе которых могут быть созданы образцы обучения обеспечению качества с меньшим шумом. На основе CMeKG мы отбираем граф знаний в соответствии с ведомственной информацией об узлах заболеваний и используем специально разработанные модели GPT-3.5 для создания в общей сложности более 50 000 различных образцов диалогов в медицинских сценах.

Набор данных о поведенческих предпочтениях

На заключительном этапе обучения, чтобы еще больше повысить производительность модели, мы выполняем вторичную контролируемую точную настройку с использованием набора данных, который более соответствует поведенческим предпочтениям человека. Из двух наборов данных MedDialog и cMedQA2 вручную было отобрано около 2000 высококачественных разнообразных образцов. После переписывания нескольких примеров и ручной доработки их до GPT-4, мы использовали метод малых выборок, чтобы предоставить их GPT-3.5, генерируя высокие - качественные наборы данных о поведенческих предпочтениях.

другой

Общие данные. Чтобы обогатить разнообразие обучающего набора и снизить риск ухудшения основных возможностей модели на этапе обучения SFT, мы случайным образом выбрали несколько образцов из двух общих контролируемых наборов данных тонкой настройки moss-sft-003 и alpaca gpt4 data zh.

МедМККА. Чтобы расширить возможности модели в вопросах и ответах, мы выбрали MedMCQA, набор данных вопросов с несколькими вариантами ответов в английской медицинской сфере, и использовали GPT-3.5 для оптимизации вопросов и правильных ответов на вопросы с несколькими вариантами ответов, в результате чего было создано около 8000 профессиональных китайцев. Образцы медицинских вопросов и ответов. .

4. Эксперимент

тренироваться. Как показано на рисунке ниже, процесс обучения DISC-MedLLM разделен на два этапа SFT.

Рисунок 7: Двухэтапный процесс обучения

Обзор. Эффективность медицинских программ LLM оценивается по двум сценариям: одноэтапный контроль качества и многораундовый диалог.

  1. Одноэтапная оценка качества: чтобы оценить точность модели с точки зрения медицинских знаний, мы извлекли более 1500 вопросов с несколькими вариантами ответов из китайского национального квалификационного медицинского экзамена (NMLEC) и национального вступительного экзамена в аспирантуру (NEEP). Western Medicine 306 major, чтобы оценить эффективность модели за один раунд контроля качества.
  2. Многораундовая оценка диалога. Чтобы систематически оценивать способность модели к диалогу, мы используем три общедоступных набора данных: китайскую медицинскую эталонную оценку (CMB-Clin), китайский медицинский диалоговый набор данных (CMD) и китайский медицинский набор данных намерений (CMID). ) случайным образом выбирает образцы, а GPT-3.5 играет роль диалога пациента и модели и предлагает четыре показателя оценки: инициативность, точность, полезность и качество языка, которые оцениваются GPT-4.

Результат оценки

Сравните модели. Сравните нашу модель с тремя LLM общего назначения и двумя китайскими медицинскими LLM. Включая GPT-3.5, GPT-4, Baichuan-13B-Chat от OpenAI, BianQue-2 и HuatuoGPT-13B.

Один раунд результатов контроля качества. Общие результаты оценки с несколькими вариантами ответов показаны в таблице 2. GPT-3.5 демонстрирует явное преимущество. DISC-MedLLM занял второе место в условиях небольшой выборки и третье место после Baichuan-13B-Chat в условиях нулевой выборки. Примечательно, что мы превосходим HuatuoGPT (13B), обученного с использованием настроек обучения с подкреплением.

Таблица 2: Результаты оценки вопросов с одним выбором

Результаты нескольких раундов диалога. В оценке CMB-Clin DISC-MedLLM получил наивысший общий балл, за ним следует HuatuoGPT. Наша модель получила наивысший балл по критерию положительности, что подчеркивает эффективность нашего подхода к обучению, который искажает модели медицинского поведения. Результаты показаны в таблице 3.

Таблица 3: Результаты CMB-clin

В образце CMD, как показано на рисунке 8, GPT-4 получил наивысший балл, за ним следует GPT-3,5. Общие показатели производительности моделей DISC-MedLLM и HuatuoGPT в медицинской сфере одинаковы, а их производительность в различных отделах является выдающейся.

Рисунок 8: Результат CMD

Ситуация с CMID аналогична ситуации с CMD, как показано на рисунке 9, где лидерство сохраняют GPT-4 и GPT-3.5. За исключением серии GPT, DISC-MedLLM показал лучшие результаты. Он превзошел HuatuoGPT по трем критериям: заболевание, схема лечения и препарат.

Рисунок 9: Результаты CMID

Несогласованная производительность каждой модели между CMB-Clin и CMD/CMID может быть связана с различным распределением данных между тремя наборами данных. CMD и CMID содержат более конкретные образцы вопросов, и пациенты могут получить диагноз и выразить четкие потребности при описании симптомов, и даже вопросы и потребности пациентов могут не быть связаны с личным состоянием здоровья. Лучше справляются с этой ситуацией универсальные модели GPT-3,5 и GPT-4, превосходящие их по многим параметрам.

5. Резюме

Набор данных DISC-Med-SFT использует сильные стороны и возможности реального диалога и LLM общего назначения, а также внес целевые улучшения по трем аспектам: знание предметной области, навыки медицинского диалога и человеческие предпочтения; высококачественные наборы данных обучают отлично Большая медицинская модель DISC-MedLLM достигла значительных улучшений в медицинском взаимодействии, демонстрирует высокое удобство использования и большой потенциал применения.

Исследования в этой области откроют больше перспектив и возможностей для сокращения расходов на онлайн-медицину, продвижения медицинских ресурсов и достижения баланса. DISC-MedLLM предоставит удобные и персонализированные медицинские услуги большему количеству людей и сыграет важную роль в улучшении общего состояния здоровья.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить