Equipe da Universidade Fudan lança assistente pessoal médico e de saúde chinês, enquanto abre 470.000 conjuntos de dados de alta qualidade

Vantagens óbvias demonstradas em avaliações de consultas médicas e de saúde em rodada única e diálogo em múltiplas rodadas.

Com o surgimento da telemedicina, as consultas e consultas on-line tornaram-se cada vez mais a primeira escolha para pacientes que buscam suporte médico conveniente e eficiente. Recentemente, o modelo de linguagem grande (LLM) demonstrou fortes capacidades de interação de linguagem natural, trazendo esperança para que os assistentes médicos e de saúde entrem na vida das pessoas.

Os cenários de consultas médicas e de saúde são geralmente complexos e os assistentes pessoais precisam ter um rico conhecimento médico e a capacidade de compreender as intenções do paciente através de múltiplas rodadas de diálogo e dar respostas profissionais e detalhadas. Diante da consulta médica e de saúde, o modelo de linguagem geral muitas vezes evita falar ou responde a perguntas erradas por falta de conhecimento médico; ao mesmo tempo, tende a completar a consulta para a atual rodada de perguntas, carecendo de respostas satisfatórias em múltiplas rodadas. capacidade de questionar. Além disso, atualmente, conjuntos de dados médicos chineses de alta qualidade são muito raros, o que representa um desafio para o treinamento de modelos de linguagem poderosos na área médica.

O Laboratório de Inteligência de Dados e Computação Social da Universidade Fudan (FudanDISC) lança assistente pessoal médico e de saúde chinês - DISC-MedLLM. Na avaliação de consultas médicas e de saúde de perguntas e respostas de rodada única e diálogo multi-rodada, o desempenho do modelo mostra vantagens óbvias em comparação com os grandes modelos de diálogo médico existentes. A equipe de pesquisa também divulgou um conjunto de dados de ajuste fino supervisionado (SFT) de alta qualidade - DISC-Med-SFT contendo 470.000 pessoas.Os parâmetros do modelo e relatórios técnicos também são de código aberto.

*Endereço da página inicial: *Endereço Github:

  • Relatórios Técnicos:

1. Exibição de amostra

Figura 1: Exemplo de diálogo

Quando os pacientes não se sentem bem, eles podem pedir ao modelo para descrever seus próprios sintomas. O modelo fornecerá possíveis causas e opções de tratamento recomendadas como referência. Quando houver falta de informações, o modelo solicitará ativamente uma descrição detalhada dos sintomas .

Figura 2: Diálogo no cenário da consulta

Os utilizadores também podem fazer perguntas de consulta específicas ao modelo com base nas suas próprias condições de saúde, e o modelo dará respostas detalhadas e úteis, e fará perguntas activamente quando faltar informação, de modo a aumentar a pertinência e precisão da resposta.

Figura 3: Diálogo baseado na consulta de autossaúde

Os usuários também podem perguntar sobre conhecimentos médicos que nada têm a ver com eles próprios, neste momento o modelo responderá da forma mais profissional possível para que os usuários possam entendê-los de forma abrangente e precisa.

Figura 4: Diálogo de investigação de conhecimento médico que não tem nada a ver com você

2. Introdução ao DISC-MedLLM

DISC-MedLLM é um grande modelo médico treinado no grande modelo chinês de domínio geral Baichuan-13B com base no conjunto de dados de alta qualidade DISC-Med-SFT que construímos. Notavelmente, nossos dados e método de treinamento podem ser adaptados a qualquer modelo básico grande.

DISC-MedLLM tem três recursos principais:

  • Conhecimento profissional confiável e rico. Usamos o gráfico de conhecimento médico como fonte de informação, amostramos triplos e usamos os recursos de linguagem do grande modelo geral para construir amostras de diálogo.
  • Capacidade de investigação para múltiplas rodadas de diálogo. Utilizamos registros reais de diálogo de consulta como fonte de informação e utilizamos um grande modelo para reconstrução do diálogo.Durante o processo de construção, o modelo deve estar totalmente alinhado com as informações médicas do diálogo.
  • Alinhe as respostas às preferências humanas. Os pacientes esperam obter informações de apoio e conhecimentos básicos mais ricos durante o processo de consulta, mas as respostas dos médicos humanos são muitas vezes concisas; através da triagem manual, construímos amostras de instruções de alta qualidade e em pequena escala para alinhar com as necessidades dos pacientes.

As vantagens do modelo e da estrutura de construção de dados são mostradas na Figura 5. Calculamos a distribuição real de pacientes a partir de cenários reais de consultas para orientar a construção amostral do conjunto de dados. Com base no gráfico de conhecimento médico e em dados reais de consultas, usamos duas ideias: grande modelo no circuito e pessoas no circuito. the-loop para construir o conjunto de dados.

Figura 5: Estrutura do DISC-Med-SFT

3. Método: Construção do conjunto de dados DISC-Med-SFT

Durante o processo de treinamento do modelo, complementamos o DISC-Med-SFT com conjuntos de dados de domínio geral e amostras de dados de corpora existentes para formar o DISC-Med-SFT-ext. Os detalhes são apresentados na Tabela 1.

Tabela 1: Introdução ao conteúdo de dados DISC-Med-SFT-ext

Reconstrução Diálogo Médico-Paciente com IA

conjunto de dados. 400.000 e 20.000 amostras foram selecionadas aleatoriamente de dois conjuntos de dados públicos, MedDialog e cMedQA2, respectivamente, como amostras de origem para a construção do conjunto de dados SFT.

refatorar. Para ajustar as respostas dos médicos do mundo real às respostas de formato unificado de alta qualidade exigidas, usamos o GPT-3.5 para concluir o processo de reconstrução deste conjunto de dados. A(s) palavra(s) imediata(s) requer(em) reescrita(s) para seguir os seguintes princípios:

  • Remova expressões verbais, extraia expressões unificadas e corrija inconsistências no uso da linguagem dos médicos.
  • Atenha-se às principais informações da resposta original do médico e forneça explicações apropriadas para torná-la mais abrangente e lógica.
  • Reescreva ou exclua respostas que os médicos de IA não devem enviar, como pedir aos pacientes que marquem uma consulta.

A Figura 6 mostra um exemplo de refatoração. A resposta do médico ajustada é consistente com a identidade do assistente médico da IA, que não apenas segue as principais informações fornecidas pelo médico original, mas também fornece aos pacientes uma ajuda mais abrangente.

Figura 6: Exemplo de reescrita de diálogo

Pares de perguntas e respostas do mapa de conhecimento

O gráfico de conhecimento médico contém uma grande quantidade de conhecimentos médicos bem organizados, com base nos quais amostras de treinamento de controle de qualidade com menor ruído podem ser geradas. Com base no CMeKG, amostramos o gráfico de conhecimento de acordo com as informações departamentais dos nós de doenças e utilizamos modelos GPT-3.5 adequadamente projetados para gerar um total de mais de 50.000 amostras diversas de diálogos de cenas médicas.

Conjunto de dados de preferências comportamentais

Na etapa final do treinamento, para melhorar ainda mais o desempenho do modelo, realizamos um ajuste fino secundário supervisionado utilizando um conjunto de dados mais consistente com as preferências comportamentais humanas. Cerca de 2.000 amostras diversas e de alta qualidade foram selecionadas manualmente dos dois conjuntos de dados do MedDialog e cMedQA2. Depois de reescrever vários exemplos e revisá-los manualmente para GPT-4, usamos o método de amostra pequena para fornecê-los ao GPT-3.5, gerando alta conjuntos de dados de preferências comportamentais de qualidade.

outro

Dados genéricos. A fim de enriquecer a diversidade do conjunto de treinamento e reduzir o risco de degradação da capacidade básica do modelo durante a fase de treinamento SFT, selecionamos aleatoriamente várias amostras de dois conjuntos de dados gerais supervisionados de ajuste fino moss-sft-003 e alpaca gpt4 data zh.

MedMCQA. Para aprimorar a capacidade de resposta a perguntas do modelo, escolhemos MedMCQA, um conjunto de dados de múltipla escolha na área médica inglesa, otimizamos as perguntas e respostas corretas nas questões de múltipla escolha usando GPT-3.5 e geramos cerca de 8.000 profissionais Amostras de perguntas e respostas médicas chinesas.

4. Experiência

trem. Conforme mostrado na figura abaixo, o processo de treinamento do DISC-MedLLM é dividido em duas etapas do SFT.

Figura 7: Processo de treinamento em duas etapas

Análise. O desempenho dos LLMs médicos é avaliado em dois cenários, nomeadamente controle de qualidade de rodada única e diálogo de rodada múltipla.

  1. Avaliação de controle de qualidade de rodada única: para avaliar a precisão do modelo em termos de conhecimento médico, extraímos mais de 1.500 questões de múltipla escolha do Exame Nacional de Licenciamento Médico Chinês (NMLEC) e do Exame Nacional de Admissão de Mestrado (NEEP) Western Medicine 306 majors, para avaliar o desempenho do modelo em uma única rodada de controle de qualidade.
  2. Avaliação de diálogo multi-rodada: Para avaliar sistematicamente a capacidade de diálogo do modelo, usamos três conjuntos de dados públicos - Avaliação de Referência Médica Chinesa (CMB-Clin), Conjunto de Dados de Diálogo Médico Chinês (CMD) e Conjunto de Dados de Intenção Médica Chinesa (CMID ) seleciona amostras aleatoriamente e o GPT-3.5 atua como um diálogo paciente-modelo e propõe quatro indicadores de avaliação - iniciativa, precisão, utilidade e qualidade da linguagem, que são pontuados pelo GPT-4.

Resultados da avaliação

Compare modelos. Nosso modelo é comparado com três LLMs gerais e dois LLMs de conversação médica chinesa. Incluindo GPT-3.5, GPT-4, Baichuan-13B-Chat da OpenAI; BianQue-2 e HuatuoGPT-13B.

Rodada única de resultados de controle de qualidade. Os resultados globais da avaliação de múltipla escolha são apresentados na Tabela 2. GPT-3.5 mostra uma liderança clara. DISC-MedLLM alcança o segundo lugar na configuração de poucos tiros e o terceiro atrás do Baichuan-13B-Chat na configuração de tiro zero. Notavelmente, superamos o HuatuoGPT (13B) treinado em um ambiente de aprendizagem por reforço.

Tabela 2: Resultados da avaliação das questões de escolha única

Resultados de múltiplas rodadas de diálogo. Na avaliação CMB-Clin, o DISC-MedLLM obteve a pontuação geral mais alta, seguido de perto pelo HuatuoGPT. Nosso modelo obteve a pontuação mais alta no critério de positividade, destacando a eficácia de nossa abordagem de treinamento que influencia os padrões de comportamento médico. Os resultados são mostrados na Tabela 3.

Tabela 3: Resultados CMB-clin

Na amostra de TMC, conforme Figura 8, o GPT-4 obteve a maior pontuação, seguido pelo GPT-3,5. As pontuações gerais de desempenho dos modelos DISC-MedLLM e HuatuoGPT na área médica são as mesmas e seu desempenho em diferentes departamentos é excelente.

Figura 8: Resultado CMD

A situação do CMID é semelhante à do CMD, conforme mostra a Figura 9, GPT-4 e GPT-3.5 mantêm a liderança. Exceto para a série GPT, o DISC-MedLLM teve melhor desempenho. Superou o HuatuoGPT nas três intenções de doença, regime de tratamento e medicamento.

Figura 9: Resultados CMID

O desempenho inconsistente de cada modelo entre CMB-Clin e CMD/CMID pode ser devido à diferente distribuição de dados entre os três conjuntos de dados. O TMC e o CMID contêm amostras de perguntas mais específicas, e os pacientes podem ter obtido um diagnóstico e expressar necessidades claras ao descrever os sintomas, e mesmo as perguntas e necessidades dos pacientes podem não estar relacionadas às condições pessoais de saúde. Os modelos de uso geral GPT-3.5 e GPT-4, que se destacam em muitos aspectos, são melhores para lidar com esta situação.

5. Resumo

O conjunto de dados DISC-Med-SFT aproveita as vantagens e capacidades do diálogo no mundo real e do LLM de domínio geral para fortalecer especificamente três aspectos: conhecimento do domínio, habilidades de diálogo médico e preferências humanas; o conjunto de dados de alta qualidade treina excelentes DISC- MedLLM, um modelo médico em grande escala, alcançou melhorias significativas na interação médica, apresenta alta usabilidade e grande potencial de aplicação.

A investigação neste domínio trará mais perspectivas e possibilidades para reduzir os custos médicos online, promover recursos médicos e alcançar o equilíbrio. DISC-MedLLM levará serviços médicos convenientes e personalizados a mais pessoas e contribuirá para a causa da saúde geral.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)