Ventajas obvias demostradas en evaluaciones de consultas médicas y de salud en una sola ronda de preguntas y respuestas y en múltiples rondas de diálogo.
Con el auge de la telemedicina, las consultas y consultas en línea se han convertido cada vez más en la primera opción para los pacientes que buscan apoyo médico conveniente y eficiente. Recientemente, el modelo de lenguaje grande (LLM) ha demostrado sólidas capacidades de interacción del lenguaje natural, lo que brinda esperanza para que los asistentes médicos y de salud entren en la vida de las personas.
Los escenarios de consultas médicas y de salud suelen ser complejos. Los asistentes personales deben tener amplios conocimientos médicos y la capacidad de comprender las intenciones del paciente a través de múltiples rondas de diálogo y dar respuestas profesionales y detalladas. Ante la consulta médica y de salud, el modelo de lenguaje general muchas veces evita hablar o responde preguntas equivocadas por falta de conocimientos médicos; al mismo tiempo, tiende a completar la consulta para la ronda de preguntas actual, careciendo de rondas múltiples satisfactorias. capacidad de cuestionamiento. Además, los conjuntos de datos médicos chinos de alta calidad son actualmente muy raros, lo que plantea un desafío para la formación de modelos de lenguaje potentes en el campo de la medicina.
El Laboratorio de Inteligencia de Datos y Computación Social de la Universidad de Fudan (FudanDISC) lanzó el asistente personal médico y de salud chino: DISC-MedLLM. En las evaluaciones de consultas médicas y de salud de ronda única de preguntas y respuestas y de diálogo de múltiples rondas, el rendimiento del modelo muestra ventajas obvias en comparación con los grandes modelos de diálogo médico existentes. El grupo de investigación también publicó un conjunto de datos de ajuste fino supervisado (SFT) de alta calidad de 470 000: DISC-Med-SFT, y los parámetros del modelo y los informes técnicos también fueron de código abierto.
Dirección de la página de inicio:
Dirección de Github:
Informes Técnicos:
1. Visualización de muestra
Figura 1: Ejemplo de diálogo
Cuando los pacientes se sienten mal, pueden consultar el modelo y describir sus síntomas. El modelo dará posibles causas, planes de tratamiento recomendados, etc. como referencia. Cuando falte información, solicitará de forma proactiva descripciones detalladas de los síntomas.
Figura 2: Diálogo en la escena de la consulta
Los usuarios también pueden hacer preguntas de consulta específicas al modelo según sus propias condiciones de salud, y el modelo brindará respuestas detalladas y útiles, y hará preguntas activamente cuando falte información, para mejorar la pertinencia y precisión de la respuesta.
Figura 3: Diálogo basado en la autoconsulta de salud
Los usuarios también pueden preguntar sobre conocimientos médicos que no tienen nada que ver con ellos mismos, y el modelo responderá de la forma más profesional posible, para que los usuarios puedan comprenderlos de forma completa y precisa.
Figura 4: Diálogo de indagación del conocimiento médico que no tiene nada que ver consigo mismo
** 2. Introducción a DISC-MedLLM **
DISC-MedLLM es un modelo médico grande entrenado en el modelo grande chino Baichuan-13B de dominio general basado en el conjunto de datos de alta calidad DISC-Med-SFT que construimos. En particular, nuestros datos y métodos de entrenamiento se pueden adaptar a cualquier modelo base grande.
DISC-MedLLM tiene tres características clave:
Conocimiento profesional confiable y rico. Usamos el gráfico de conocimiento médico como fuente de información, muestra triples y usamos las capacidades del lenguaje del modelo grande general para construir muestras de diálogo.
Capacidad de consulta para múltiples rondas de diálogo. Utilizamos registros de diálogo de consulta reales como fuente de información y utilizamos un modelo grande para la reconstrucción del diálogo. Durante el proceso de construcción, se requiere que el modelo esté completamente alineado con la información médica en el diálogo.
Alinear las respuestas a las preferencias humanas. Los pacientes esperan obtener información de apoyo y conocimientos previos más ricos durante el proceso de consulta, pero las respuestas de los médicos humanos suelen ser concisas; construimos muestras de instrucción a pequeña escala de alta calidad mediante selección manual para alinearnos con las necesidades de los pacientes.
Las ventajas del modelo y el marco de construcción de datos se muestran en la Figura 5. Calculamos la distribución real de pacientes a partir de escenarios de consultas reales para guiar la construcción de la muestra del conjunto de datos. Con base en el gráfico de conocimiento médico y los datos de consultas reales, utilizamos dos ideas: modelo grande en el circuito y personas en el circuito. el bucle para construir el conjunto de datos.
Figura 5: Estructura de DISC-Med-SFT
3.Método: Construcción del conjunto de datos DISC-Med-SFT
Durante el proceso de capacitación del modelo, complementamos DISC-Med-SFT con conjuntos de datos de dominio general y muestras de datos de corpus existentes para formar DISC-Med-SFT-ext. Los detalles se presentan en la Tabla 1.
Tabla 1: Introducción al contenido de datos de DISC-Med-SFT-ext
ReconstrucciónDiálogo médico-paciente de IA
conjunto de datos. Se seleccionan aleatoriamente 400.000 y 20.000 muestras de dos conjuntos de datos públicos, MedDialog y cMedQA2, respectivamente, como muestras fuente para la construcción del conjunto de datos SFT.
Refactorizar. Para adaptar las respuestas de los médicos del mundo real a las respuestas de alta calidad deseadas en un formato unificado, utilizamos GPT-3.5 para completar el proceso de reconstrucción de este conjunto de datos. Las palabras clave requieren reescritura para seguir los siguientes principios:
Eliminar expresiones verbales, extraer expresiones unificadas y corregir inconsistencias en el uso del lenguaje de los médicos.
Cíñete a la información clave de la respuesta original del médico y proporciona explicaciones adecuadas para que sean más completas y lógicas.
Reescribir o eliminar respuestas que los médicos de IA no deberían enviar, como pedir a los pacientes que programen una cita.
La Figura 6 muestra un ejemplo de refactorización. La respuesta del médico ajustada es consistente con la identidad del asistente médico de IA, que no solo se adhiere a la información clave proporcionada por el médico original, sino que también brinda a los pacientes una ayuda más completa.
Figura 6: Ejemplo de reescritura de diálogo
Pares de preguntas y respuestas del mapa de conocimiento
El gráfico de conocimiento médico contiene una gran cantidad de experiencia médica bien organizada, a partir de la cual se pueden generar muestras de entrenamiento de control de calidad menos ruidosas. Con base en CMeKG, tomamos muestras del gráfico de conocimiento de acuerdo con la información del departamento de los nodos de enfermedad y utilizamos modelos GPT-3.5 diseñados apropiadamente para generar un total de más de 50,000 muestras de diálogos de escenas médicas diversas.
Conjunto de datos de preferencia de comportamiento
En la etapa final del entrenamiento, para mejorar aún más el rendimiento del modelo, realizamos un ajuste secundario supervisado utilizando un conjunto de datos que es más consistente con las preferencias de comportamiento humano. Se seleccionaron manualmente alrededor de 2000 muestras diversas y de alta calidad de los dos conjuntos de datos de MedDialog y cMedQA2. Después de reescribir varios ejemplos y revisarlos manualmente en GPT-4, utilizamos el método de muestra pequeña para proporcionarlos a GPT-3.5, generando alta -Conjuntos de datos de preferencias de comportamiento de calidad.
otro
informacion General. Para enriquecer la diversidad del conjunto de entrenamiento y reducir el riesgo de degradación de las capacidades básicas del modelo durante la etapa de entrenamiento SFT, seleccionamos aleatoriamente varias muestras de dos conjuntos de datos de ajuste fino supervisados comunes, moss-sft-003 y datos de alpaca gpt4. Z h.
MedMCQA. Para mejorar las capacidades de preguntas y respuestas del modelo, seleccionamos MedMCQA, un conjunto de datos de preguntas de opción múltiple en el campo médico inglés, y utilizamos GPT-3.5 para optimizar las preguntas y corregir las respuestas en las preguntas de opción múltiple, generando alrededor de 8.000 profesionales chinos. muestras de preguntas y respuestas médicas.
4. Experimento
tren. Como se muestra en la figura siguiente, el proceso de formación de DISC-MedLLM se divide en dos etapas SFT.
Figura 7: Proceso de capacitación en dos etapas
evaluación. El desempeño de los LLM médicos se evalúa en dos escenarios, a saber, control de calidad de una sola ronda y diálogo de múltiples rondas.
Evaluación de control de calidad de ronda única: para evaluar la precisión del modelo en términos de conocimiento médico, extrajimos más de 1500 preguntas de opción múltiple del Examen Nacional de Calificación Médica de China (NMLEC) y el Examen Nacional de Ingreso de Posgrado (NEEP). Medicina occidental 306 principales, evalúa el rendimiento del modelo en una única ronda de control de calidad.
Evaluación de diálogo de múltiples turnos: para evaluar sistemáticamente la capacidad de diálogo del modelo, partimos de tres conjuntos de datos públicos: Chinese Medical Benchmark (CMB-Clin), Chinese Medical Dialogue Dataset (CMD) y Chinese Medical Intent Dataset ( CMID) selecciona muestras aleatoriamente y utiliza GPT-3.5 para desempeñar el papel de pacientes y hablar con el modelo. Se proponen cuatro indicadores de evaluación: iniciativa, precisión, utilidad y calidad del lenguaje, que se califican con GPT-4.
Resultados de evaluación
Compara modelos. Compare nuestro modelo con tres LLM de propósito general y dos LLM de diálogo médico chino. Incluyendo GPT-3.5, GPT-4, Baichuan-13B-Chat de OpenAI; BianQue-2 y HuatuoGPT-13B.
Resultados de control de calidad de una sola ronda. Los resultados generales de la evaluación de opción múltiple se muestran en la Tabla 2. GPT-3.5 muestra una clara ventaja. DISC-MedLLM logró el segundo lugar en el entorno de muestra pequeña y ocupó el tercer lugar detrás de Baichuan-13B-Chat en el entorno de muestra cero. En particular, superamos a HuatuoGPT (13B) entrenado con una configuración de aprendizaje por refuerzo.
Tabla 2: Resultados de la evaluación de preguntas de opción única
Resultados de múltiples rondas de diálogo. En la evaluación CMB-Clin, DISC-MedLLM logró la puntuación general más alta, seguido de cerca por HuatuoGPT. Nuestro modelo obtuvo la puntuación más alta en el criterio de positividad, lo que destaca la efectividad de nuestro enfoque de capacitación que sesga los patrones de comportamiento médico. Los resultados se muestran en la Tabla 3.
Tabla 3: Resultados de CMB-clin
En la muestra de CMD, como se muestra en la Figura 8, GPT-4 obtuvo la puntuación más alta, seguido de GPT-3.5. Las puntuaciones de rendimiento general de los modelos DISC-MedLLM y HuatuoGPT en el campo médico son las mismas y su rendimiento en diferentes departamentos es sobresaliente.
Figura 8: Resultado CMD
La situación de CMID es similar a la de CMD, como se muestra en la Figura 9, GPT-4 y GPT-3.5 mantienen el liderazgo. A excepción de la serie GPT, DISC-MedLLM obtuvo el mejor rendimiento. Funciona mejor que HuatuoGPT en tres propósitos: enfermedad, plan de tratamiento y medicina.
Figura 9: Resultados CMID
El rendimiento inconsistente de cada modelo entre CMB-Clin y CMD/CMID puede deberse a la diferente distribución de datos entre los tres conjuntos de datos. CMD y CMID contienen muestras de preguntas más explícitas, y los pacientes pueden haber obtenido un diagnóstico y haber expresado necesidades claras al describir los síntomas, y las preguntas y necesidades del paciente pueden incluso no tener nada que ver con su estado de salud personal. Los modelos de uso general GPT-3.5 y GPT-4, que destacan en muchos aspectos, manejan mejor esta situación.
5. Resumen
El conjunto de datos DISC-Med-SFT utiliza las fortalezas y capacidades del diálogo del mundo real y el LLM de dominio de propósito general, y ha llevado a cabo mejoras específicas en tres aspectos: conocimiento del dominio, habilidades de diálogo médico y preferencia humana; los conjuntos de datos de alta calidad capacitan El excelente DISC-MedLLM, un modelo médico a gran escala, ha logrado una mejora significativa en la interacción médica, exhibe una alta usabilidad y muestra un gran potencial de aplicación.
La investigación en este campo brindará más perspectivas y posibilidades para reducir los costos médicos en línea, promover los recursos médicos y lograr el equilibrio. DISC-MedLLM brindará servicios médicos convenientes y personalizados a más personas y contribuirá a la causa de la salud general.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
El equipo de la Universidad de Fudan publica un asistente personal médico y de salud chino y abre 470.000 conjuntos de datos de alta calidad
Con el auge de la telemedicina, las consultas y consultas en línea se han convertido cada vez más en la primera opción para los pacientes que buscan apoyo médico conveniente y eficiente. Recientemente, el modelo de lenguaje grande (LLM) ha demostrado sólidas capacidades de interacción del lenguaje natural, lo que brinda esperanza para que los asistentes médicos y de salud entren en la vida de las personas.
Los escenarios de consultas médicas y de salud suelen ser complejos. Los asistentes personales deben tener amplios conocimientos médicos y la capacidad de comprender las intenciones del paciente a través de múltiples rondas de diálogo y dar respuestas profesionales y detalladas. Ante la consulta médica y de salud, el modelo de lenguaje general muchas veces evita hablar o responde preguntas equivocadas por falta de conocimientos médicos; al mismo tiempo, tiende a completar la consulta para la ronda de preguntas actual, careciendo de rondas múltiples satisfactorias. capacidad de cuestionamiento. Además, los conjuntos de datos médicos chinos de alta calidad son actualmente muy raros, lo que plantea un desafío para la formación de modelos de lenguaje potentes en el campo de la medicina.
El Laboratorio de Inteligencia de Datos y Computación Social de la Universidad de Fudan (FudanDISC) lanzó el asistente personal médico y de salud chino: DISC-MedLLM. En las evaluaciones de consultas médicas y de salud de ronda única de preguntas y respuestas y de diálogo de múltiples rondas, el rendimiento del modelo muestra ventajas obvias en comparación con los grandes modelos de diálogo médico existentes. El grupo de investigación también publicó un conjunto de datos de ajuste fino supervisado (SFT) de alta calidad de 470 000: DISC-Med-SFT, y los parámetros del modelo y los informes técnicos también fueron de código abierto.
1. Visualización de muestra
Cuando los pacientes se sienten mal, pueden consultar el modelo y describir sus síntomas. El modelo dará posibles causas, planes de tratamiento recomendados, etc. como referencia. Cuando falte información, solicitará de forma proactiva descripciones detalladas de los síntomas.
Los usuarios también pueden hacer preguntas de consulta específicas al modelo según sus propias condiciones de salud, y el modelo brindará respuestas detalladas y útiles, y hará preguntas activamente cuando falte información, para mejorar la pertinencia y precisión de la respuesta.
Los usuarios también pueden preguntar sobre conocimientos médicos que no tienen nada que ver con ellos mismos, y el modelo responderá de la forma más profesional posible, para que los usuarios puedan comprenderlos de forma completa y precisa.
** 2. Introducción a DISC-MedLLM **
DISC-MedLLM es un modelo médico grande entrenado en el modelo grande chino Baichuan-13B de dominio general basado en el conjunto de datos de alta calidad DISC-Med-SFT que construimos. En particular, nuestros datos y métodos de entrenamiento se pueden adaptar a cualquier modelo base grande.
DISC-MedLLM tiene tres características clave:
Las ventajas del modelo y el marco de construcción de datos se muestran en la Figura 5. Calculamos la distribución real de pacientes a partir de escenarios de consultas reales para guiar la construcción de la muestra del conjunto de datos. Con base en el gráfico de conocimiento médico y los datos de consultas reales, utilizamos dos ideas: modelo grande en el circuito y personas en el circuito. el bucle para construir el conjunto de datos.
3.Método: Construcción del conjunto de datos DISC-Med-SFT
Durante el proceso de capacitación del modelo, complementamos DISC-Med-SFT con conjuntos de datos de dominio general y muestras de datos de corpus existentes para formar DISC-Med-SFT-ext. Los detalles se presentan en la Tabla 1.
Reconstrucción Diálogo médico-paciente de IA
conjunto de datos. Se seleccionan aleatoriamente 400.000 y 20.000 muestras de dos conjuntos de datos públicos, MedDialog y cMedQA2, respectivamente, como muestras fuente para la construcción del conjunto de datos SFT.
Refactorizar. Para adaptar las respuestas de los médicos del mundo real a las respuestas de alta calidad deseadas en un formato unificado, utilizamos GPT-3.5 para completar el proceso de reconstrucción de este conjunto de datos. Las palabras clave requieren reescritura para seguir los siguientes principios:
La Figura 6 muestra un ejemplo de refactorización. La respuesta del médico ajustada es consistente con la identidad del asistente médico de IA, que no solo se adhiere a la información clave proporcionada por el médico original, sino que también brinda a los pacientes una ayuda más completa.
Pares de preguntas y respuestas del mapa de conocimiento
El gráfico de conocimiento médico contiene una gran cantidad de experiencia médica bien organizada, a partir de la cual se pueden generar muestras de entrenamiento de control de calidad menos ruidosas. Con base en CMeKG, tomamos muestras del gráfico de conocimiento de acuerdo con la información del departamento de los nodos de enfermedad y utilizamos modelos GPT-3.5 diseñados apropiadamente para generar un total de más de 50,000 muestras de diálogos de escenas médicas diversas.
Conjunto de datos de preferencia de comportamiento
En la etapa final del entrenamiento, para mejorar aún más el rendimiento del modelo, realizamos un ajuste secundario supervisado utilizando un conjunto de datos que es más consistente con las preferencias de comportamiento humano. Se seleccionaron manualmente alrededor de 2000 muestras diversas y de alta calidad de los dos conjuntos de datos de MedDialog y cMedQA2. Después de reescribir varios ejemplos y revisarlos manualmente en GPT-4, utilizamos el método de muestra pequeña para proporcionarlos a GPT-3.5, generando alta -Conjuntos de datos de preferencias de comportamiento de calidad.
otro
informacion General. Para enriquecer la diversidad del conjunto de entrenamiento y reducir el riesgo de degradación de las capacidades básicas del modelo durante la etapa de entrenamiento SFT, seleccionamos aleatoriamente varias muestras de dos conjuntos de datos de ajuste fino supervisados comunes, moss-sft-003 y datos de alpaca gpt4. Z h.
MedMCQA. Para mejorar las capacidades de preguntas y respuestas del modelo, seleccionamos MedMCQA, un conjunto de datos de preguntas de opción múltiple en el campo médico inglés, y utilizamos GPT-3.5 para optimizar las preguntas y corregir las respuestas en las preguntas de opción múltiple, generando alrededor de 8.000 profesionales chinos. muestras de preguntas y respuestas médicas.
4. Experimento
tren. Como se muestra en la figura siguiente, el proceso de formación de DISC-MedLLM se divide en dos etapas SFT.
evaluación. El desempeño de los LLM médicos se evalúa en dos escenarios, a saber, control de calidad de una sola ronda y diálogo de múltiples rondas.
Resultados de evaluación
Compara modelos. Compare nuestro modelo con tres LLM de propósito general y dos LLM de diálogo médico chino. Incluyendo GPT-3.5, GPT-4, Baichuan-13B-Chat de OpenAI; BianQue-2 y HuatuoGPT-13B.
Resultados de control de calidad de una sola ronda. Los resultados generales de la evaluación de opción múltiple se muestran en la Tabla 2. GPT-3.5 muestra una clara ventaja. DISC-MedLLM logró el segundo lugar en el entorno de muestra pequeña y ocupó el tercer lugar detrás de Baichuan-13B-Chat en el entorno de muestra cero. En particular, superamos a HuatuoGPT (13B) entrenado con una configuración de aprendizaje por refuerzo.
Resultados de múltiples rondas de diálogo. En la evaluación CMB-Clin, DISC-MedLLM logró la puntuación general más alta, seguido de cerca por HuatuoGPT. Nuestro modelo obtuvo la puntuación más alta en el criterio de positividad, lo que destaca la efectividad de nuestro enfoque de capacitación que sesga los patrones de comportamiento médico. Los resultados se muestran en la Tabla 3.
En la muestra de CMD, como se muestra en la Figura 8, GPT-4 obtuvo la puntuación más alta, seguido de GPT-3.5. Las puntuaciones de rendimiento general de los modelos DISC-MedLLM y HuatuoGPT en el campo médico son las mismas y su rendimiento en diferentes departamentos es sobresaliente.
La situación de CMID es similar a la de CMD, como se muestra en la Figura 9, GPT-4 y GPT-3.5 mantienen el liderazgo. A excepción de la serie GPT, DISC-MedLLM obtuvo el mejor rendimiento. Funciona mejor que HuatuoGPT en tres propósitos: enfermedad, plan de tratamiento y medicina.
El rendimiento inconsistente de cada modelo entre CMB-Clin y CMD/CMID puede deberse a la diferente distribución de datos entre los tres conjuntos de datos. CMD y CMID contienen muestras de preguntas más explícitas, y los pacientes pueden haber obtenido un diagnóstico y haber expresado necesidades claras al describir los síntomas, y las preguntas y necesidades del paciente pueden incluso no tener nada que ver con su estado de salud personal. Los modelos de uso general GPT-3.5 y GPT-4, que destacan en muchos aspectos, manejan mejor esta situación.
5. Resumen
El conjunto de datos DISC-Med-SFT utiliza las fortalezas y capacidades del diálogo del mundo real y el LLM de dominio de propósito general, y ha llevado a cabo mejoras específicas en tres aspectos: conocimiento del dominio, habilidades de diálogo médico y preferencia humana; los conjuntos de datos de alta calidad capacitan El excelente DISC-MedLLM, un modelo médico a gran escala, ha logrado una mejora significativa en la interacción médica, exhibe una alta usabilidad y muestra un gran potencial de aplicación.
La investigación en este campo brindará más perspectivas y posibilidades para reducir los costos médicos en línea, promover los recursos médicos y lograr el equilibrio. DISC-MedLLM brindará servicios médicos convenientes y personalizados a más personas y contribuirá a la causa de la salud general.