L'équipe de l'Université de Fudan lance un assistant personnel médical et de santé chinois et 470 000 ensembles de données open source de haute qualité
A démontré des avantages évidents dans les évaluations de consultations médicales et de santé à un seul tour de questions et de dialogues à plusieurs tours.
Avec l'essor de la télémédecine, la consultation et la consultation en ligne deviennent de plus en plus le premier choix des patients à la recherche d'un soutien médical pratique et efficace. Récemment, les grands modèles de langage (LLM) ont démontré de puissantes capacités d'interaction en langage naturel, apportant l'espoir aux assistants médicaux de santé d'entrer dans la vie des gens.
Les scénarios de consultation médicale et de santé sont généralement complexes. Les assistants personnels doivent posséder de riches connaissances médicales et la capacité de comprendre les intentions du patient à travers de multiples cycles de dialogue et de donner des réponses professionnelles et détaillées. Face aux consultations médicales et de santé, les modèles de langage général évitent souvent de parler ou répondent à des questions qui ne sont pas posées en raison d'un manque de connaissances médicales ; en même temps, ils ont tendance à terminer la consultation sur la série de questions en cours et manquent de réponses multi-tours satisfaisantes. capacités de questionnement. De plus, les ensembles de données médicales chinoises de haute qualité sont actuellement très rares, ce qui pose un défi pour la formation de modèles linguistiques puissants dans le domaine médical.
Le laboratoire d'intelligence des données et d'informatique sociale de l'université de Fudan (FudanDISC) lance un assistant personnel médical et de santé chinois - DISC-MedLLM. Dans l'évaluation des consultations médicales et de santé des questions et réponses à un seul tour et du dialogue à plusieurs tours, les performances du modèle montrent des avantages évidents par rapport aux grands modèles de dialogue médical existants. L'équipe de recherche a également publié un ensemble de données de réglage fin supervisé (SFT) de haute qualité - DISC-Med-SFT contenant 470 000 personnes. Les paramètres du modèle et les rapports techniques sont également open source.
*Adresse de la page d'accueil :
*Adresse Github :
Rapports techniques :
1. Exemple d'affichage
Figure 1 : Exemple de dialogue
Lorsque les patients ne se sentent pas bien, ils peuvent consulter le modèle et décrire leurs symptômes. Le modèle donnera comme référence les causes possibles, les plans de traitement recommandés, etc.. En cas de manque d'informations, il demandera de manière proactive une description détaillée des symptômes.
Figure 2 : Dialogue sur la scène de la consultation
Les utilisateurs peuvent également poser des questions de consultation spécifiques au modèle en fonction de leur propre état de santé, et le modèle donnera des réponses détaillées et utiles, et posera des questions de manière proactive lorsque les informations manquent pour améliorer la pertinence et l'exactitude des réponses.
Figure 3 : Dialogue basé sur la concertation sur son propre état de santé
Les utilisateurs peuvent également poser des questions sur des connaissances médicales qui n'ont rien à voir avec eux-mêmes. À ce stade, le modèle répondra de la manière la plus professionnelle possible afin que les utilisateurs puissent les comprendre de manière complète et précise.
Figure 4 : Dialogue d'une enquête sur un savoir médical qui n'a rien à voir avec elle-même
2.Introduction à DISC-MedLLM
DISC-MedLLM est un grand modèle médical formé sur le grand modèle chinois du domaine général Baichuan-13B, basé sur notre ensemble de données de haute qualité DISC-Med-SFT. Notamment, nos données de formation et notre méthode de formation peuvent être adaptées à n’importe quel grand modèle de base.
DISC-MedLLM a trois fonctionnalités clés :
Connaissances professionnelles fiables et riches. Nous utilisons le graphe de connaissances médicales comme source d'informations, échantillonnons des triplets et utilisons les capacités linguistiques du grand modèle général pour construire des échantillons de dialogue.
Capacité d'enquête pour plusieurs tours de dialogue. Nous utilisons de véritables enregistrements de dialogue de consultation comme source d'information et utilisons de grands modèles pour reconstruire le dialogue. Pendant le processus de construction, le modèle est nécessaire pour aligner complètement les informations médicales dans le dialogue.
Alignez les réponses sur les préférences humaines. Les patients espèrent obtenir des informations complémentaires et des connaissances de base plus riches au cours du processus de consultation, mais les réponses des médecins humains sont souvent concises ; nous construisons des échantillons d'instructions à petite échelle de haute qualité grâce à une sélection manuelle pour nous aligner sur les besoins des patients.
Les avantages du modèle et du cadre de construction de données sont présentés dans la figure 5. Nous avons calculé la répartition réelle des patients à partir de scénarios de consultation réels pour guider la construction d'échantillons de l'ensemble de données. Sur la base du graphique des connaissances médicales et des données de consultation réelles, nous avons utilisé deux idées : un grand modèle dans la boucle et des personnes dans la boucle. la boucle pour construire l'ensemble de données. .
Figure 5 : Structure de DISC-Med-SFT
3.Méthode : Construction du jeu de données DISC-Med-SFT
Au cours du processus de formation du modèle, nous avons complété DISC-Med-SFT avec des ensembles de données du domaine général et des échantillons de données provenant de corpus existants pour former DISC-Med-SFT-ext, dont les détails sont présentés dans le tableau 1.
Tableau 1 : Introduction au contenu des données DISC-Med-SFT-ext
ReconstructionDialogue médecin-patient IA
base de données. 400 000 et 20 000 échantillons sont sélectionnés au hasard dans deux ensembles de données publics, MedDialog et cMedQA2, respectivement, comme échantillons sources pour la construction de l'ensemble de données SFT.
Refactoriser. Afin d'ajuster les réponses des médecins du monde réel aux réponses au format unifié de haute qualité requises, nous utilisons GPT-3.5 pour terminer le processus de reconstruction de cet ensemble de données. Le ou les mots d’invite doivent être réécrits pour suivre les principes suivants :
Supprimez les expressions verbales, extrayez les expressions unifiées et corrigez les incohérences dans l'utilisation du langage des médecins.
Tenez-vous-en aux informations clés de la réponse originale du médecin et fournissez les explications appropriées pour la rendre plus complète et logique.
Réécrivez ou supprimez les réponses que les médecins IA ne devraient pas envoyer, comme demander aux patients de prendre rendez-vous.
La figure 6 montre un exemple de refactorisation. La réponse ajustée du médecin est cohérente avec l'identité de l'assistant médical IA, qui non seulement adhère aux informations clés fournies par le médecin d'origine, mais fournit également aux patients une aide plus riche et plus complète.
Figure 6 : Exemple de réécriture de dialogue
Paires de questions et réponses de la carte des connaissances
Le graphe de connaissances médicales contient une grande quantité d'expertise médicale bien organisée, sur la base de laquelle des échantillons de formation QA avec moins de bruit peuvent être générés. Sur la base de CMeKG, nous échantillonnons le graphique de connaissances en fonction des informations départementales sur les nœuds pathologiques et utilisons des modèles GPT-3.5 conçus de manière appropriée pour générer un total de plus de 50 000 échantillons de dialogue sur des scènes médicales diverses.
Ensemble de données sur les préférences comportementales
Dans la dernière étape de la formation, afin d'améliorer encore les performances du modèle, nous utilisons un ensemble de données plus conforme aux préférences de comportement humain pour un réglage fin supervisé secondaire. Environ 2000 échantillons diversifiés et de haute qualité ont été sélectionnés manuellement à partir des deux ensembles de données de MedDialog et cMedQA2. Après avoir passé le relais à GPT-4 pour réécrire quelques exemples et les réviser manuellement, nous avons utilisé la méthode des petits échantillons pour les fournir à GPT- 3.5, générant des ensembles de données de préférences comportementales de haute qualité.
autre
Données génériques. Afin d'enrichir la diversité de l'ensemble d'entraînement et de réduire le risque de dégradation des capacités de base du modèle pendant la phase d'entraînement SFT, nous avons sélectionné au hasard plusieurs échantillons à partir de deux ensembles de données de réglage fin supervisés communs, moss-sft-003 et alpaga gpt4. zh.
MedMCQA. Afin d'améliorer la capacité de réponse aux questions du modèle, nous choisissons MedMCQA, un ensemble de données à choix multiples dans le domaine médical anglais, optimisons les questions et corrigeons les réponses aux questions à choix multiples à l'aide de GPT-3.5, et générons environ 8 000 professionnels. Échantillons de questions-réponses médicales chinoises.
4. Expérimenter
former. Comme le montre la figure ci-dessous, le processus de formation de DISC-MedLLM est divisé en deux étapes SFT.
Figure 7 : Processus de formation en deux étapes
Revoir. La performance des LLM médicaux est évaluée selon deux scénarios, à savoir l'assurance qualité en un seul tour et le dialogue à plusieurs tours.
Évaluation de l'assurance qualité en un seul tour : afin d'évaluer l'exactitude du modèle en termes de connaissances médicales, nous avons extrait plus de 1 500 questions à choix multiples de l'examen national chinois de qualification médicale (NMLEC) et de l'examen national d'entrée aux études supérieures (NEEP). Western Medicine 306 major, évalue les performances du modèle en un seul cycle d'assurance qualité.
Évaluation du dialogue à plusieurs tours : afin d'évaluer systématiquement la capacité de dialogue du modèle, nous utilisons trois ensembles de données publics : évaluation de référence médicale chinoise (CMB-Clin), ensemble de données de dialogue médical chinois (CMD) et ensemble de données d'intention médicale chinoise (CMID). ) sélectionne au hasard des échantillons et GPT-3.5 agit comme un dialogue patient-modèle et propose quatre indicateurs d'évaluation : l'initiative, l'exactitude, l'utilité et la qualité du langage, qui sont notés par GPT-4.
Résultats de l'évaluation
Comparez les modèles. Comparez notre modèle avec trois LLM à usage général et deux LLM de dialogue médical chinois. Y compris GPT-3.5, GPT-4, Baichuan-13B-Chat d'OpenAI ; BianQue-2 et HuatuoGPT-13B.
Un seul cycle de résultats d’assurance qualité. Les résultats globaux de l’évaluation à choix multiples sont présentés dans le tableau 2. GPT-3.5 montre une avance claire. DISC-MedLLM obtient la deuxième place dans la configuration à quelques tirs et la troisième derrière Baichuan-13B-Chat dans la configuration à tir zéro. Notamment, nous surpassons HuatuoGPT (13B) formé dans un cadre d'apprentissage par renforcement.
Tableau 2 : Résultats de l'évaluation des questions à choix multiples
Résultats de plusieurs cycles de dialogue. Dans l'évaluation CMB-Clin, DISC-MedLLM a obtenu le score global le plus élevé, suivi de près par HuatuoGPT. Notre modèle a obtenu le score le plus élevé pour le critère de positivité, soulignant l'efficacité de notre approche de formation qui biaise les modèles de comportement médical. Les résultats sont présentés dans le tableau 3.
Tableau 3 : Résultats CMB-clin
Dans l'échantillon CMD, comme le montre la figure 8, GPT-4 a obtenu le score le plus élevé, suivi de GPT-3.5. Les scores de performance globaux des modèles DISC-MedLLM et HuatuoGPT dans le domaine médical sont les mêmes et leurs performances dans différents départements sont exceptionnelles.
Figure 8 : Résultat CMD
La situation du CMID est similaire à celle du CMD, comme le montre la figure 9, GPT-4 et GPT-3.5 conservent la tête. À l'exception de la série GPT, DISC-MedLLM a obtenu les meilleurs résultats. Il fonctionne mieux que HuatuoGPT dans trois domaines : maladie, plan de traitement et médecine.
Figure 9 : Résultats CMID
Les performances incohérentes des modèles entre CMB-Clin et CMD/CMID peuvent être dues à la différence de distribution des données entre ces trois ensembles de données. CMD et CMID contiennent des échantillons de questions plus explicites, et les patients peuvent avoir obtenu un diagnostic et exprimé des besoins clairs lors de la description des symptômes, et les questions et besoins du patient peuvent même n'avoir rien à voir avec leur état de santé personnel. Les modèles à usage général GPT-3.5 et GPT-4, qui fonctionnent bien à plusieurs égards, sont mieux à même de gérer cette situation.
5. Résumé
L'ensemble de données DISC-Med-SFT tire parti des avantages et des capacités du dialogue du monde réel et du LLM du domaine général pour renforcer spécifiquement trois aspects : la connaissance du domaine, les compétences de dialogue médical et les préférences humaines ; l'ensemble de données de haute qualité forme d'excellents DISC- MedLLM, un modèle médical à grande échelle, a permis d'améliorer considérablement l'interaction médicale, présente une grande facilité d'utilisation et présente un grand potentiel d'application.
La recherche dans ce domaine apportera davantage de perspectives et de possibilités pour réduire les coûts médicaux en ligne, promouvoir les ressources médicales et parvenir à un équilibre. DISC-MedLLM apportera des services médicaux pratiques et personnalisés à un plus grand nombre de personnes et contribuera à la cause de la santé générale.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
L'équipe de l'Université de Fudan lance un assistant personnel médical et de santé chinois et 470 000 ensembles de données open source de haute qualité
Avec l'essor de la télémédecine, la consultation et la consultation en ligne deviennent de plus en plus le premier choix des patients à la recherche d'un soutien médical pratique et efficace. Récemment, les grands modèles de langage (LLM) ont démontré de puissantes capacités d'interaction en langage naturel, apportant l'espoir aux assistants médicaux de santé d'entrer dans la vie des gens.
Les scénarios de consultation médicale et de santé sont généralement complexes. Les assistants personnels doivent posséder de riches connaissances médicales et la capacité de comprendre les intentions du patient à travers de multiples cycles de dialogue et de donner des réponses professionnelles et détaillées. Face aux consultations médicales et de santé, les modèles de langage général évitent souvent de parler ou répondent à des questions qui ne sont pas posées en raison d'un manque de connaissances médicales ; en même temps, ils ont tendance à terminer la consultation sur la série de questions en cours et manquent de réponses multi-tours satisfaisantes. capacités de questionnement. De plus, les ensembles de données médicales chinoises de haute qualité sont actuellement très rares, ce qui pose un défi pour la formation de modèles linguistiques puissants dans le domaine médical.
Le laboratoire d'intelligence des données et d'informatique sociale de l'université de Fudan (FudanDISC) lance un assistant personnel médical et de santé chinois - DISC-MedLLM. Dans l'évaluation des consultations médicales et de santé des questions et réponses à un seul tour et du dialogue à plusieurs tours, les performances du modèle montrent des avantages évidents par rapport aux grands modèles de dialogue médical existants. L'équipe de recherche a également publié un ensemble de données de réglage fin supervisé (SFT) de haute qualité - DISC-Med-SFT contenant 470 000 personnes. Les paramètres du modèle et les rapports techniques sont également open source.
*Adresse de la page d'accueil : *Adresse Github :
1. Exemple d'affichage
Lorsque les patients ne se sentent pas bien, ils peuvent consulter le modèle et décrire leurs symptômes. Le modèle donnera comme référence les causes possibles, les plans de traitement recommandés, etc.. En cas de manque d'informations, il demandera de manière proactive une description détaillée des symptômes.
Les utilisateurs peuvent également poser des questions de consultation spécifiques au modèle en fonction de leur propre état de santé, et le modèle donnera des réponses détaillées et utiles, et posera des questions de manière proactive lorsque les informations manquent pour améliorer la pertinence et l'exactitude des réponses.
Les utilisateurs peuvent également poser des questions sur des connaissances médicales qui n'ont rien à voir avec eux-mêmes. À ce stade, le modèle répondra de la manière la plus professionnelle possible afin que les utilisateurs puissent les comprendre de manière complète et précise.
2.Introduction à DISC-MedLLM
DISC-MedLLM est un grand modèle médical formé sur le grand modèle chinois du domaine général Baichuan-13B, basé sur notre ensemble de données de haute qualité DISC-Med-SFT. Notamment, nos données de formation et notre méthode de formation peuvent être adaptées à n’importe quel grand modèle de base.
DISC-MedLLM a trois fonctionnalités clés :
Les avantages du modèle et du cadre de construction de données sont présentés dans la figure 5. Nous avons calculé la répartition réelle des patients à partir de scénarios de consultation réels pour guider la construction d'échantillons de l'ensemble de données. Sur la base du graphique des connaissances médicales et des données de consultation réelles, nous avons utilisé deux idées : un grand modèle dans la boucle et des personnes dans la boucle. la boucle pour construire l'ensemble de données. .
3.Méthode : Construction du jeu de données DISC-Med-SFT
Au cours du processus de formation du modèle, nous avons complété DISC-Med-SFT avec des ensembles de données du domaine général et des échantillons de données provenant de corpus existants pour former DISC-Med-SFT-ext, dont les détails sont présentés dans le tableau 1.
Reconstruction Dialogue médecin-patient IA
base de données. 400 000 et 20 000 échantillons sont sélectionnés au hasard dans deux ensembles de données publics, MedDialog et cMedQA2, respectivement, comme échantillons sources pour la construction de l'ensemble de données SFT.
Refactoriser. Afin d'ajuster les réponses des médecins du monde réel aux réponses au format unifié de haute qualité requises, nous utilisons GPT-3.5 pour terminer le processus de reconstruction de cet ensemble de données. Le ou les mots d’invite doivent être réécrits pour suivre les principes suivants :
La figure 6 montre un exemple de refactorisation. La réponse ajustée du médecin est cohérente avec l'identité de l'assistant médical IA, qui non seulement adhère aux informations clés fournies par le médecin d'origine, mais fournit également aux patients une aide plus riche et plus complète.
Paires de questions et réponses de la carte des connaissances
Le graphe de connaissances médicales contient une grande quantité d'expertise médicale bien organisée, sur la base de laquelle des échantillons de formation QA avec moins de bruit peuvent être générés. Sur la base de CMeKG, nous échantillonnons le graphique de connaissances en fonction des informations départementales sur les nœuds pathologiques et utilisons des modèles GPT-3.5 conçus de manière appropriée pour générer un total de plus de 50 000 échantillons de dialogue sur des scènes médicales diverses.
Ensemble de données sur les préférences comportementales
Dans la dernière étape de la formation, afin d'améliorer encore les performances du modèle, nous utilisons un ensemble de données plus conforme aux préférences de comportement humain pour un réglage fin supervisé secondaire. Environ 2000 échantillons diversifiés et de haute qualité ont été sélectionnés manuellement à partir des deux ensembles de données de MedDialog et cMedQA2. Après avoir passé le relais à GPT-4 pour réécrire quelques exemples et les réviser manuellement, nous avons utilisé la méthode des petits échantillons pour les fournir à GPT- 3.5, générant des ensembles de données de préférences comportementales de haute qualité.
autre
Données génériques. Afin d'enrichir la diversité de l'ensemble d'entraînement et de réduire le risque de dégradation des capacités de base du modèle pendant la phase d'entraînement SFT, nous avons sélectionné au hasard plusieurs échantillons à partir de deux ensembles de données de réglage fin supervisés communs, moss-sft-003 et alpaga gpt4. zh.
MedMCQA. Afin d'améliorer la capacité de réponse aux questions du modèle, nous choisissons MedMCQA, un ensemble de données à choix multiples dans le domaine médical anglais, optimisons les questions et corrigeons les réponses aux questions à choix multiples à l'aide de GPT-3.5, et générons environ 8 000 professionnels. Échantillons de questions-réponses médicales chinoises.
4. Expérimenter
former. Comme le montre la figure ci-dessous, le processus de formation de DISC-MedLLM est divisé en deux étapes SFT.
Revoir. La performance des LLM médicaux est évaluée selon deux scénarios, à savoir l'assurance qualité en un seul tour et le dialogue à plusieurs tours.
Résultats de l'évaluation
Comparez les modèles. Comparez notre modèle avec trois LLM à usage général et deux LLM de dialogue médical chinois. Y compris GPT-3.5, GPT-4, Baichuan-13B-Chat d'OpenAI ; BianQue-2 et HuatuoGPT-13B.
Un seul cycle de résultats d’assurance qualité. Les résultats globaux de l’évaluation à choix multiples sont présentés dans le tableau 2. GPT-3.5 montre une avance claire. DISC-MedLLM obtient la deuxième place dans la configuration à quelques tirs et la troisième derrière Baichuan-13B-Chat dans la configuration à tir zéro. Notamment, nous surpassons HuatuoGPT (13B) formé dans un cadre d'apprentissage par renforcement.
Résultats de plusieurs cycles de dialogue. Dans l'évaluation CMB-Clin, DISC-MedLLM a obtenu le score global le plus élevé, suivi de près par HuatuoGPT. Notre modèle a obtenu le score le plus élevé pour le critère de positivité, soulignant l'efficacité de notre approche de formation qui biaise les modèles de comportement médical. Les résultats sont présentés dans le tableau 3.
Dans l'échantillon CMD, comme le montre la figure 8, GPT-4 a obtenu le score le plus élevé, suivi de GPT-3.5. Les scores de performance globaux des modèles DISC-MedLLM et HuatuoGPT dans le domaine médical sont les mêmes et leurs performances dans différents départements sont exceptionnelles.
La situation du CMID est similaire à celle du CMD, comme le montre la figure 9, GPT-4 et GPT-3.5 conservent la tête. À l'exception de la série GPT, DISC-MedLLM a obtenu les meilleurs résultats. Il fonctionne mieux que HuatuoGPT dans trois domaines : maladie, plan de traitement et médecine.
Les performances incohérentes des modèles entre CMB-Clin et CMD/CMID peuvent être dues à la différence de distribution des données entre ces trois ensembles de données. CMD et CMID contiennent des échantillons de questions plus explicites, et les patients peuvent avoir obtenu un diagnostic et exprimé des besoins clairs lors de la description des symptômes, et les questions et besoins du patient peuvent même n'avoir rien à voir avec leur état de santé personnel. Les modèles à usage général GPT-3.5 et GPT-4, qui fonctionnent bien à plusieurs égards, sont mieux à même de gérer cette situation.
5. Résumé
L'ensemble de données DISC-Med-SFT tire parti des avantages et des capacités du dialogue du monde réel et du LLM du domaine général pour renforcer spécifiquement trois aspects : la connaissance du domaine, les compétences de dialogue médical et les préférences humaines ; l'ensemble de données de haute qualité forme d'excellents DISC- MedLLM, un modèle médical à grande échelle, a permis d'améliorer considérablement l'interaction médicale, présente une grande facilité d'utilisation et présente un grand potentiel d'application.
La recherche dans ce domaine apportera davantage de perspectives et de possibilités pour réduire les coûts médicaux en ligne, promouvoir les ressources médicales et parvenir à un équilibre. DISC-MedLLM apportera des services médicaux pratiques et personnalisés à un plus grand nombre de personnes et contribuera à la cause de la santé générale.