> 単一ラウンドの Q&A および複数ラウンドの対話による医療および健康相談の評価において明らかな利点が実証されました。遠隔医療の台頭により、便利で効率的な医療サポートを求める患者にとって、オンライン診察や相談が第一選択肢となることが増えています。最近、大規模言語モデル (LLM) は強力な自然言語対話機能を実証し、医療アシスタントや医療アシスタントが人々の生活に参入する希望をもたらしています。医療および健康相談のシナリオは通常複雑であり、パーソナルアシスタントには豊富な医学知識と、複数回の対話を通じて患者の意図を理解し、専門的かつ詳細な対応を行う能力が必要です。医療や健康に関する相談に直面した場合、一般言語モデルでは、医療知識の欠如により会話を避けたり、間違った質問に答えたりすることがよくありますが、同時に、満足のいく複数ラウンドの質問を欠いて、現在のラウンドの質問についての相談を完了する傾向があります。質問力。さらに、現在、高品質の中国の医療データセットは非常に希少であるため、医療分野で強力な言語モデルをトレーニングすることが課題となっています。復丹大学データインテリジェンスおよびソーシャルコンピューティング研究所 (FudanDISC) は、中国の医療および健康パーソナルアシスタント - DISC-MedLLM をリリースしました。単一ラウンドの質疑応答および複数ラウンドの対話の医療および健康相談評価において、モデルのパフォーマンスは、既存の大規模な医療対話モデルと比較して明らかな利点を示します。研究チームはまた、470,000 人を含む高品質の教師あり微調整 (SFT) データセット DISC-Med-SFT をリリースし、モデル パラメーターと技術レポートもオープンソースとして公開しています。※ホームページアドレス:※Githubアドレス:* 技術レポート:## **1. 表示例** *図 1: 対話例*患者が気分が悪くなったとき、モデルに自分の症状について尋ねることができます。モデルは、考えられる原因と推奨される治療法を参考として示します。情報が不足している場合、モデルは積極的に症状の詳細な説明を求めます。 。 *図2:相談現場での対話*ユーザーは、自分の健康状態に基づいてモデル固有の相談質問をすることもでき、モデルは詳細で役立つ回答を返し、情報が不足している場合は積極的に質問して、回答の適切性と正確性を高めます。 *図3:セルフ健康相談による対話*また、自分に関係のない医学知識について質問することもできますが、その際、モデルはユーザーが総合的かつ正確に理解できるよう、可能な限り専門的に回答します。 *図4:自分とは関係のない医療知識照会ダイアログ*## **2. DISC-MedLLM の概要**DISC-MedLLM は、当社の高品質データセット DISC-Med-SFT に基づいて、一般領域の中国の大型モデル Baichuan-13B でトレーニングされた大規模医療モデルです。特に、トレーニング データとトレーニング方法は、あらゆる基本的な大規模モデルに適応できます。DISC-MedLLM には 3 つの主要な機能があります。※信頼できる豊富な専門知識。医療知識グラフを情報源として使用し、トリプルをサンプルし、一般的な大規模モデルの言語機能を使用して対話サンプルを構築します。* 複数回の対話に対する問い合わせ機能。実際の診療対話記録を情報源として使用し、大規模なモデルを使用して対話を再構築しますが、その構築プロセスでは、対話内の医療情報を完全に整合させるモデルが必要です。* 応答を人間の好みに合わせます。患者は、診察の過程でより豊富な裏付け情報や背景知識を得ることを望んでいますが、人間の医師の回答は簡潔であることが多いため、手動スクリーニングを通じて、患者のニーズに合わせた高品質で小規模な指示サンプルを構築します。モデルとデータ構築フレームワークの利点を図 5 に示します。データセットのサンプル構築をガイドするために、実際の診察シナリオから患者の実際の分布を計算しました。医療知識グラフと実際の診察データに基づいて、大規模なモデルインザループとピープルインザループという 2 つのアイデアを使用しました。データセットを構築するためのループ。 *図 5: DISC-Med-SFT の構造*## **3. 方法: データセット DISC-Med-SFT の構築**モデルのトレーニングのプロセスにおいて、既存のコーパスからの一般的なドメイン データセットとデータ サンプルを DISC-Med-SFT に追加して DISC-Med-SFT-ext を形成しました。その詳細を表 1 に示します。 *表 1: DISC-Med-SFT-ext データ内容の紹介***復興** **AI 医師と患者の対話**データセット。 SFT データセット構築のためのソース サンプルとして、2 つの公開データ セット MedDialog と cMedQA2 からそれぞれ 400,000 サンプルと 20,000 サンプルがランダムに選択されました。リファクタリング。実際の医師の回答を必要な高品質の統一形式の回答に調整するために、GPT-3.5 を使用してこのデータセットの再構成プロセスを完了します。プロンプト単語は、次の原則に従って書き直す必要があります。* 言葉による表現を削除し、統一された表現を抽出し、医師の言葉遣いの矛盾を修正します。* 元の医師の回答の重要な情報にこだわり、より包括的かつ論理的になるように適切な説明を提供します。※患者に予約を求めるなど、AI医師が送信すべきではない回答を書き換えたり削除したりする。図 6 にリファクタリングの例を示します。調整された医師の回答は、元の医師から提供された重要な情報を遵守するだけでなく、患者により包括的な支援を提供する AI 医療アシスタントのアイデンティティと一致しています。 *図 6: ダイアログの書き換えの例***ナレッジ グラフ Q&A**医療知識グラフには、よく整理された医療専門知識が大量に含まれており、これに基づいてノイズの少ない QA トレーニング サンプルを生成できます。 CMeKGに基づいて、疾患ノードの部門情報に従ってナレッジグラフにサンプリングし、適切に設計されたGPT-3.5モデルを使用して、合計50,000を超える多様な医療現場の対話サンプルを生成しました。**行動嗜好データセット**トレーニングの最終段階では、モデルのパフォーマンスをさらに向上させるために、人間の行動の好みとより一致するデータセットを使用して二次教師あり微調整を実行します。 MedDialog と cMedQA2 の 2 つのデータセットから約 2000 個の高品質で多様なサンプルを手動で選択し、いくつかのサンプルを書き換えて GPT-4 に手動で修正した後、小サンプル法を使用して GPT-3.5 に提供し、高品質のサンプルを生成しました。 -質の高い行動嗜好データセット。**他の**一般的なデータ。トレーニング セットの多様性を高め、SFT トレーニング フェーズ中のモデルの基本的な能力低下のリスクを軽減するために、2 つの一般的な教師あり微調整データセット moss-sft-003 および alpaca gpt4 data zh からランダムにいくつかのサンプルを選択しました。MedMCQA。モデルの質問応答能力を強化するために、英語の医療分野の多肢選択データセットである MedMCQA を選択し、GPT-3.5 を使用して多肢選択問題の質問と正解を最適化し、約 8,000 人の専門家を生成します。中国医学の質疑応答サンプル。## **4. 実験**電車。以下の図に示すように、DISC-MedLLM のトレーニング プロセスは 2 つの SFT ステージに分かれています。 *図 7: 2 段階のトレーニング プロセス*レビュー。医療 LLM のパフォーマンスは、1 ラウンドの QA と複数ターンの対話という 2 つのシナリオで評価されます。1. 単一ラウンド QA 評価: 医学知識の観点からモデルの精度を評価するために、中国国家医師免許試験 (NMLEC) および国家修士入学試験 (NEEP) から 1500 以上の多肢選択問題を抽出しました。西洋医学 306 専攻 : 1 回の QA でモデルのパフォーマンスを評価します。2. マルチターン対話評価: モデルの対話能力を系統的に評価するために、中国医療ベンチマーク (CMB-Clin)、中国医療対話データセット (CMD)、中国医療意図データセットの 3 つの公開データセットから開始しました。 CMID) はサンプルをランダムに選択し、GPT-3.5 を使用して患者の役割を果たし、モデルと対話します。主体性、正確さ、有用性、言語品質の 4 つの評価指標が提案されており、GPT-4 によってスコア化されます。**評価結果**モデルを比較します。私たちのモデルは、3 つの一般的な LLM と 2 つの中国医学会話 LLM と比較されます。 OpenAI の GPT-3.5、GPT-4、Baichuan-13B-Chat、BianQue-2、および HuatuoGPT-13B を含みます。単一ラウンドの QA 結果。多肢選択式評価の全体的な結果を表 2 に示します。 GPT-3.5 が明確なリードを示しています。 DISC-MedLLM は小規模サンプル設定で 2 位を達成し、ゼロサンプル設定では Baichuan-13B-Chat に次いで 3 位にランクされました。特に、強化学習設定でトレーニングされた HuatuoGPT (13B) のパフォーマンスを上回っています。 *表 2: 四肢選択式質問の評価結果*複数回の対話の結果。 CMB-Clin の評価では、DISC-MedLLM が最高の総合スコアを達成し、僅差で HuatuoGPT がそれに続きました。私たちのモデルは陽性基準で最高のスコアを獲得し、医療行動パターンに偏りをもたらすトレーニングアプローチの有効性を浮き彫りにしました。結果を表3に示す。 *表 3: CMB-clin の結果*図 8 に示すように、CMD サンプルでは、GPT-4 が最高スコアを獲得し、次に GPT-3.5 が続きました。医療分野における DISC-MedLLM モデルと HuatuoGPT モデルの全体的なパフォーマンス スコアは同じであり、さまざまな部門でのパフォーマンスが優れています。 *図 8: CMD の結果*CMID の状況は CMD の状況と似ており、図 9 に示すように、GPT-4 と GPT-3.5 がリードを維持しています。 GPT シリーズを除いて、DISC-MedLLM が最も優れたパフォーマンスを示しました。疾患、治療計画、医療という 3 つの目的において HuatuoGPT よりも優れたパフォーマンスを発揮します。 *図 9: CMID の結果*CMB-Clin と CMD/CMID の間で各モデルのパフォーマンスが一貫していないのは、3 つのデータセット間のデータ分布の違いが原因である可能性があります。 CMD と CMID にはより具体的な質問サンプルが含まれており、患者は診断を受けて症状を説明する際に明確なニーズを表明している可能性があり、患者の質問やニーズでさえ個人の健康状態に関連していない可能性があります。多くの点で優れている汎用モデル GPT-3.5 および GPT-4 は、この状況に対処するのに優れています。## **5. 概要**DISC-Med-SFT データセットは、現実世界の対話と一般領域 LLM の利点と機能を活用して、領域知識、医療対話スキル、人間の好みの 3 つの側面を特に強化します。高品質のデータセットは、優れた大規模医療モデルを訓練します。 DISC-MedLLM は医療インタラクションにおいて大幅な改善を達成し、高いユーザビリティを示し、大きな応用可能性を示しています。この分野の研究は、オンライン医療費を削減し、医療リソースを促進し、バランスを達成するためのより多くの見通しと可能性をもたらすでしょう。 DISC-MedLLM は、より多くの人々に便利で個別化された医療サービスを提供し、一般的な健康の推進に貢献します。
復旦大学チームが中国の医療・健康パーソナルアシスタントをリリース、47万件の高品質データセットをオープンソース化
遠隔医療の台頭により、便利で効率的な医療サポートを求める患者にとって、オンライン診察や相談が第一選択肢となることが増えています。最近、大規模言語モデル (LLM) は強力な自然言語対話機能を実証し、医療アシスタントや医療アシスタントが人々の生活に参入する希望をもたらしています。
医療および健康相談のシナリオは通常複雑であり、パーソナルアシスタントには豊富な医学知識と、複数回の対話を通じて患者の意図を理解し、専門的かつ詳細な対応を行う能力が必要です。医療や健康に関する相談に直面した場合、一般言語モデルでは、医療知識の欠如により会話を避けたり、間違った質問に答えたりすることがよくありますが、同時に、満足のいく複数ラウンドの質問を欠いて、現在のラウンドの質問についての相談を完了する傾向があります。質問力。さらに、現在、高品質の中国の医療データセットは非常に希少であるため、医療分野で強力な言語モデルをトレーニングすることが課題となっています。
復丹大学データインテリジェンスおよびソーシャルコンピューティング研究所 (FudanDISC) は、中国の医療および健康パーソナルアシスタント - DISC-MedLLM をリリースしました。単一ラウンドの質疑応答および複数ラウンドの対話の医療および健康相談評価において、モデルのパフォーマンスは、既存の大規模な医療対話モデルと比較して明らかな利点を示します。研究チームはまた、470,000 人を含む高品質の教師あり微調整 (SFT) データセット DISC-Med-SFT をリリースし、モデル パラメーターと技術レポートもオープンソースとして公開しています。
※ホームページアドレス: ※Githubアドレス:
1. 表示例
患者が気分が悪くなったとき、モデルに自分の症状について尋ねることができます。モデルは、考えられる原因と推奨される治療法を参考として示します。情報が不足している場合、モデルは積極的に症状の詳細な説明を求めます。 。
ユーザーは、自分の健康状態に基づいてモデル固有の相談質問をすることもでき、モデルは詳細で役立つ回答を返し、情報が不足している場合は積極的に質問して、回答の適切性と正確性を高めます。
また、自分に関係のない医学知識について質問することもできますが、その際、モデルはユーザーが総合的かつ正確に理解できるよう、可能な限り専門的に回答します。
2. DISC-MedLLM の概要
DISC-MedLLM は、当社の高品質データセット DISC-Med-SFT に基づいて、一般領域の中国の大型モデル Baichuan-13B でトレーニングされた大規模医療モデルです。特に、トレーニング データとトレーニング方法は、あらゆる基本的な大規模モデルに適応できます。
DISC-MedLLM には 3 つの主要な機能があります。
※信頼できる豊富な専門知識。医療知識グラフを情報源として使用し、トリプルをサンプルし、一般的な大規模モデルの言語機能を使用して対話サンプルを構築します。
モデルとデータ構築フレームワークの利点を図 5 に示します。データセットのサンプル構築をガイドするために、実際の診察シナリオから患者の実際の分布を計算しました。医療知識グラフと実際の診察データに基づいて、大規模なモデルインザループとピープルインザループという 2 つのアイデアを使用しました。データセットを構築するためのループ。
3. 方法: データセット DISC-Med-SFT の構築
モデルのトレーニングのプロセスにおいて、既存のコーパスからの一般的なドメイン データセットとデータ サンプルを DISC-Med-SFT に追加して DISC-Med-SFT-ext を形成しました。その詳細を表 1 に示します。
復興 AI 医師と患者の対話
データセット。 SFT データセット構築のためのソース サンプルとして、2 つの公開データ セット MedDialog と cMedQA2 からそれぞれ 400,000 サンプルと 20,000 サンプルがランダムに選択されました。
リファクタリング。実際の医師の回答を必要な高品質の統一形式の回答に調整するために、GPT-3.5 を使用してこのデータセットの再構成プロセスを完了します。プロンプト単語は、次の原則に従って書き直す必要があります。
図 6 にリファクタリングの例を示します。調整された医師の回答は、元の医師から提供された重要な情報を遵守するだけでなく、患者により包括的な支援を提供する AI 医療アシスタントのアイデンティティと一致しています。
ナレッジ グラフ Q&A
医療知識グラフには、よく整理された医療専門知識が大量に含まれており、これに基づいてノイズの少ない QA トレーニング サンプルを生成できます。 CMeKGに基づいて、疾患ノードの部門情報に従ってナレッジグラフにサンプリングし、適切に設計されたGPT-3.5モデルを使用して、合計50,000を超える多様な医療現場の対話サンプルを生成しました。
行動嗜好データセット
トレーニングの最終段階では、モデルのパフォーマンスをさらに向上させるために、人間の行動の好みとより一致するデータセットを使用して二次教師あり微調整を実行します。 MedDialog と cMedQA2 の 2 つのデータセットから約 2000 個の高品質で多様なサンプルを手動で選択し、いくつかのサンプルを書き換えて GPT-4 に手動で修正した後、小サンプル法を使用して GPT-3.5 に提供し、高品質のサンプルを生成しました。 -質の高い行動嗜好データセット。
他の
一般的なデータ。トレーニング セットの多様性を高め、SFT トレーニング フェーズ中のモデルの基本的な能力低下のリスクを軽減するために、2 つの一般的な教師あり微調整データセット moss-sft-003 および alpaca gpt4 data zh からランダムにいくつかのサンプルを選択しました。
MedMCQA。モデルの質問応答能力を強化するために、英語の医療分野の多肢選択データセットである MedMCQA を選択し、GPT-3.5 を使用して多肢選択問題の質問と正解を最適化し、約 8,000 人の専門家を生成します。中国医学の質疑応答サンプル。
4. 実験
電車。以下の図に示すように、DISC-MedLLM のトレーニング プロセスは 2 つの SFT ステージに分かれています。
レビュー。医療 LLM のパフォーマンスは、1 ラウンドの QA と複数ターンの対話という 2 つのシナリオで評価されます。
評価結果
モデルを比較します。私たちのモデルは、3 つの一般的な LLM と 2 つの中国医学会話 LLM と比較されます。 OpenAI の GPT-3.5、GPT-4、Baichuan-13B-Chat、BianQue-2、および HuatuoGPT-13B を含みます。
単一ラウンドの QA 結果。多肢選択式評価の全体的な結果を表 2 に示します。 GPT-3.5 が明確なリードを示しています。 DISC-MedLLM は小規模サンプル設定で 2 位を達成し、ゼロサンプル設定では Baichuan-13B-Chat に次いで 3 位にランクされました。特に、強化学習設定でトレーニングされた HuatuoGPT (13B) のパフォーマンスを上回っています。
複数回の対話の結果。 CMB-Clin の評価では、DISC-MedLLM が最高の総合スコアを達成し、僅差で HuatuoGPT がそれに続きました。私たちのモデルは陽性基準で最高のスコアを獲得し、医療行動パターンに偏りをもたらすトレーニングアプローチの有効性を浮き彫りにしました。結果を表3に示す。
図 8 に示すように、CMD サンプルでは、GPT-4 が最高スコアを獲得し、次に GPT-3.5 が続きました。医療分野における DISC-MedLLM モデルと HuatuoGPT モデルの全体的なパフォーマンス スコアは同じであり、さまざまな部門でのパフォーマンスが優れています。
CMID の状況は CMD の状況と似ており、図 9 に示すように、GPT-4 と GPT-3.5 がリードを維持しています。 GPT シリーズを除いて、DISC-MedLLM が最も優れたパフォーマンスを示しました。疾患、治療計画、医療という 3 つの目的において HuatuoGPT よりも優れたパフォーマンスを発揮します。
CMB-Clin と CMD/CMID の間で各モデルのパフォーマンスが一貫していないのは、3 つのデータセット間のデータ分布の違いが原因である可能性があります。 CMD と CMID にはより具体的な質問サンプルが含まれており、患者は診断を受けて症状を説明する際に明確なニーズを表明している可能性があり、患者の質問やニーズでさえ個人の健康状態に関連していない可能性があります。多くの点で優れている汎用モデル GPT-3.5 および GPT-4 は、この状況に対処するのに優れています。
5. 概要
DISC-Med-SFT データセットは、現実世界の対話と一般領域 LLM の利点と機能を活用して、領域知識、医療対話スキル、人間の好みの 3 つの側面を特に強化します。高品質のデータセットは、優れた大規模医療モデルを訓練します。 DISC-MedLLM は医療インタラクションにおいて大幅な改善を達成し、高いユーザビリティを示し、大きな応用可能性を示しています。
この分野の研究は、オンライン医療費を削減し、医療リソースを促進し、バランスを達成するためのより多くの見通しと可能性をもたらすでしょう。 DISC-MedLLM は、より多くの人々に便利で個別化された医療サービスを提供し、一般的な健康の推進に貢献します。