Menunjukkan keuntungan nyata dalam sesi tanya jawab satu putaran dan dialog multi-putaran dalam evaluasi konsultasi kesehatan dan medis.
Dengan maraknya telemedis, konsultasi dan konsultasi online semakin menjadi pilihan pertama bagi pasien yang mencari dukungan medis yang nyaman dan efisien. Baru-baru ini, model bahasa besar (LLM) telah menunjukkan kemampuan interaksi bahasa alami yang kuat, membawa harapan bagi asisten kesehatan dan medis untuk memasuki kehidupan masyarakat.
Skenario konsultasi medis dan kesehatan biasanya rumit, dan asisten pribadi harus memiliki pengetahuan medis yang kaya dan kemampuan untuk memahami maksud pasien melalui berbagai dialog, dan memberikan tanggapan yang profesional dan terperinci. Dalam menghadapi konsultasi medis dan kesehatan, model bahasa umum sering kali menghindari pembicaraan atau menjawab pertanyaan yang salah karena kurangnya pengetahuan medis; pada saat yang sama, model bahasa tersebut cenderung menyelesaikan konsultasi untuk putaran pertanyaan saat ini, dan kurang memuaskan dalam beberapa putaran. kemampuan bertanya. Selain itu, kumpulan data medis Tiongkok berkualitas tinggi saat ini sangat langka, sehingga menimbulkan tantangan untuk melatih model bahasa yang kuat di bidang medis.
Laboratorium Intelijen Data dan Komputasi Sosial Universitas Fudan (FudanDISC) merilis asisten pribadi medis dan kesehatan Tiongkok - DISC-MedLLM. Dalam evaluasi konsultasi medis dan kesehatan dari tanya jawab satu putaran dan dialog multi-putaran, kinerja model ini menunjukkan keunggulan yang jelas dibandingkan dengan model dialog medis besar yang ada. Tim peneliti juga merilis kumpulan data supervisored fine-tuning (SFT) berkualitas tinggi - DISC-Med-SFT yang berisi 470.000 orang.Parameter model dan laporan teknis juga bersifat open source.
*Alamat beranda:
*Alamat Github:
Laporan Teknis:
1. Contoh tampilan
Gambar 1: Contoh Dialog
Ketika pasien merasa tidak sehat, mereka dapat meminta model untuk menjelaskan gejalanya sendiri. Model akan memberikan kemungkinan penyebab dan rekomendasi pilihan pengobatan sebagai referensi. Ketika ada kekurangan informasi, model akan secara aktif meminta penjelasan rinci tentang gejalanya. .
Gambar 2: Dialog dalam adegan konsultasi
Pengguna juga dapat mengajukan pertanyaan konsultasi spesifik kepada model berdasarkan kondisi kesehatan mereka sendiri, dan model akan memberikan jawaban yang terperinci dan bermanfaat, serta secara aktif mengajukan pertanyaan ketika informasi kurang, sehingga meningkatkan relevansi dan keakuratan jawaban.
Gambar 3: Dialog berdasarkan konsultasi kesehatan diri
Pengguna juga dapat bertanya tentang ilmu kedokteran yang tidak ada hubungannya dengan dirinya, pada saat ini model akan menjawab seprofesional mungkin sehingga pengguna dapat memahaminya secara komprehensif dan akurat.
Gambar 4: Dialog penyelidikan pengetahuan medis yang tidak ada hubungannya dengan diri Anda sendiri
2、Pengenalan DISC-MedLLM
DISC-MedLLM adalah model medis besar yang dilatih pada domain umum model besar Tiongkok Baichuan-13B berdasarkan kumpulan data berkualitas tinggi DISC-Med-SFT yang kami buat. Perlu diperhatikan bahwa data pelatihan dan metode pelatihan kami dapat disesuaikan dengan model dasar apa pun yang besar.
DISC-MedLLM memiliki tiga fitur utama:
Pengetahuan profesional yang andal dan kaya. Kami menggunakan grafik pengetahuan medis sebagai sumber informasi, sampel rangkap tiga, dan menggunakan kemampuan bahasa model besar umum untuk membuat sampel dialog.
Kemampuan penyelidikan untuk beberapa putaran dialog. Kami menggunakan catatan dialog konsultasi nyata sebagai sumber informasi, dan menggunakan model besar untuk rekonstruksi dialog.Selama proses konstruksi, model tersebut harus sepenuhnya selaras dengan informasi medis dalam dialog.
Sejajarkan tanggapan dengan preferensi manusia. Pasien berharap mendapatkan informasi pendukung dan latar belakang pengetahuan yang lebih kaya selama proses konsultasi, namun jawaban dokter manusia seringkali singkat; kami membuat sampel instruksi skala kecil berkualitas tinggi melalui penyaringan manual untuk menyelaraskan dengan kebutuhan pasien.
Kekuatan model dan kerangka konstruksi data ditunjukkan pada Gambar 5. Kami menghitung distribusi pasien sebenarnya dari skenario konsultasi nyata untuk memandu konstruksi sampel kumpulan data. Berdasarkan grafik pengetahuan medis dan data konsultasi nyata, kami menggunakan dua gagasan: large model-in-the-loop dan people-in- the-loop untuk membangun kumpulan data. .
Gambar 5: Konstruksi DISC-Med-SFT
3. Metode: Konstruksi kumpulan data DISC-Med-SFT
Selama proses pelatihan model, kami melengkapi DISC-Med-SFT dengan kumpulan data domain umum dan sampel data dari korpora yang ada untuk membentuk DISC-Med-SFT-ext. Detailnya disajikan pada Tabel 1.
Tabel 1: Pengenalan konten data DISC-Med-SFT-ext
RekonstruksiDialog AI dokter-pasien
Himpunan data. 400.000 dan 20.000 sampel dipilih secara acak dari dua kumpulan data publik, masing-masing MedDialog dan cMedQA2, sebagai sampel sumber untuk konstruksi kumpulan data SFT.
Refaktorisasi. Untuk menyesuaikan jawaban dokter di dunia nyata ke dalam jawaban format terpadu berkualitas tinggi yang diperlukan, kami menggunakan GPT-3.5 untuk menyelesaikan proses rekonstruksi kumpulan data ini. Kata-kata cepat memerlukan penulisan ulang untuk mengikuti prinsip-prinsip berikut:
Hapus ekspresi verbal, ekstrak ekspresi terpadu, dan perbaiki ketidakkonsistenan dalam penggunaan bahasa dokter.
Patuhi informasi kunci pada jawaban dokter asli dan berikan penjelasan yang sesuai agar lebih komprehensif dan logis.
Tulis ulang atau hapus tanggapan yang tidak boleh dikirimkan oleh dokter AI, seperti meminta pasien untuk membuat janji.
Gambar 6 menunjukkan contoh refactoring. Jawaban dokter yang disesuaikan sesuai dengan identitas asisten medis AI, yang tidak hanya mengikuti informasi penting yang diberikan oleh dokter asli, tetapi juga memberikan bantuan yang lebih kaya dan komprehensif kepada pasien.
Gambar 6: Contoh penulisan ulang dialog
Tanya Jawab Grafik Pengetahuan
Grafik pengetahuan medis berisi sejumlah besar keahlian medis yang terorganisir dengan baik, berdasarkan sampel pelatihan QA dengan noise yang lebih rendah dapat dihasilkan. Berdasarkan CMeKG, kami mengambil sampel grafik pengetahuan berdasarkan informasi departemen tentang simpul penyakit, dan menggunakan model GPT-3.5 yang dirancang dengan tepat untuk menghasilkan total lebih dari 50.000 sampel dialog adegan medis yang beragam.
Kumpulan Data Preferensi Perilaku
Pada tahap akhir pelatihan, untuk lebih meningkatkan performa model, kami menggunakan kumpulan data yang lebih sesuai dengan preferensi perilaku manusia untuk penyesuaian sekunder yang diawasi. Sekitar 2000 sampel berkualitas tinggi dan beragam dipilih secara manual dari dua kumpulan data MedDialog dan cMedQA2. Setelah menulis ulang beberapa contoh dan merevisinya secara manual ke GPT-4, kami menggunakan metode sampel kecil untuk menyediakannya ke GPT-3.5, menghasilkan hasil yang tinggi -kumpulan data preferensi perilaku berkualitas.
lainnya
Data umum. Untuk memperkaya keragaman set pelatihan dan mengurangi risiko penurunan kemampuan dasar model selama fase pelatihan SFT, kami secara acak memilih beberapa sampel dari dua kumpulan data penyempurnaan umum yang diawasi moss-sft-003 dan data alpaca gpt4 zh.
MedMCQA. Untuk meningkatkan kemampuan tanya jawab model, kami memilih MedMCQA, kumpulan data pertanyaan pilihan ganda di bidang medis Inggris, dan menggunakan GPT-3.5 untuk mengoptimalkan pertanyaan dan memperbaiki jawaban dalam pertanyaan pilihan ganda, sehingga menghasilkan sekitar 8.000 profesional Tiongkok sampel Q&A medis. .
4. Eksperimen
kereta. Seperti terlihat pada gambar di bawah, proses pelatihan DISC-MedLLM dibagi menjadi dua tahap SFT.
Gambar 7: Proses pelatihan dua tahap
Tinjauan. Kinerja LLM medis dievaluasi dalam dua skenario, yaitu QA satu putaran dan dialog multi-putaran.
Evaluasi QA putaran tunggal: Untuk mengevaluasi keakuratan model dalam hal pengetahuan medis, kami mengekstraksi 1500+ pertanyaan pilihan ganda dari Ujian Lisensi Medis Nasional Tiongkok (NMLEC) dan Ujian Masuk Master Nasional (NEEP) Jurusan Pengobatan Barat 306, mengevaluasi kinerja model dalam satu putaran QA.
Evaluasi dialog multi-putaran: Untuk mengevaluasi kemampuan dialog model secara sistematis, kami menggunakan tiga kumpulan data publik - Evaluasi Tolok Ukur Medis Tiongkok (CMB-Clin), Kumpulan Data Dialog Medis Tiongkok (CMD), dan Kumpulan Data Niat Medis Tiongkok (CMID ) memilih sampel secara acak dan GPT-3.5 bertindak sebagai dialog model pasien, dan mengusulkan empat indikator evaluasi-inisiatif, akurasi, kegunaan, dan kualitas bahasa, yang diberi skor oleh GPT-4.
Hasil evaluasi
Bandingkan model. Model kami dibandingkan dengan tiga LLM umum dan dua LLM percakapan medis Tiongkok. Termasuk GPT-3.5, GPT-4, Baichuan-13B-Chat OpenAI; BianQue-2 dan HuatuoGPT-13B.
Hasil QA putaran tunggal. Hasil keseluruhan penilaian pilihan ganda disajikan pada Tabel 2. GPT-3.5 menunjukkan keunggulan yang jelas. DISC-MedLLM meraih posisi kedua dalam pengaturan beberapa pengambilan gambar dan ketiga di belakang Baichuan-13B-Chat dalam pengaturan pengambilan gambar nol. Khususnya, kami mengungguli HuatuoGPT (13B) yang dilatih dalam lingkungan pembelajaran penguatan.
Tabel 2: Hasil evaluasi soal pilihan ganda
Hasil dari beberapa putaran dialog. Dalam evaluasi CMB-Clin, DISC-MedLLM meraih skor gabungan tertinggi, diikuti oleh HuatuoGPT. Model kami mendapat nilai teratas pada kriteria positif, menyoroti efektivitas pendekatan pelatihan kami yang bias terhadap pola perilaku medis. Hasilnya ditunjukkan pada Tabel 3.
Tabel 3: Hasil klinik CMB
Pada sampel CMD seperti terlihat pada Gambar 8, GPT-4 memperoleh skor tertinggi, disusul GPT-3.5. Skor kinerja keseluruhan model DISC-MedLLM dan HuatuoGPT di bidang medis adalah sama, dan kinerja mereka di berbagai departemen sangat luar biasa.
Gambar 8: Hasil CMD
Situasi CMID serupa dengan CMD, seperti yang ditunjukkan pada Gambar 9, GPT-4 dan GPT-3.5 tetap memimpin. Kecuali untuk seri GPT, DISC-MedLLM memiliki performa terbaik. Kinerjanya lebih baik daripada HuatuoGPT dalam tiga tujuan: penyakit, rencana pengobatan, dan pengobatan.
Gambar 9: Hasil CMID
Performa masing-masing model yang tidak konsisten antara CMB-Clin dan CMD/CMID mungkin disebabkan oleh perbedaan distribusi data antara ketiga dataset tersebut. CMD dan CMID berisi contoh pertanyaan yang lebih eksplisit, dan pasien mungkin telah memperoleh diagnosis dan menyatakan kebutuhan yang jelas ketika menjelaskan gejala, dan pertanyaan serta kebutuhan pasien bahkan mungkin tidak ada hubungannya dengan status kesehatan pribadinya. Model serba guna GPT-3.5 dan GPT-4, yang memiliki kinerja baik dalam beberapa hal, lebih baik dalam menangani situasi ini.
5.Ringkasan
Kumpulan data DISC-Med-SFT memanfaatkan keunggulan dan kemampuan dialog dunia nyata dan LLM domain umum untuk secara khusus memperkuat tiga aspek: pengetahuan domain, keterampilan dialog medis, dan preferensi manusia; kumpulan data berkualitas tinggi melatih dengan sangat baik. model medis DISC-MedLLM telah mencapai peningkatan signifikan dalam interaksi medis, menunjukkan kegunaan yang tinggi, dan menunjukkan potensi penerapan yang besar.
Penelitian di bidang ini akan membawa lebih banyak prospek dan kemungkinan untuk mengurangi biaya medis online, meningkatkan sumber daya medis, dan mencapai keseimbangan. DISC-MedLLM akan memberikan layanan medis yang nyaman dan personal kepada lebih banyak orang dan berkontribusi pada kesehatan umum.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Tim Universitas Fudan merilis asisten pribadi medis dan kesehatan Tiongkok, dan membuka sumber 470,000 kumpulan data berkualitas tinggi
Dengan maraknya telemedis, konsultasi dan konsultasi online semakin menjadi pilihan pertama bagi pasien yang mencari dukungan medis yang nyaman dan efisien. Baru-baru ini, model bahasa besar (LLM) telah menunjukkan kemampuan interaksi bahasa alami yang kuat, membawa harapan bagi asisten kesehatan dan medis untuk memasuki kehidupan masyarakat.
Skenario konsultasi medis dan kesehatan biasanya rumit, dan asisten pribadi harus memiliki pengetahuan medis yang kaya dan kemampuan untuk memahami maksud pasien melalui berbagai dialog, dan memberikan tanggapan yang profesional dan terperinci. Dalam menghadapi konsultasi medis dan kesehatan, model bahasa umum sering kali menghindari pembicaraan atau menjawab pertanyaan yang salah karena kurangnya pengetahuan medis; pada saat yang sama, model bahasa tersebut cenderung menyelesaikan konsultasi untuk putaran pertanyaan saat ini, dan kurang memuaskan dalam beberapa putaran. kemampuan bertanya. Selain itu, kumpulan data medis Tiongkok berkualitas tinggi saat ini sangat langka, sehingga menimbulkan tantangan untuk melatih model bahasa yang kuat di bidang medis.
Laboratorium Intelijen Data dan Komputasi Sosial Universitas Fudan (FudanDISC) merilis asisten pribadi medis dan kesehatan Tiongkok - DISC-MedLLM. Dalam evaluasi konsultasi medis dan kesehatan dari tanya jawab satu putaran dan dialog multi-putaran, kinerja model ini menunjukkan keunggulan yang jelas dibandingkan dengan model dialog medis besar yang ada. Tim peneliti juga merilis kumpulan data supervisored fine-tuning (SFT) berkualitas tinggi - DISC-Med-SFT yang berisi 470.000 orang.Parameter model dan laporan teknis juga bersifat open source.
*Alamat beranda: *Alamat Github:
1. Contoh tampilan
Ketika pasien merasa tidak sehat, mereka dapat meminta model untuk menjelaskan gejalanya sendiri. Model akan memberikan kemungkinan penyebab dan rekomendasi pilihan pengobatan sebagai referensi. Ketika ada kekurangan informasi, model akan secara aktif meminta penjelasan rinci tentang gejalanya. .
Pengguna juga dapat mengajukan pertanyaan konsultasi spesifik kepada model berdasarkan kondisi kesehatan mereka sendiri, dan model akan memberikan jawaban yang terperinci dan bermanfaat, serta secara aktif mengajukan pertanyaan ketika informasi kurang, sehingga meningkatkan relevansi dan keakuratan jawaban.
Pengguna juga dapat bertanya tentang ilmu kedokteran yang tidak ada hubungannya dengan dirinya, pada saat ini model akan menjawab seprofesional mungkin sehingga pengguna dapat memahaminya secara komprehensif dan akurat.
2、Pengenalan DISC-MedLLM
DISC-MedLLM adalah model medis besar yang dilatih pada domain umum model besar Tiongkok Baichuan-13B berdasarkan kumpulan data berkualitas tinggi DISC-Med-SFT yang kami buat. Perlu diperhatikan bahwa data pelatihan dan metode pelatihan kami dapat disesuaikan dengan model dasar apa pun yang besar.
DISC-MedLLM memiliki tiga fitur utama:
Kekuatan model dan kerangka konstruksi data ditunjukkan pada Gambar 5. Kami menghitung distribusi pasien sebenarnya dari skenario konsultasi nyata untuk memandu konstruksi sampel kumpulan data. Berdasarkan grafik pengetahuan medis dan data konsultasi nyata, kami menggunakan dua gagasan: large model-in-the-loop dan people-in- the-loop untuk membangun kumpulan data. .
3. Metode: Konstruksi kumpulan data DISC-Med-SFT
Selama proses pelatihan model, kami melengkapi DISC-Med-SFT dengan kumpulan data domain umum dan sampel data dari korpora yang ada untuk membentuk DISC-Med-SFT-ext. Detailnya disajikan pada Tabel 1.
Rekonstruksi Dialog AI dokter-pasien
Himpunan data. 400.000 dan 20.000 sampel dipilih secara acak dari dua kumpulan data publik, masing-masing MedDialog dan cMedQA2, sebagai sampel sumber untuk konstruksi kumpulan data SFT.
Refaktorisasi. Untuk menyesuaikan jawaban dokter di dunia nyata ke dalam jawaban format terpadu berkualitas tinggi yang diperlukan, kami menggunakan GPT-3.5 untuk menyelesaikan proses rekonstruksi kumpulan data ini. Kata-kata cepat memerlukan penulisan ulang untuk mengikuti prinsip-prinsip berikut:
Gambar 6 menunjukkan contoh refactoring. Jawaban dokter yang disesuaikan sesuai dengan identitas asisten medis AI, yang tidak hanya mengikuti informasi penting yang diberikan oleh dokter asli, tetapi juga memberikan bantuan yang lebih kaya dan komprehensif kepada pasien.
Tanya Jawab Grafik Pengetahuan
Grafik pengetahuan medis berisi sejumlah besar keahlian medis yang terorganisir dengan baik, berdasarkan sampel pelatihan QA dengan noise yang lebih rendah dapat dihasilkan. Berdasarkan CMeKG, kami mengambil sampel grafik pengetahuan berdasarkan informasi departemen tentang simpul penyakit, dan menggunakan model GPT-3.5 yang dirancang dengan tepat untuk menghasilkan total lebih dari 50.000 sampel dialog adegan medis yang beragam.
Kumpulan Data Preferensi Perilaku
Pada tahap akhir pelatihan, untuk lebih meningkatkan performa model, kami menggunakan kumpulan data yang lebih sesuai dengan preferensi perilaku manusia untuk penyesuaian sekunder yang diawasi. Sekitar 2000 sampel berkualitas tinggi dan beragam dipilih secara manual dari dua kumpulan data MedDialog dan cMedQA2. Setelah menulis ulang beberapa contoh dan merevisinya secara manual ke GPT-4, kami menggunakan metode sampel kecil untuk menyediakannya ke GPT-3.5, menghasilkan hasil yang tinggi -kumpulan data preferensi perilaku berkualitas.
lainnya
Data umum. Untuk memperkaya keragaman set pelatihan dan mengurangi risiko penurunan kemampuan dasar model selama fase pelatihan SFT, kami secara acak memilih beberapa sampel dari dua kumpulan data penyempurnaan umum yang diawasi moss-sft-003 dan data alpaca gpt4 zh.
MedMCQA. Untuk meningkatkan kemampuan tanya jawab model, kami memilih MedMCQA, kumpulan data pertanyaan pilihan ganda di bidang medis Inggris, dan menggunakan GPT-3.5 untuk mengoptimalkan pertanyaan dan memperbaiki jawaban dalam pertanyaan pilihan ganda, sehingga menghasilkan sekitar 8.000 profesional Tiongkok sampel Q&A medis. .
4. Eksperimen
kereta. Seperti terlihat pada gambar di bawah, proses pelatihan DISC-MedLLM dibagi menjadi dua tahap SFT.
Tinjauan. Kinerja LLM medis dievaluasi dalam dua skenario, yaitu QA satu putaran dan dialog multi-putaran.
Hasil evaluasi
Bandingkan model. Model kami dibandingkan dengan tiga LLM umum dan dua LLM percakapan medis Tiongkok. Termasuk GPT-3.5, GPT-4, Baichuan-13B-Chat OpenAI; BianQue-2 dan HuatuoGPT-13B.
Hasil QA putaran tunggal. Hasil keseluruhan penilaian pilihan ganda disajikan pada Tabel 2. GPT-3.5 menunjukkan keunggulan yang jelas. DISC-MedLLM meraih posisi kedua dalam pengaturan beberapa pengambilan gambar dan ketiga di belakang Baichuan-13B-Chat dalam pengaturan pengambilan gambar nol. Khususnya, kami mengungguli HuatuoGPT (13B) yang dilatih dalam lingkungan pembelajaran penguatan.
Hasil dari beberapa putaran dialog. Dalam evaluasi CMB-Clin, DISC-MedLLM meraih skor gabungan tertinggi, diikuti oleh HuatuoGPT. Model kami mendapat nilai teratas pada kriteria positif, menyoroti efektivitas pendekatan pelatihan kami yang bias terhadap pola perilaku medis. Hasilnya ditunjukkan pada Tabel 3.
Pada sampel CMD seperti terlihat pada Gambar 8, GPT-4 memperoleh skor tertinggi, disusul GPT-3.5. Skor kinerja keseluruhan model DISC-MedLLM dan HuatuoGPT di bidang medis adalah sama, dan kinerja mereka di berbagai departemen sangat luar biasa.
Situasi CMID serupa dengan CMD, seperti yang ditunjukkan pada Gambar 9, GPT-4 dan GPT-3.5 tetap memimpin. Kecuali untuk seri GPT, DISC-MedLLM memiliki performa terbaik. Kinerjanya lebih baik daripada HuatuoGPT dalam tiga tujuan: penyakit, rencana pengobatan, dan pengobatan.
Performa masing-masing model yang tidak konsisten antara CMB-Clin dan CMD/CMID mungkin disebabkan oleh perbedaan distribusi data antara ketiga dataset tersebut. CMD dan CMID berisi contoh pertanyaan yang lebih eksplisit, dan pasien mungkin telah memperoleh diagnosis dan menyatakan kebutuhan yang jelas ketika menjelaskan gejala, dan pertanyaan serta kebutuhan pasien bahkan mungkin tidak ada hubungannya dengan status kesehatan pribadinya. Model serba guna GPT-3.5 dan GPT-4, yang memiliki kinerja baik dalam beberapa hal, lebih baik dalam menangani situasi ini.
5.Ringkasan
Kumpulan data DISC-Med-SFT memanfaatkan keunggulan dan kemampuan dialog dunia nyata dan LLM domain umum untuk secara khusus memperkuat tiga aspek: pengetahuan domain, keterampilan dialog medis, dan preferensi manusia; kumpulan data berkualitas tinggi melatih dengan sangat baik. model medis DISC-MedLLM telah mencapai peningkatan signifikan dalam interaksi medis, menunjukkan kegunaan yang tinggi, dan menunjukkan potensi penerapan yang besar.
Penelitian di bidang ini akan membawa lebih banyak prospek dan kemungkinan untuk mengurangi biaya medis online, meningkatkan sumber daya medis, dan mencapai keseimbangan. DISC-MedLLM akan memberikan layanan medis yang nyaman dan personal kepada lebih banyak orang dan berkontribusi pada kesehatan umum.