Tim Universitas Fudan merilis asisten pribadi medis dan kesehatan Tiongkok, dan membuka sumber 470,000 kumpulan data berkualitas tinggi

Menunjukkan keuntungan nyata dalam sesi tanya jawab satu putaran dan dialog multi-putaran dalam evaluasi konsultasi kesehatan dan medis.

Dengan maraknya telemedis, konsultasi dan konsultasi online semakin menjadi pilihan pertama bagi pasien yang mencari dukungan medis yang nyaman dan efisien. Baru-baru ini, model bahasa besar (LLM) telah menunjukkan kemampuan interaksi bahasa alami yang kuat, membawa harapan bagi asisten kesehatan dan medis untuk memasuki kehidupan masyarakat.

Skenario konsultasi medis dan kesehatan biasanya rumit, dan asisten pribadi harus memiliki pengetahuan medis yang kaya dan kemampuan untuk memahami maksud pasien melalui berbagai dialog, dan memberikan tanggapan yang profesional dan terperinci. Dalam menghadapi konsultasi medis dan kesehatan, model bahasa umum sering kali menghindari pembicaraan atau menjawab pertanyaan yang salah karena kurangnya pengetahuan medis; pada saat yang sama, model bahasa tersebut cenderung menyelesaikan konsultasi untuk putaran pertanyaan saat ini, dan kurang memuaskan dalam beberapa putaran. kemampuan bertanya. Selain itu, kumpulan data medis Tiongkok berkualitas tinggi saat ini sangat langka, sehingga menimbulkan tantangan untuk melatih model bahasa yang kuat di bidang medis.

Laboratorium Intelijen Data dan Komputasi Sosial Universitas Fudan (FudanDISC) merilis asisten pribadi medis dan kesehatan Tiongkok - DISC-MedLLM. Dalam evaluasi konsultasi medis dan kesehatan dari tanya jawab satu putaran dan dialog multi-putaran, kinerja model ini menunjukkan keunggulan yang jelas dibandingkan dengan model dialog medis besar yang ada. Tim peneliti juga merilis kumpulan data supervisored fine-tuning (SFT) berkualitas tinggi - DISC-Med-SFT yang berisi 470.000 orang.Parameter model dan laporan teknis juga bersifat open source.

*Alamat beranda: *Alamat Github:

  • Laporan Teknis:

1. Contoh tampilan

Gambar 1: Contoh Dialog

Ketika pasien merasa tidak sehat, mereka dapat meminta model untuk menjelaskan gejalanya sendiri. Model akan memberikan kemungkinan penyebab dan rekomendasi pilihan pengobatan sebagai referensi. Ketika ada kekurangan informasi, model akan secara aktif meminta penjelasan rinci tentang gejalanya. .

Gambar 2: Dialog dalam adegan konsultasi

Pengguna juga dapat mengajukan pertanyaan konsultasi spesifik kepada model berdasarkan kondisi kesehatan mereka sendiri, dan model akan memberikan jawaban yang terperinci dan bermanfaat, serta secara aktif mengajukan pertanyaan ketika informasi kurang, sehingga meningkatkan relevansi dan keakuratan jawaban.

Gambar 3: Dialog berdasarkan konsultasi kesehatan diri

Pengguna juga dapat bertanya tentang ilmu kedokteran yang tidak ada hubungannya dengan dirinya, pada saat ini model akan menjawab seprofesional mungkin sehingga pengguna dapat memahaminya secara komprehensif dan akurat.

Gambar 4: Dialog penyelidikan pengetahuan medis yang tidak ada hubungannya dengan diri Anda sendiri

2、Pengenalan DISC-MedLLM

DISC-MedLLM adalah model medis besar yang dilatih pada domain umum model besar Tiongkok Baichuan-13B berdasarkan kumpulan data berkualitas tinggi DISC-Med-SFT yang kami buat. Perlu diperhatikan bahwa data pelatihan dan metode pelatihan kami dapat disesuaikan dengan model dasar apa pun yang besar.

DISC-MedLLM memiliki tiga fitur utama:

  • Pengetahuan profesional yang andal dan kaya. Kami menggunakan grafik pengetahuan medis sebagai sumber informasi, sampel rangkap tiga, dan menggunakan kemampuan bahasa model besar umum untuk membuat sampel dialog.
  • Kemampuan penyelidikan untuk beberapa putaran dialog. Kami menggunakan catatan dialog konsultasi nyata sebagai sumber informasi, dan menggunakan model besar untuk rekonstruksi dialog.Selama proses konstruksi, model tersebut harus sepenuhnya selaras dengan informasi medis dalam dialog.
  • Sejajarkan tanggapan dengan preferensi manusia. Pasien berharap mendapatkan informasi pendukung dan latar belakang pengetahuan yang lebih kaya selama proses konsultasi, namun jawaban dokter manusia seringkali singkat; kami membuat sampel instruksi skala kecil berkualitas tinggi melalui penyaringan manual untuk menyelaraskan dengan kebutuhan pasien.

Kekuatan model dan kerangka konstruksi data ditunjukkan pada Gambar 5. Kami menghitung distribusi pasien sebenarnya dari skenario konsultasi nyata untuk memandu konstruksi sampel kumpulan data. Berdasarkan grafik pengetahuan medis dan data konsultasi nyata, kami menggunakan dua gagasan: large model-in-the-loop dan people-in- the-loop untuk membangun kumpulan data. .

Gambar 5: Konstruksi DISC-Med-SFT

3. Metode: Konstruksi kumpulan data DISC-Med-SFT

Selama proses pelatihan model, kami melengkapi DISC-Med-SFT dengan kumpulan data domain umum dan sampel data dari korpora yang ada untuk membentuk DISC-Med-SFT-ext. Detailnya disajikan pada Tabel 1.

Tabel 1: Pengenalan konten data DISC-Med-SFT-ext

Rekonstruksi Dialog AI dokter-pasien

Himpunan data. 400.000 dan 20.000 sampel dipilih secara acak dari dua kumpulan data publik, masing-masing MedDialog dan cMedQA2, sebagai sampel sumber untuk konstruksi kumpulan data SFT.

Refaktorisasi. Untuk menyesuaikan jawaban dokter di dunia nyata ke dalam jawaban format terpadu berkualitas tinggi yang diperlukan, kami menggunakan GPT-3.5 untuk menyelesaikan proses rekonstruksi kumpulan data ini. Kata-kata cepat memerlukan penulisan ulang untuk mengikuti prinsip-prinsip berikut:

  • Hapus ekspresi verbal, ekstrak ekspresi terpadu, dan perbaiki ketidakkonsistenan dalam penggunaan bahasa dokter.
  • Patuhi informasi kunci pada jawaban dokter asli dan berikan penjelasan yang sesuai agar lebih komprehensif dan logis.
  • Tulis ulang atau hapus tanggapan yang tidak boleh dikirimkan oleh dokter AI, seperti meminta pasien untuk membuat janji.

Gambar 6 menunjukkan contoh refactoring. Jawaban dokter yang disesuaikan sesuai dengan identitas asisten medis AI, yang tidak hanya mengikuti informasi penting yang diberikan oleh dokter asli, tetapi juga memberikan bantuan yang lebih kaya dan komprehensif kepada pasien.

Gambar 6: Contoh penulisan ulang dialog

Tanya Jawab Grafik Pengetahuan

Grafik pengetahuan medis berisi sejumlah besar keahlian medis yang terorganisir dengan baik, berdasarkan sampel pelatihan QA dengan noise yang lebih rendah dapat dihasilkan. Berdasarkan CMeKG, kami mengambil sampel grafik pengetahuan berdasarkan informasi departemen tentang simpul penyakit, dan menggunakan model GPT-3.5 yang dirancang dengan tepat untuk menghasilkan total lebih dari 50.000 sampel dialog adegan medis yang beragam.

Kumpulan Data Preferensi Perilaku

Pada tahap akhir pelatihan, untuk lebih meningkatkan performa model, kami menggunakan kumpulan data yang lebih sesuai dengan preferensi perilaku manusia untuk penyesuaian sekunder yang diawasi. Sekitar 2000 sampel berkualitas tinggi dan beragam dipilih secara manual dari dua kumpulan data MedDialog dan cMedQA2. Setelah menulis ulang beberapa contoh dan merevisinya secara manual ke GPT-4, kami menggunakan metode sampel kecil untuk menyediakannya ke GPT-3.5, menghasilkan hasil yang tinggi -kumpulan data preferensi perilaku berkualitas.

lainnya

Data umum. Untuk memperkaya keragaman set pelatihan dan mengurangi risiko penurunan kemampuan dasar model selama fase pelatihan SFT, kami secara acak memilih beberapa sampel dari dua kumpulan data penyempurnaan umum yang diawasi moss-sft-003 dan data alpaca gpt4 zh.

MedMCQA. Untuk meningkatkan kemampuan tanya jawab model, kami memilih MedMCQA, kumpulan data pertanyaan pilihan ganda di bidang medis Inggris, dan menggunakan GPT-3.5 untuk mengoptimalkan pertanyaan dan memperbaiki jawaban dalam pertanyaan pilihan ganda, sehingga menghasilkan sekitar 8.000 profesional Tiongkok sampel Q&A medis. .

4. Eksperimen

kereta. Seperti terlihat pada gambar di bawah, proses pelatihan DISC-MedLLM dibagi menjadi dua tahap SFT.

Gambar 7: Proses pelatihan dua tahap

Tinjauan. Kinerja LLM medis dievaluasi dalam dua skenario, yaitu QA satu putaran dan dialog multi-putaran.

  1. Evaluasi QA putaran tunggal: Untuk mengevaluasi keakuratan model dalam hal pengetahuan medis, kami mengekstraksi 1500+ pertanyaan pilihan ganda dari Ujian Lisensi Medis Nasional Tiongkok (NMLEC) dan Ujian Masuk Master Nasional (NEEP) Jurusan Pengobatan Barat 306, mengevaluasi kinerja model dalam satu putaran QA.
  2. Evaluasi dialog multi-putaran: Untuk mengevaluasi kemampuan dialog model secara sistematis, kami menggunakan tiga kumpulan data publik - Evaluasi Tolok Ukur Medis Tiongkok (CMB-Clin), Kumpulan Data Dialog Medis Tiongkok (CMD), dan Kumpulan Data Niat Medis Tiongkok (CMID ) memilih sampel secara acak dan GPT-3.5 bertindak sebagai dialog model pasien, dan mengusulkan empat indikator evaluasi-inisiatif, akurasi, kegunaan, dan kualitas bahasa, yang diberi skor oleh GPT-4.

Hasil evaluasi

Bandingkan model. Model kami dibandingkan dengan tiga LLM umum dan dua LLM percakapan medis Tiongkok. Termasuk GPT-3.5, GPT-4, Baichuan-13B-Chat OpenAI; BianQue-2 dan HuatuoGPT-13B.

Hasil QA putaran tunggal. Hasil keseluruhan penilaian pilihan ganda disajikan pada Tabel 2. GPT-3.5 menunjukkan keunggulan yang jelas. DISC-MedLLM meraih posisi kedua dalam pengaturan beberapa pengambilan gambar dan ketiga di belakang Baichuan-13B-Chat dalam pengaturan pengambilan gambar nol. Khususnya, kami mengungguli HuatuoGPT (13B) yang dilatih dalam lingkungan pembelajaran penguatan.

Tabel 2: Hasil evaluasi soal pilihan ganda

Hasil dari beberapa putaran dialog. Dalam evaluasi CMB-Clin, DISC-MedLLM meraih skor gabungan tertinggi, diikuti oleh HuatuoGPT. Model kami mendapat nilai teratas pada kriteria positif, menyoroti efektivitas pendekatan pelatihan kami yang bias terhadap pola perilaku medis. Hasilnya ditunjukkan pada Tabel 3.

Tabel 3: Hasil klinik CMB

Pada sampel CMD seperti terlihat pada Gambar 8, GPT-4 memperoleh skor tertinggi, disusul GPT-3.5. Skor kinerja keseluruhan model DISC-MedLLM dan HuatuoGPT di bidang medis adalah sama, dan kinerja mereka di berbagai departemen sangat luar biasa.

Gambar 8: Hasil CMD

Situasi CMID serupa dengan CMD, seperti yang ditunjukkan pada Gambar 9, GPT-4 dan GPT-3.5 tetap memimpin. Kecuali untuk seri GPT, DISC-MedLLM memiliki performa terbaik. Kinerjanya lebih baik daripada HuatuoGPT dalam tiga tujuan: penyakit, rencana pengobatan, dan pengobatan.

Gambar 9: Hasil CMID

Performa masing-masing model yang tidak konsisten antara CMB-Clin dan CMD/CMID mungkin disebabkan oleh perbedaan distribusi data antara ketiga dataset tersebut. CMD dan CMID berisi contoh pertanyaan yang lebih eksplisit, dan pasien mungkin telah memperoleh diagnosis dan menyatakan kebutuhan yang jelas ketika menjelaskan gejala, dan pertanyaan serta kebutuhan pasien bahkan mungkin tidak ada hubungannya dengan status kesehatan pribadinya. Model serba guna GPT-3.5 dan GPT-4, yang memiliki kinerja baik dalam beberapa hal, lebih baik dalam menangani situasi ini.

5.Ringkasan

Kumpulan data DISC-Med-SFT memanfaatkan keunggulan dan kemampuan dialog dunia nyata dan LLM domain umum untuk secara khusus memperkuat tiga aspek: pengetahuan domain, keterampilan dialog medis, dan preferensi manusia; kumpulan data berkualitas tinggi melatih dengan sangat baik. model medis DISC-MedLLM telah mencapai peningkatan signifikan dalam interaksi medis, menunjukkan kegunaan yang tinggi, dan menunjukkan potensi penerapan yang besar.

Penelitian di bidang ini akan membawa lebih banyak prospek dan kemungkinan untuk mengurangi biaya medis online, meningkatkan sumber daya medis, dan mencapai keseimbangan. DISC-MedLLM akan memberikan layanan medis yang nyaman dan personal kepada lebih banyak orang dan berkontribusi pada kesehatan umum.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)