Fudan Üniversitesi ekibi, Çin tıbbi ve sağlık kişisel asistanını yayınlarken, açık kaynaklı 470.000 yüksek kaliteli veri seti

2023-09-03 03:11:50

Tek turlu Soru-Cevap ve çok turlu diyaloglu tıbbi ve sağlık konsültasyon değerlendirmelerinde bariz avantajlar gösterdi.

Teletıpın yükselişiyle birlikte, çevrimiçi konsültasyon ve konsültasyon, uygun ve etkili tıbbi destek arayan hastaların giderek artan bir şekilde ilk tercihi haline geldi. Son zamanlarda, büyük dil modelleri (LLM) güçlü doğal dil etkileşimi yeteneklerini göstererek sağlık tıp asistanlarının insanların hayatlarına girmeleri için umut yarattı.

Tıbbi ve sağlık konsültasyon senaryoları genellikle karmaşıktır. Kişisel asistanların zengin tıbbi bilgiye sahip olması, çoklu diyalog turları yoluyla hastanın niyetini anlama ve profesyonel ve ayrıntılı yanıtlar verme becerisine sahip olması gerekir. Tıbbi ve sağlık konsültasyonlarıyla karşı karşıya kalındığında, genel dil modelleri genellikle konuşmaktan kaçınır veya tıbbi bilgi eksikliği nedeniyle sorulmayan soruları yanıtlamaktan kaçınır; aynı zamanda konsültasyonu mevcut soru turunda tamamlama eğilimindedirler ve tatmin edici bir şekilde cevap verme becerisinden yoksundurlar. birden fazla soru turunu takip edin. Ayrıca, yüksek kaliteli Çin tıbbi veri kümeleri şu anda çok nadir bulunuyor ve bu da tıp alanında güçlü dil modellerinin eğitimi konusunda zorluk teşkil ediyor.

Fudan Üniversitesi Veri Zekası ve Sosyal Bilgi İşlem Laboratuvarı (FudanDISC), Çin tıbbi ve sağlık kişisel asistanı DISC-MedLLM'yi piyasaya sürdü. Tek turlu soru-cevap ve çok turlu diyaloğun tıbbi ve sağlık konsültasyonu değerlendirmesinde, modelin performansı, mevcut büyük tıbbi diyalog modelleriyle karşılaştırıldığında bariz avantajlar göstermektedir. Araştırma ekibi ayrıca 470.000 kişiyi içeren yüksek kaliteli denetimli ince ayar (SFT) veri seti - DISC-Med-SFT'yi yayınladı.Model parametreleri ve teknik raporlar da açık kaynaktır.

*Ana sayfa adresi: *Github adresi:

Teknik Raporlar:

1. Örnek ekran

Şekil 1: Diyalog örneği

Hastalar kendilerini iyi hissetmediğinde modelden kendi semptomlarını açıklamasını isteyebilir. Model olası nedenleri ve önerilen tedavi seçeneklerini referans olarak verecektir. Bilgi eksikliği olduğunda model aktif olarak semptomların ayrıntılı bir açıklamasını isteyecektir. .

Şekil 2: İstişare sahnesindeki diyalog

Kullanıcılar ayrıca kendi sağlık durumlarına göre modele özel danışma soruları sorabilirler ve model ayrıntılı ve yararlı yanıtlar verecek ve yanıtın uygunluğunu ve doğruluğunu artırmak için bilgi eksik olduğunda aktif olarak sorular soracaktır.

Şekil 3: Kişinin kendi sağlık durumuna ilişkin istişareye dayalı diyalog

Kullanıcılar ayrıca kendileriyle hiçbir ilgisi olmayan tıbbi bilgileri de sorabilirler ve model mümkün olduğunca profesyonel bir şekilde yanıt vererek kullanıcıların kapsamlı ve doğru bir şekilde anlayabilmesini sağlar.

Şekil 4: Sizinle hiçbir ilgisi olmayan tıbbi bilgi sorgulama diyalogu

2. DISC-MedLLM'ye Giriş

DISC-MedLLM, yüksek kaliteli veri setimiz DISC-Med-SFT'yi temel alan Çin büyük modeli Baichuan-13B genel alanı üzerinde eğitilmiş büyük bir tıbbi modeldir. Özellikle eğitim verilerimiz ve eğitim yöntemimiz herhangi bir temel büyük modele uyarlanabilir.

DISC-MedLLM'nin üç temel özelliği vardır:

Güvenilir ve zengin mesleki bilgi. Bilgi kaynağı olarak tıbbi bilgi grafiğini, örnek üçlüleri kullanıyoruz ve diyalog örnekleri oluşturmak için genel büyük modelin dil yeteneklerini kullanıyoruz.
Çoklu diyalog turları için sorgulama yeteneği. Bilgi kaynağı olarak gerçek konsültasyon diyalog kayıtlarını kullanıyoruz ve diyaloğu yeniden yapılandırmak için büyük modeller kullanıyoruz.İnşaat sürecinde, modelin diyalogdaki tıbbi bilgileri tamamen hizalaması gerekiyor.
Yanıtları insan tercihlerine göre hizalayın. Hastalar, konsültasyon süreci sırasında daha zengin destekleyici bilgi ve arka plan bilgisi elde etmeyi umuyor ancak insan doktorların yanıtları genellikle kısa ve öz oluyor; manuel tarama yoluyla, hastaların ihtiyaçlarına uygun, yüksek kaliteli, küçük ölçekli talimat örnekleri oluşturuyoruz.

Modelin ve veri oluşturma çerçevesinin avantajları Şekil 5'te gösterilmektedir. Veri setinin örnek oluşturulmasına rehberlik etmek için hastaların gerçek dağılımını gerçek konsültasyon senaryolarından hesaplıyoruz. Tıbbi bilgi haritasına ve gerçek konsültasyon verilerine dayanarak, döngüdeki büyük model ve döngüdeki insanlar şeklindeki iki fikri kullanıyoruz. veri kümesi

Şekil 5: DISC-Med-SFT'nin yapımı

3. Yöntem: DISC-Med-SFT veri kümesinin oluşturulması

Model eğitimi sürecinde, DISC-Med-SFT'yi genel alan veri setleri ve mevcut derlemlerden veri örnekleriyle destekleyerek, ayrıntıları Tablo 1'de sunulan DISC-Med-SFT-ext'i oluşturduk.

Tablo 1: DISC-Med-SFT-ext veri içeriği tanıtımı

Yeniden inşa Yapay zeka doktor-hasta diyalogu

veri seti. SFT veri kümesi yapımı için kaynak örnekler olarak sırasıyla MedDialog ve cMedQA2 olmak üzere iki genel veri kümesinden 400.000 ve 20.000 örnek rastgele seçilir.

Yeniden düzenleme. Gerçek dünyadaki doktor yanıtlarını istenen yüksek kaliteli yanıtlara birleştirilmiş bir formatta uyarlamak amacıyla, bu veri kümesinin yeniden yapılandırma sürecini tamamlamak için GPT-3.5'i kullanıyoruz. Bilgi istemi sözcük(ler)i aşağıdaki ilkeleri takip edecek şekilde yeniden yazmayı gerektirir:

Sözlü ifadeleri kaldırın, birleşik ifadeleri çıkarın ve doktorların dil kullanımındaki tutarsızlıkları düzeltin.
Orijinal doktorun cevabındaki temel bilgilere sadık kalın ve daha kapsamlı ve mantıklı olması için uygun açıklamalar yapın.
Hastalardan randevu almalarını istemek gibi AI doktorlarının göndermemesi gereken yanıtları yeniden yazın veya silin.

Şekil 6 yeniden düzenleme örneğini göstermektedir. Ayarlanan doktorun cevabı, yalnızca asıl doktorun sağladığı temel bilgilere uymakla kalmayıp aynı zamanda hastalara daha zengin ve daha kapsamlı yardım sağlayan yapay zekalı tıbbi asistanın kimliğiyle tutarlıdır.

Şekil 6: Diyaloğu yeniden yazma örneği

Bilgi Grafiği Soru-Cevap

Tıbbi bilgi grafiği, daha düşük gürültüye sahip QA eğitim örneklerinin oluşturulabileceği büyük miktarda iyi organize edilmiş tıbbi uzmanlık içerir. CMeKG'yi temel alarak, bilgi grafiğinde hastalık düğümlerinin departman bilgilerine göre örnekleme yaptık ve toplamda 50.000'den fazla farklı tıbbi sahne diyalog örneği oluşturmak için uygun şekilde tasarlanmış GPT-3.5 modellerini kullandık.

Davranışsal Tercih Veri Kümesi

Eğitimin son aşamasında, modelin performansını daha da artırmak amacıyla, insan davranışı tercihleriyle daha tutarlı bir veri seti kullanarak ikincil denetimli ince ayar yapıyoruz. MedDialog ve cMedQA2'nin iki veri kümesinden yaklaşık 2000 yüksek kaliteli, çeşitli örnek manuel olarak seçildi. Birkaç örneği yeniden yazdıktan ve bunları GPT-4'e göre manuel olarak revize ettikten sonra, bunları GPT-3.5'e sağlamak için küçük örnek yöntemini kullandık ve yüksek sonuç elde ettik. -kaliteli davranışsal tercih veri kümeleri.

diğer

Genel veri. Eğitim setinin çeşitliliğini zenginleştirmek ve SFT eğitim aşaması sırasında modelin temel yetenek bozulması riskini azaltmak için, iki genel denetlenen ince ayar veri kümesi moss-sft-003 ve alpaca gpt4 data zh'den rastgele birkaç örnek seçtik.

MedMCQA. Modelin Soru-Cevap yeteneklerini geliştirmek için, İngiliz tıp alanında çoktan seçmeli bir soru veri seti olan MedMCQA'yı seçtik ve çoktan seçmeli sorulardaki soruları ve doğru yanıtları optimize etmek için GPT-3.5'i kullanarak yaklaşık 8.000 profesyonel Çinli kullanıcı oluşturduk. tıbbi soru-cevap örnekleri.

4. Deney

tren. Aşağıdaki şekilde gösterildiği gibi DISC-MedLLM eğitim süreci iki SFT aşamasına ayrılmıştır.

Şekil 7: İki aşamalı eğitim süreci

Gözden geçirmek. Tıbbi Yüksek Lisans'ın performansı, tek turlu QA ve çok turlu diyalog olmak üzere iki senaryoda değerlendirilir.

Tek turlu QA değerlendirmesi: Modelin tıbbi bilgi açısından doğruluğunu değerlendirmek amacıyla Çin Ulusal Tıbbi Yeterlilik Sınavından (NMLEC) ve Ulusal Lisansüstü Giriş Sınavından (NEEP) 1500'den fazla çoktan seçmeli soru çıkardık. Western Medicine 306 major, modelin performansını tek bir QA turunda değerlendirmek için.
Çok yönlü diyalog değerlendirmesi: Modelin diyalog yeteneğini sistematik olarak değerlendirmek için üç genel veri setinden başladık: Çin Tıbbi Benchmark (CMB-Clin), Çin Tıbbi Diyalog Veri Seti (CMD) ve Çin Tıbbi Niyet Veri Seti ( CMID) örnekleri rastgele seçer ve hastaların rolünü oynamak ve modelle konuşmak için GPT-3.5'i kullanır. GPT-4 tarafından puanlanan dört değerlendirme göstergesi (girişim, doğruluk, kullanışlılık ve dil kalitesi) önerilmektedir.

Değerlendirme sonuçları

Modelleri karşılaştırın. Modelimizi üç genel amaçlı Yüksek Lisans ve iki Çin tıbbi diyalog Yüksek Lisansı ile karşılaştırın. OpenAI'nin GPT-3.5, GPT-4, Baichuan-13B-Chat, BianQue-2 ve HuatuoGPT-13B dahil.

Tek turlu QA sonuçları. Çoktan seçmeli değerlendirmenin genel sonuçları Tablo 2'de gösterilmektedir. GPT-3.5 açık bir fark gösteriyor. DISC-MedLLM, birkaç atış ayarında ikinci, sıfır atış ayarında Baichuan-13B-Chat'in ardından üçüncü sırada yer alıyor. Takviyeli öğrenme ortamında eğitilen HuatuoGPT'den (13B) daha iyi performans gösterdiğimiz dikkat çekiyor.

Tablo 2: Çoktan seçmeli soruların değerlendirme sonuçları

Çoklu diyalog turlarının sonuçları. CMB-Clin değerlendirmesinde DISC-MedLLM en yüksek bileşik puanı elde ederken onu HuatuoGPT izledi. Modelimiz pozitiflik kriterinde en yüksek puanı alarak tıbbi davranış kalıplarını saptıran eğitim yaklaşımımızın etkinliğini vurguladı. Sonuçlar Tablo 3'te gösterilmektedir.

Tablo 3: SPK klinik sonuçları

CMD örneğinde, Şekil 8'de gösterildiği gibi, GPT-4 en yüksek puanı alırken, bunu GPT-3.5 takip etti. DISC-MedLLM ve HuatuoGPT modellerinin tıp alanındaki genel performans puanları aynı olup, farklı departmanlardaki performansları olağanüstüdür.

Şekil 8: CMD sonuçları

CMID'nin durumu, Şekil 9'da gösterildiği gibi GPT-4 ve GPT-3.5'in liderliğini koruduğu CMD'nin durumuna benzer. GPT serisi dışında DISC-MedLLM en iyi performansı gösterdi. Hastalık, tedavi rejimi ve ilaç olmak üzere üç açıdan HuatuoGPT'den daha iyi performans gösterdi.

Şekil 9: CMID sonuçları

CMB-Clin ve CMD/CMID arasındaki her modelin tutarsız performansı, üç veri seti arasındaki farklı veri dağılımından kaynaklanıyor olabilir. CMD ve CMID daha açık soru örnekleri içerir ve hastalar semptomları anlatırken tanı almış ve ihtiyaçlarını net bir şekilde ifade etmiş olabilirler, hatta hastanın soru ve ihtiyaçlarının kişisel sağlık durumuyla hiçbir ilgisi olmayabilir. Pek çok açıdan öne çıkan genel amaçlı GPT-3.5 ve GPT-4 modelleri bu durumu daha iyi yönetiyor.

5. Özet

DISC-Med-SFT veri seti, gerçek dünya diyaloğunun ve genel alan yüksek öğreniminin avantaj ve yeteneklerinden yararlanarak üç hususu özellikle güçlendirir: alan bilgisi, tıbbi diyalog becerileri ve insan tercihleri; yüksek kaliteli veri seti mükemmel eğitim sağlar DISC-MedLLM tıbbi modeli, tıbbi etkileşimde önemli gelişmeler elde etmiş, yüksek kullanılabilirlik sergilemekte ve büyük uygulama potansiyeli göstermektedir.

Bu alandaki araştırmalar, çevrimiçi tıbbi maliyetlerin azaltılması, tıbbi kaynakların teşvik edilmesi ve dengenin sağlanması için daha fazla fırsat ve olasılık getirecektir. DISC-MedLLM, daha fazla kişiye uygun ve kişiselleştirilmiş tıbbi hizmetler sunacak ve genel sağlık amacına katkıda bulunacaktır.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
1/3
1ETH Breaks Through $3,800
7k Popularity
2Gate June Transparency Report
3k Popularity
3Altcoins on the Rise
9k Popularity
4Gate Square Creator Spark Program
158k Popularity
5Content Mining & Earn Rich Commission
1834k Popularity

sitemap