Nhóm Đại học Phúc Đán phát hành trợ lý cá nhân y tế và sức khỏe Trung Quốc cùng 470.000 bộ dữ liệu chất lượng cao nguồn mở

Thể hiện những lợi thế rõ ràng trong phần Hỏi đáp một vòng và đối thoại nhiều vòng đánh giá tư vấn y tế và sức khỏe.

Với sự phát triển của y học từ xa, tư vấn và tư vấn trực tuyến ngày càng trở thành lựa chọn hàng đầu cho những bệnh nhân đang tìm kiếm sự hỗ trợ y tế thuận tiện và hiệu quả. Gần đây, mô hình ngôn ngữ lớn (LLM) đã chứng tỏ khả năng tương tác ngôn ngữ tự nhiên mạnh mẽ, mang hy vọng về sức khỏe, trợ lý y tế đi vào cuộc sống của người dân.

Các tình huống tư vấn y tế và sức khỏe thường phức tạp, trợ lý cá nhân cần phải có kiến thức y tế phong phú và khả năng hiểu ý định của bệnh nhân thông qua nhiều vòng đối thoại và đưa ra phản hồi chuyên nghiệp và chi tiết. Khi tư vấn y tế, sức khỏe, người mẫu ngôn ngữ tổng quát thường tránh nói hoặc trả lời những câu hỏi không được hỏi do thiếu kiến thức y khoa; đồng thời, họ có xu hướng tư vấn hết vòng câu hỏi hiện tại và thiếu thỏa đáng nhiều vòng. khả năng đặt câu hỏi. Ngoài ra, bộ dữ liệu y tế chất lượng cao của Trung Quốc hiện rất hiếm, điều này đặt ra thách thức cho việc đào tạo các mô hình ngôn ngữ mạnh mẽ trong lĩnh vực y tế.

Phòng thí nghiệm máy tính xã hội và trí tuệ dữ liệu của Đại học Fudan (FudanDISC) ra mắt trợ lý cá nhân y tế và sức khỏe Trung Quốc - DISC-MedLLM. Trong các đánh giá tư vấn y tế và sức khỏe bằng cách hỏi đáp một vòng và đối thoại nhiều vòng, hiệu quả hoạt động của mô hình cho thấy những ưu điểm rõ ràng so với các mô hình đối thoại y tế lớn hiện có. Nhóm nghiên cứu cũng đã phát hành bộ dữ liệu tinh chỉnh có giám sát (SFT) chất lượng cao gồm 470.000 - DISC-Med-SFT, đồng thời các thông số mô hình và báo cáo kỹ thuật cũng là nguồn mở.

*Địa chỉ trang chủ: *Địa chỉ Github:

  • Báo cáo kỹ thuật:

1. Hiển thị mẫu

Hình 1: Ví dụ về hội thoại

Khi người bệnh cảm thấy không khỏe, họ có thể tham khảo mô hình và mô tả các triệu chứng của mình, mô hình sẽ đưa ra các nguyên nhân có thể xảy ra, đề xuất kế hoạch điều trị… để tham khảo, khi thiếu thông tin sẽ chủ động yêu cầu mô tả chi tiết các triệu chứng.

Hình 2: Đối thoại trong cảnh tư vấn

Người dùng cũng có thể đặt các câu hỏi tư vấn cụ thể cho mô hình dựa trên tình trạng sức khỏe của chính họ và mô hình sẽ đưa ra câu trả lời chi tiết và hữu ích, đồng thời chủ động đặt câu hỏi khi thiếu thông tin để nâng cao tính phù hợp và chính xác của câu trả lời.

Hình 3: Đối thoại dựa trên tư vấn về tình trạng sức khỏe của chính mình

Người dùng cũng có thể hỏi những kiến thức y khoa không liên quan đến mình, người mẫu sẽ trả lời một cách chuyên nghiệp nhất có thể để người dùng có thể hiểu một cách toàn diện và chính xác.

Hình 4: Đối thoại hỏi đáp kiến thức y khoa không liên quan gì đến bản thân bạn

2. Giới thiệu về DISC-MedLLM

DISC-MedLLM là một mô hình y tế lớn được đào tạo trên miền chung mô hình lớn Baichuan-13B của Trung Quốc dựa trên tập dữ liệu chất lượng cao DISC-Med-SFT của chúng tôi. Điều đáng chú ý là dữ liệu đào tạo và phương pháp đào tạo của chúng tôi có thể được điều chỉnh cho phù hợp với bất kỳ mô hình lớn cơ sở nào.

DISC-MedLLM có ba tính năng chính:

  • Kiến thức chuyên môn phong phú và đáng tin cậy. Chúng tôi sử dụng biểu đồ kiến thức y tế làm nguồn thông tin, bộ ba mẫu và sử dụng khả năng ngôn ngữ của mô hình lớn chung để xây dựng các mẫu đối thoại.
  • Khả năng điều tra cho nhiều vòng đối thoại. Chúng tôi sử dụng các bản ghi đối thoại thực tế của cuộc tư vấn làm nguồn thông tin và sử dụng một mô hình lớn để tái hiện cuộc đối thoại, trong quá trình xây dựng, mô hình này phải hoàn toàn phù hợp với thông tin y tế trong cuộc đối thoại.
  • Căn chỉnh các phản hồi theo sở thích của con người. Bệnh nhân hy vọng có được thông tin hỗ trợ và kiến thức nền phong phú hơn trong quá trình tư vấn, nhưng câu trả lời của bác sĩ thường ngắn gọn; thông qua sàng lọc thủ công, chúng tôi xây dựng các mẫu hướng dẫn quy mô nhỏ, chất lượng cao để phù hợp với nhu cầu của bệnh nhân.

Điểm mạnh của mô hình và khung xây dựng dữ liệu được thể hiện trong Hình 5. Chúng tôi đã tính toán phân bố bệnh nhân thực tế từ các kịch bản tư vấn thực tế để hướng dẫn xây dựng tập dữ liệu mẫu. Dựa trên biểu đồ kiến thức y tế và dữ liệu tư vấn thực tế, chúng tôi sử dụng hai ý tưởng: mô hình lớn trong vòng lặp và người trong- vòng lặp để xây dựng tập dữ liệu. .

Hình 5: Cấu trúc DISC-Med-SFT

3. Phương pháp: Xây dựng tập dữ liệu DISC-Med-SFT

Trong quá trình đào tạo mô hình, chúng tôi đã bổ sung DISC-Med-SFT các bộ dữ liệu miền chung và các mẫu dữ liệu từ tập đoàn hiện có để tạo thành DISC-Med-SFT-ext. Chi tiết được trình bày trong Bảng 1.

Bảng 1: Giới thiệu nội dung dữ liệu DISC-Med-SFT-ext

Tái thiết Đối thoại bác sĩ-bệnh nhân AI

tập dữ liệu. 400.000 và 20.000 mẫu được chọn ngẫu nhiên từ hai bộ dữ liệu công khai, MedDialog và cMedQA2, tương ứng làm mẫu nguồn để xây dựng bộ dữ liệu SFT.

cấu trúc lại. Để điều chỉnh phản hồi của bác sĩ trong thế giới thực cho phù hợp với phản hồi chất lượng cao mong muốn ở định dạng thống nhất, chúng tôi sử dụng GPT-3.5 để hoàn tất quá trình xây dựng lại tập dữ liệu này. (Các) từ gợi ý cần phải viết lại theo nguyên tắc sau:

  • Loại bỏ các cách diễn đạt bằng lời nói, trích xuất các cách diễn đạt thống nhất và sửa những điểm không nhất quán trong cách sử dụng ngôn ngữ của bác sĩ.
  • Bám sát những thông tin chính trong câu trả lời ban đầu của bác sĩ và đưa ra những lời giải thích phù hợp để câu trả lời toàn diện và logic hơn.
  • Viết lại hoặc xóa các phản hồi mà bác sĩ AI không nên gửi, chẳng hạn như yêu cầu bệnh nhân đặt lịch hẹn.

Hình 6 cho thấy một ví dụ về tái cấu trúc. Câu trả lời của bác sĩ được điều chỉnh phù hợp với danh tính của trợ lý y tế AI, điều này không chỉ tuân thủ các thông tin chính do bác sĩ ban đầu cung cấp mà còn cung cấp cho bệnh nhân sự trợ giúp toàn diện hơn.

Hình 6: Ví dụ về viết lại đoạn hội thoại

Hỏi đáp về Sơ đồ tri thức

Biểu đồ kiến thức y tế chứa một lượng lớn chuyên môn y tế được tổ chức tốt, dựa trên đó có thể tạo ra các mẫu đào tạo QA ít ồn ào hơn. Dựa trên CMeKG, chúng tôi đã lấy mẫu trong biểu đồ tri thức theo thông tin khoa của các nút bệnh và sử dụng các mô hình GPT-3.5 được thiết kế phù hợp để tạo ra tổng cộng hơn 50.000 mẫu hội thoại cảnh y tế đa dạng.

Bộ dữ liệu sở thích hành vi

Trong giai đoạn đào tạo cuối cùng, để cải thiện hơn nữa hiệu suất của mô hình, chúng tôi thực hiện tinh chỉnh có giám sát thứ cấp bằng cách sử dụng bộ dữ liệu phù hợp hơn với sở thích hành vi của con người. Khoảng 2000 mẫu đa dạng, chất lượng cao đã được chọn thủ công từ hai bộ dữ liệu MedDialog và cMedQA2. Sau khi viết lại một số ví dụ và chỉnh sửa thủ công thành GPT-4, chúng tôi đã sử dụng phương pháp lấy mẫu nhỏ để cung cấp cho GPT-3.5, tạo ra hiệu suất cao -bộ dữ liệu sở thích hành vi chất lượng.

khác

dữ liệu chung. Để làm phong phú thêm tính đa dạng của tập huấn luyện và giảm nguy cơ suy giảm các khả năng cơ bản của mô hình trong giai đoạn huấn luyện SFT, chúng tôi đã chọn ngẫu nhiên một số mẫu từ hai bộ dữ liệu tinh chỉnh được giám sát phổ biến là rêu-sft-003 và dữ liệu alpaca gpt4 zh.

MedMCQA. Để nâng cao khả năng Hỏi đáp của mô hình, chúng tôi đã chọn MedMCQA, một bộ dữ liệu câu hỏi trắc nghiệm trong lĩnh vực y tế tiếng Anh và sử dụng GPT-3.5 để tối ưu hóa các câu hỏi và sửa câu trả lời trong các câu hỏi trắc nghiệm, tạo ra khoảng 8.000 câu hỏi tiếng Trung chuyên nghiệp mẫu hỏi đáp y tế. .

4. Thử nghiệm

xe lửa. Như thể hiện trong hình bên dưới, quá trình đào tạo DISC-MedLLM được chia thành hai giai đoạn SFT.

Hình 7: Quá trình đào tạo hai giai đoạn

sự đánh giá. Hiệu suất của LLM y tế được đánh giá theo hai kịch bản, đó là QA một vòng và đối thoại nhiều lượt.

  1. Đánh giá QA một vòng: Để đánh giá tính chính xác của mô hình về mặt kiến thức y tế, chúng tôi đã trích xuất hơn 1500 câu hỏi trắc nghiệm từ Kỳ thi cấp giấy phép y tế quốc gia Trung Quốc (NMLEC) và Kỳ thi tuyển sinh thạc sĩ quốc gia (NEEP) Tây Y 306 chuyên ngành, để đánh giá hiệu quả hoạt động của mô hình trong một vòng QA.
  2. Đánh giá đối thoại nhiều vòng: Để đánh giá một cách có hệ thống khả năng đối thoại của mô hình, chúng tôi sử dụng ba bộ dữ liệu công khai - Đánh giá điểm chuẩn y tế Trung Quốc (CMB-Clin), Bộ dữ liệu đối thoại y tế Trung Quốc (CMD) và Bộ dữ liệu ý định y tế Trung Quốc ( CMID ) chọn ngẫu nhiên các mẫu và GPT-3.5 hoạt động như một cuộc đối thoại giữa mô hình bệnh nhân và đề xuất bốn chỉ số đánh giá—sự chủ động, độ chính xác, tính hữu ích và chất lượng ngôn ngữ, được GPT-4 chấm điểm.

Kết quả đánh giá

So sánh các mô hình. So sánh mô hình của chúng tôi với ba LLM có mục đích chung và hai LLM đối thoại y học Trung Quốc. Bao gồm GPT-3.5, GPT-4, Baichuan-13B-Chat; BianQue-2 và HuatuoGPT-13B của OpenAI.

Kết quả QA một vòng. Kết quả tổng thể của đánh giá trắc nghiệm được thể hiện trong Bảng 2. GPT-3.5 cho thấy sự dẫn đầu rõ ràng. DISC-MedLLM đạt được vị trí thứ hai trong cài đặt ít ảnh và thứ ba sau Baichuan-13B-Chat trong cài đặt không bắn. Đáng chú ý, chúng tôi hoạt động tốt hơn HuatuoGPT (13B) được đào tạo trong môi trường học tập tăng cường.

Bảng 2: Kết quả đánh giá câu hỏi trắc nghiệm

Kết quả của nhiều vòng đối thoại. Trong đánh giá CMB-Clin, DISC-MedLLM đạt điểm tổng thể cao nhất, theo sát là HuatuoGPT. Mô hình của chúng tôi đạt điểm cao nhất trong tiêu chí tích cực, nêu bật tính hiệu quả của phương pháp đào tạo của chúng tôi nhằm làm sai lệch các mô hình hành vi y tế. Kết quả được thể hiện ở Bảng 3.

Bảng 3: Kết quả CMB-clin

Trong mẫu CMD, như trong Hình 8, GPT-4 đạt điểm cao nhất, tiếp theo là GPT-3.5. Điểm hiệu suất tổng thể của các mẫu DISC-MedLLM và HuatuoGPT trong lĩnh vực y tế là như nhau và hiệu suất của chúng ở các bộ phận khác nhau là rất xuất sắc.

Hình 8: Kết quả CMD

Tình hình của CMID tương tự như của CMD, như trong Hình 9, trong đó GPT-4 và GPT-3.5 duy trì vị trí dẫn đầu. Ngoại trừ dòng GPT, DISC-MedLLM hoạt động tốt nhất. Nó vượt trội hơn HuatuoGPT về ba mục đích bệnh tật, chế độ điều trị và thuốc.

Hình 9: Kết quả CMID

Hiệu suất không nhất quán của các mô hình giữa CMB-Clin và CMD/CMID có thể là do sự khác biệt trong phân bổ dữ liệu giữa ba bộ dữ liệu này. CMD và CMID chứa các mẫu câu hỏi cụ thể hơn và bệnh nhân có thể đã được chẩn đoán và bày tỏ nhu cầu rõ ràng khi mô tả các triệu chứng, thậm chí các câu hỏi và nhu cầu của bệnh nhân có thể không liên quan đến tình trạng sức khỏe cá nhân. Các mẫu có mục đích chung GPT-3.5 và GPT-4, hoạt động tốt theo một số cách, sẽ xử lý tình huống này tốt hơn.

5. Tóm tắt

Bộ dữ liệu DISC-Med-SFT tận dụng các lợi thế và khả năng của đối thoại trong thế giới thực và LLM trong lĩnh vực chung để tăng cường cụ thể ba khía cạnh: kiến thức về lĩnh vực, kỹ năng đối thoại y tế và sở thích của con người; bộ dữ liệu chất lượng cao đào tạo xuất sắc Các dữ liệu lớn mô hình y tế DISC-MedLLM đã đạt được những cải tiến đáng kể trong tương tác y tế, cho thấy khả năng sử dụng cao và cho thấy tiềm năng ứng dụng lớn.

Nghiên cứu trong lĩnh vực này sẽ mang lại nhiều triển vọng và khả năng hơn để giảm chi phí y tế trực tuyến, thúc đẩy nguồn lực y tế và đạt được sự cân bằng. DISC-MedLLM sẽ mang đến các dịch vụ y tế tiện lợi và cá nhân hóa cho nhiều người hơn và đóng vai trò vì sự nghiệp chăm sóc sức khỏe nói chung.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)