🎉 #Gate Alpha 第三届积分狂欢节 & ES Launchpool# 聯合推廣任務上線!
本次活動總獎池:1,250 枚 ES
任務目標:推廣 Eclipse($ES)Launchpool 和 Alpha 第11期 $ES 專場
📄 詳情參考:
Launchpool 公告:https://www.gate.com/zh/announcements/article/46134
Alpha 第11期公告:https://www.gate.com/zh/announcements/article/46137
🧩【任務內容】
請圍繞 Launchpool 和 Alpha 第11期 活動進行內容創作,並曬出參與截圖。
📸【參與方式】
1️⃣ 帶上Tag #Gate Alpha 第三届积分狂欢节 & ES Launchpool# 發帖
2️⃣ 曬出以下任一截圖:
Launchpool 質押截圖(BTC / ETH / ES)
Alpha 交易頁面截圖(交易 ES)
3️⃣ 發布圖文內容,可參考以下方向(≥60字):
簡介 ES/Eclipse 項目亮點、代幣機制等基本信息
分享你對 ES 項目的觀點、前景判斷、挖礦體驗等
分析 Launchpool 挖礦 或 Alpha 積分玩法的策略和收益對比
🎁【獎勵說明】
評選內容質量最優的 10 位 Launchpool/Gate
復旦大學團隊發布中文醫療健康個人助手,同時開源47 萬高質量數據集
隨著遠程醫療的興起,在線問診、諮詢越發成為患者尋求便捷高效的醫療支持的首選項。近來大語言模型(LLM)展示出強大的自然語言交互能力,為健康醫療助手走進人們的生活帶來了希望。
醫療健康諮詢場景通常較為複雜,個人助手需要有豐富的醫學知識,具備通過多個輪次對話了解病人意圖,並給出專業、詳實回复的能力。通用語言模型在面對醫療健康諮詢時,往往因為缺乏醫療知識,出現避而不談或者答非所問的情況;同時,傾向於針對當前輪次問題完成諮詢,缺少令人滿意的多輪追問能力。除此之外,當前高質量的中文醫學數據集也十分難得,這為訓練強大的醫療領域語言模型構成了挑戰。
復旦大學數據智能與社會計算實驗室(FudanDISC)發布中文醫療健康個人助手——DISC-MedLLM。在單輪問答和多輪對話的醫療健康諮詢評測中,模型的表現相比現有醫學對話大模型展現出明顯優勢。課題組同時公開了包含47 萬高質量的監督微調(SFT)數據集——DISC-Med-SFT,模型參數和技術報告也一併開源。
1、樣例展示
患者感到身體不適時,可以向模型問診,描述自身症狀,模型會給出可能的病因、推薦的治療方案等作為參考,在信息缺乏時會主動追問症狀的詳細描述。
用戶還可以基於自身健康狀況,向模型提出需求明確的諮詢問題,模型會給予詳盡有助的答复,並在信息缺乏時主動追問,以增強回复的針對性和準確性。
用戶還可以詢問與自身無關的醫學知識,此時模型會盡可能專業地作答,使用戶全面準確地理解。
2、DISC-MedLLM 介紹
DISC-MedLLM 是基於我們構建的高質量數據集DISC-Med-SFT 在通用領域中文大模型Baichuan-13B 上訓練得到的醫療大模型。值得注意的是,我們的訓練數據和訓練方法可以被適配到任何基座大模型之上。
DISC-MedLLM 具有三個關鍵特點:
模型的優勢和數據構造框架如圖5 所示。我們從真實諮詢場景中計算得到病人的真實分佈,以此指導數據集的樣本構造,基於醫學知識圖譜和真實諮詢數據,我們使用大模型在迴路和人在迴路兩種思路,進行數據集的構造。
3、方法:數據集DISC-Med-SFT 的構造
在模型訓練的過程中,我們向DISC-Med-SFT 補充了通用領域的數據集和來自現有語料的數據樣本,形成了DISC-Med-SFT-ext,詳細信息呈現在表1 中。
重構 AI 醫患對話
數據集。分別從兩個公共數據集MedDialog 和cMedQA2 中隨機選擇40 萬個和2 萬個樣本,作為SFT 數據集構建的源樣本。
重構。為了將真實世界醫生回答調整為所需的高質量的統一格式的回答,我們利用GPT-3.5 來完成這個數據集的重構過程。提示詞(s)要求改寫遵循以下幾個原則:
圖6 展示了一個重構的示例。調整後醫生的回答與AI 醫療助手的身份一致,既堅持原始醫生提供的關鍵信息,又為患者提供更豐富全面的幫助。
知識圖譜問答對
醫學知識圖譜包含大量經過良好組織的醫學專業知識,基於它可以生成噪聲更低的QA 訓練樣本。我們在CMeKG 的基礎上,根據疾病節點的科室信息在知識圖譜中進行採樣,利用適當設計的GPT-3.5 模型s,總共生成了超過5 萬個多樣化的醫學場景對話樣本。
行為偏好數據集
在訓練的最終階段,為了進一步提高模型的性能,我們使用更符合人類行為偏好數據集進行次級監督微調。從MedDialog 和cMedQA2 兩個數據集中人工挑選了約2000 個高質量、多樣化的樣本,在交給GPT-4 改寫幾個示例並人工修訂後,我們使用小樣本的方法將其提供給GPT-3.5 ,生成高質量的行為偏好數據集。
其他
通用數據。為了豐富訓練集的多樣性,減輕模型在SFT 訓練階段出現基礎能力降級的風險,我們從兩個通用的監督微調數據集moss-sft-003 和alpaca gpt4 data zh 隨機選擇了若干樣本。
MedMCQA。為增強模型的問答能力,我們選擇英文醫學領域的多項選擇題數據集MedMCQA,使用GPT-3.5 對多項選擇題中的問題和正確答案進行了優化,生成專業的中文醫學問答樣本約8000 個。
4、實驗
訓練。如下圖所示,DISC-MedLLM 的訓練過程分為兩個SFT 階段。
評測。在兩個場景中評測醫學LLMs 的性能,即單輪QA 和多輪對話。
評測結果
比較模型。將我們的模型與三個通用LLM 和兩個中文醫學對話LLM 進行比較。包括OpenAI 的GPT-3.5, GPT-4, Baichuan-13B-Chat; BianQue-2 和HuatuoGPT-13B。
單輪QA 結果。單項選擇題評測的總體結果顯示在表2 中。 GPT-3.5 展現出明顯的領先優勢。 DISC-MedLLM 在小樣本設置下取得第二名,在零樣本設置中落後於Baichuan-13B-Chat,排名第三。值得注意的是,我們的表現優於採用強化學習設置訓練的HuatuoGPT (13B)。
多輪對話結果。在CMB-Clin 評估中,DISC-MedLLM 獲得了最高的綜合得分,HuatuoGPT 緊隨其後。我們的模型在積極性標準中得分最高,凸顯了我們偏向醫學行為模式的訓練方法的有效性。結果如表3 所示。
在CMD 樣本中,如圖8 所示,GPT-4 獲得了最高分,其次是GPT-3.5。醫學領域的模型DISC-MedLLM 和HuatuoGPT 的整體表現分數相同,在不同科室中表現各有出色之處。
CMID 的情況與CMD 類似,如圖9 所示,GPT-4 和GPT-3.5 保持領先。除GPT 系列外,DISC-MedLLM 表現最佳。在病症、治療方案和藥物等三個意圖中,它的表現優於HuatuoGPT。
各模型在CMB-Clin 和CMD/CMID 之間表現不一致的情況可能是由於這三個數據集之間的數據分佈不同造成的。 CMD 和CMID 包含更多明確的問題樣本,患者在描述症狀時可能已經獲得了診斷並表達明確的需求,甚至患者的疑問和需求可能與個人健康狀況無關。在多個方面表現出色的通用型模型GPT-3.5 和GPT-4 更擅長處理這種情況。
5、總結
DISC-Med-SFT 数据集利用现实世界对话和通用领域 LLM 的优势和能力,对三个方面进行了针对性强化:领域知识、医学对话技能和与人类偏好;高质量的数据集训练了出色的医疗大模型 DISC-MedLLM,在医学交互方面取得了显著的改进,表现出很高的可用性,显示出巨大的应用潜力。
該領域的研究將為降低在線醫療成本、推廣醫療資源以及實現平衡帶來更多前景和可能性。 DISC-MedLLM 將為更多人帶來便捷而個性化的醫療服務,為大健康事業發揮力量。