1句指令+5美元+20分鐘，就能訓練出小型專業模型，_2Model了解一下

2023-08-31 06:31:53

CMU 與清華的研究者聯合發布了2Model 框架，它可以根據用戶提供的，快速訓練一個小型專業模型。僅需投入5 美元用於數據收集和20 分鐘的訓練時間，就能獲得性能優於ChatGPT 平均水平20% 的小型模型，同時模型參數規模減小了700 倍。

圖片來源：由無界AI 生成

大規模語言模型（LLM）使用戶可以藉助提示和上下文學習來構建強大的自然語言處理系統。然而，從另一角度來看，LLM 在特定自然語言處理任務上表現存在一定退步：這些模型的部署需要大量計算資源，並且通過API 與模型進行交互可能引發潛在的隱私問題。

為了應對這些問題，來自卡內基梅隆大學（CMU）和清華大學的研究人員，共同推出了2Model 框架。該框架的目標是將基於LLM 的數據生成和檢索方法相結合，以克服上述挑戰。使用2Model 框架，用戶只需提供與LLM 相同的提示，即可自動收集數據並高效地訓練適用於特定任務的小型專業模型。

研究人員在三個自然語言處理子任務上進行了實驗。採用少量樣本提示作為輸入，僅需花費5 美元收集數據並進行20 分鐘的訓練，2Model 框架生成的模型在性能上相較強大的LLM 模型gpt-3.5-turbo 表現出20% 的性能提升。與此同時，模型的體積縮小了高達700 倍。研究人員進一步驗證了這些數據在真實場景中對模型效果的影響，使得模型開發人員能夠在部署前預估模型的可靠性。該框架已以開源形式提供：

* 框架的GitHub 倉庫地址：

框架演示視頻鏈接：
框架相關論文鏈接：

背景

從零開始建立特定自然語言處理任務系統通常相當複雜。系統的構建者需要明確定義任務範圍，獲取特定的數據集，選擇合適的模型架構，進行模型訓練和評估，然後將其部署以供實際應用。

大規模語言模型（LLM）如GPT-3 為這一過程提供了更加簡便的解決方案。用戶只需提供任務提示（instruction）以及一些示例（examples），LLM 便能生成相應的文本輸出。然而，通過提示生成文本可能會消耗大量計算資源，並且使用提示的方式不如經過專門訓練的模型穩定。此外，LLM 的可用性還受到成本、速度和隱私等方面的限制。

為了克服這些問題，研究人員開發了2Model 框架。該框架將基於LLM 的數據生成與檢索技術相結合，以解決上述限制。該系統首先從中提取關鍵信息，然後生成並檢索訓練數據，最終生成可供部署的專業化模型。

2Model 框架自動執行以下核心步驟：

數據集與模型檢索：收集相關數據集和預訓練模型。
數據集生成：利用LLM 創建偽標記數據集。
模型微調：通過混合檢索數據和生成數據對模型進行微調。
模型測試：在測試數據集和用戶提供的真實數據集上對模型進行測試。

经过多个不同任务的实证评估，2Model 所花费成本显著降低，模型的体积也大幅缩小，但性能超越了 gpt-3.5-turbo。2Model 框架不仅可作为高效构建自然语言处理系统的工具，还可用作探索模型集成训练技术的平台。

框架

2Model 框架的核心特點為高度自動化。其流程涵蓋了數據收集、模型訓練、評估和部署等多個環節，如上圖所示。其中，自動化數據收集系統扮演了關鍵角色，它通過數據集檢索和基於LLM 的數據生成，獲取與用戶需求密切相關的數據。接著，系統會檢索預訓練模型，並在獲取的數據集上進行微調。最後，系統會在測試集上對經過訓練的模型進行評估，並創建用於與模型交互的Web 用戶界面（UI）。

2Model 框架的關鍵特點包括：

驅動：2Model 的核心思想在於使用作為驅動，用戶可以直接描述所需的任務，而無需深入了解機器學習的具體實現細節。
自動數據收集：框架通過數據集檢索和生成技術來獲取與用戶任務高度匹配的數據，從而建立訓練所需的數據集。
預訓練模型：框架利用預訓練模型並進行微調，從而節省大量的訓練成本和時間。
效果評估：2Model 支持在實際數據集上進行模型測試和評估，使得在部署模型之前就能進行初步預測和性能評估，從而提高了模型的可靠性。

這些特點使2Model 框架成為一個強大的工具，能夠高效地完成自然語言處理系統的構建過程，並且提供了先進的功能，如數據自動收集、模型評估以及用戶交互界面的創建。

實驗與結果

在實驗設計方面，研究者選擇了三項不同的任務，以評估2Model 系統的性能：

機器閱讀問答（Machine Reading QA）：使用SQuAD 作為實際評估數據集。
日語自然語言到代碼轉換（Japanese NL-to-Code）：使用MCoNaLa 作為實際評估數據集。
時間表達式規範化（Temporal Expression Normalization）：使用Temporal 數據集作為實際評估數據集。

此外，研究者還選用了GPT-3.5-turbo 作為基準模型進行對比。實驗結果得出以下結論：

在除了代碼生成任務之外的各項任務中，2Model 系統所生成的模型明顯優於基準模型GPT-3.5-turbo，儘管生成的模型參數規模遠小於GPT-3.5-turbo。
通過將檢索數據集與生成數據集進行混合訓練，可以達到與直接使用實際數據集訓練相媲美的效果。這驗證了2Model 框架能夠極大地降低人工標註的成本。
數據生成器所生成的測試數據集能夠有效區分不同模型在實際數據集上的性能。這表明生成的數據具有較高的質量，在模型訓練方面具有充分的效果。
在日語到代碼轉換任務中，2Model 系統的表現不如GPT-3.5-turbo。

這可能是因為生成的數據集質量不高，以及缺乏適當的預訓練模型等原因所致。

綜合而言，2Model 系統在多個任務上成功生成了高質量的小型模型，極大地減少了對人工標註數據的需求。然而，在某些任務上仍需要進一步改進。