一行代碼提高大模型10%性能，開發者：免費午餐

巴比特_

2023-10-22 09:23:51

原文來源：量子位

圖片來源：由無界AI生成

大模型微調有「免費的午餐」了，只要一行代碼就能讓性能提升至少10%。

在7B參數量的Llama 2上甚至出現了性能翻倍的結果，Mistral也有四分之一的增長。

雖然這種方法用在監督微調階段，但RLHF模型也能從中受益。

来自马里兰州大学、纽约大学等机构的研究人员提出了名为NEFT(une) 的微調方式。

這是一種新的正則化技術，可以用於提高微調監督（SFT）模型的性能。

這種方法已經被HuggingFace收錄進了TRL庫，只要import再加一行代碼就能調用。

NEFT不僅操作簡便，而且沒有顯著的成本增加，作者稱看起來是個“免費的午餐”。

有網友試著用這種方法微調了基於Guanaco（一種羊駝家族模型）的Mistral-7B，結果性能提升明顯。

那麼，NEFTune是如何用一行代碼給一眾大模型「打雞血」的呢？

向模型中加入雜訊

NEFTune的全稱是Noisy Embedding Fine Tuning，即“帶雜訊的嵌入式微調”。

開發者認為，過擬合現象是限制大模型性能的一大因素，因此採用在訓練階段向嵌入層中加入雜訊的方式來避免過擬合的出現，從而提高性能。

具體而言，訓練資料庫中的文本首先會被token化，並轉化為嵌入向量。

然後，系統會隨機生成一個雜訊向量，並用縮放器將雜訊調節成所設置的強度。

經過縮放后的雜訊會加入到嵌入向量中，作為模型的輸入，然後開始訓練。

每次反覆運算訓練時，都會生成新的雜訊並加入到嵌入層中。

從火炬.nn導入功能為F

def NEFTune（model， noise_alpha=5） def noised_embed（orig_embed， noise_alpha）：定義 new_func（x）：如果模型訓練： embed_init = orig_embed（x） dims = torch.tensor（embed_init.size（1） * embed_init.size（2）） mag_norm = noise_alpha/torch.sqrt（dims）傳回embed_init + torch.zeros_like（embed_init）.uniform_（-mag_norm， mag_norm）還：傳回orig_embed（x）返回new_func model.base_model.model.model.embed_tokens.forward = noised_embed（model.base_model.model.model.embed_tokens， noise_alpha）返回模型

這段代碼中，NEFTune函數中的形參noise_alpha就是雜訊強度（係數），mag_norm則為實際過程中的雜訊範圍。

而NEFT只有在訓練過程中才會向模型中加入雜訊，推理階段無此過程，代碼中的if語句起到的就是這個作用。

訓練模式下，new_func函數的返回值即為加入雜訊后的嵌入層。

貼出這段代碼是為了講解需要，如果只是想調用NEFT，可以不必使用上面的完整代碼，直接從TRL庫中調用就可以了。

下面的代碼是微調OPT-350M模型的一個示例：

從數據集導入load_dataset 從 trl 進口 SFTTrainer

數據集 = load_dataset（“IMDb”， split=“train”）

培訓師 = SFTTrainer（ “Facebook/OPT-350M”， train_dataset=數據集， dataset_text_field=「文本」， max_seq_length=512， ) trainer.train（）

而數據集方面，開發者一共使用了Alpaca、ShareGPT等四種不同數據集進行了微調。

作者介紹，選擇這些數據的原因包括它們比較著名、曾成為SOTA等等。

此外出於硬體性能考慮，實驗過程中所選擇的都是單輪對話數據集。

那麼，用NEFT方法調校過後的大模型，表現到底怎麼樣呢？