一文了解LCL:可通過“因果推理”增強多模態大模型的學習能力

撰文:Ekrem Chetinkaya

來源:MarkTechPost

圖片來源:由無界AI工俱生成

語言模型能夠生成連貫且與上下文相關的文本,徹底改變了我們與計算機交流的方式。大型語言模型(LLM)一直走在這一進步的最前沿,它通過對海量文本數據的訓練來學習人類語言的模式和細微差別。 ChatGPT 作為LLM 革命的先驅,在不同學科領域的人士中極受歡迎。

LLM 的超強能力讓各種任務變得更容易處理。我們用它們來總結文本、撰寫電子郵件、自動完成編程任務、解釋文檔等。所有這些任務在一年前還相當耗時,但如今只需幾分鐘就能完成。

然而,隨著對多模態理解的需求日益增長,模型需要處理和生成文本、圖像甚至視頻等不同模態的內容,因此出現了對多模態大型語言模型(MLLMs)的需求。 MLLM 將語言模型的強大功能與視覺理解相結合,使機器能夠以更全面、更了解上下文的方式理解和生成內容。

當ChatGPT 的熱潮稍稍平息之後,MLLMs 在人工智能領域掀起了一場風暴,使機器能夠理解和生成文本和圖像等不同模式的內容。這些模型在圖像識別、視覺基礎和指令理解等任務中表現出色。然而,如何有效地訓練這些模型仍然是一項挑戰。最大的挑戰在於,當MLLM 遇到完全陌生的場景時,圖像和標籤都是未知的。

此外,MLLM 在處理較長的上下文時往往會“迷失”。這些模型嚴重依賴開頭和中間的位置,這也是隨著樣本數量的增加,準確率會出現高原現象(指在學習或技能的形成過程中,出現的暫時停頓或者下降的現象)的原因。因此,MLLM 在處理較長的輸入時很吃力。

現在,讓我們認識一下解決MLLM 中各種難題的鏈接上下文學習(LCL)。

擬議的鏈接-上下文學習演示對話;資料來源:

在MLLM 中,有兩種關鍵的訓練策略。多模態提示調整(M-PT)和多模態指令調整(M-IT)。 M-PT 只對模型的一小部分參數進行微調,其餘參數保持不變。這種方法有助於實現與全面微調類似的結果,同時最大限度地減少計算資源。另一方面,M-IT 通過在包含指令描述的數據集上對MLLM 進行微調,增強了MLLM 的零樣本能力。這種策略提高了模型理解和應對新任務的能力,而無需事先訓練。這些方法都很有效,但都有所犧牲。

上下文學習和鏈接上下文學習之間的區別。資料來源:https ://arxiv.org/abs/2308.07891

LCL 探索了不同的训练策略:混合策略、双向策略、双向随机策略和双向加权策略。混合策略的突出特点是能显著提高零样本的准确性,并在样本数量达到 6 个的时候,取得令人印象深刻的效果。然而,样本为 16 个时,其性能略有下降。相反,双向策略的准确率从 2 个样本到 16 个样本逐渐提高,这表明它与训练模式更接近。

與傳統的上下文學習不同,LCL 更進一步,賦予模型在源和目標之間建立映射的能力,從而提高其整體性能。通過提供具有因果聯繫的演示,LCL 使MLLM 不僅能識別類比,還能識別數據點之間的潛在因果聯繫,從而更有效地識別未見圖像和理解新概念。

此外,LCL 還引入了ISEKAI 數據集,這是一個新穎而全面的數據集,專門用於評估MLLM 的能力。 ISEKAI 數據集由完全生成的圖像和捏造的概念組成。它對MLLM 從正在進行的對話中吸收新概念並保留這些知識以準確回答問題提出了挑戰。

總之,LCL 為多模態語言模型所採用的訓練策略提供了寶貴的見解。混合策略和雙向策略為提高多模態語言模型的性能提供了不同的方法,每種方法都有自己的優勢和局限性。上下文分析揭示了多模態語言模型在處理較長輸入時所面臨的挑戰,也強調了在這一領域開展進一步研究的重要性。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)