📢 #Gate广场征文活动第二期# 正式啓動!
分享你對 $ERA 項目的獨特觀點,推廣ERA上線活動, 700 $ERA 等你來贏!
💰 獎勵:
一等獎(1名): 100枚 $ERA
二等獎(5名): 每人 60 枚 $ERA
三等獎(10名): 每人 30 枚 $ERA
👉 參與方式:
1.在 Gate廣場發布你對 ERA 項目的獨到見解貼文
2.在貼文中添加標籤: #Gate广场征文活动第二期# ,貼文字數不低於300字
3.將你的文章或觀點同步到X,加上標籤:Gate Square 和 ERA
4.徵文內容涵蓋但不限於以下創作方向:
ERA 項目亮點:作爲區塊鏈基礎設施公司,ERA 擁有哪些核心優勢?
ERA 代幣經濟模型:如何保障代幣的長期價值及生態可持續發展?
參與並推廣 Gate x Caldera (ERA) 生態周活動。點擊查看活動詳情:https://www.gate.com/announcements/article/46169。
歡迎圍繞上述主題,或從其他獨特視角提出您的見解與建議。
⚠️ 活動要求:
原創內容,至少 300 字, 重復或抄襲內容將被淘汰。
不得使用 #Gate广场征文活动第二期# 和 #ERA# 以外的任何標籤。
每篇文章必須獲得 至少3個互動,否則無法獲得獎勵
鼓勵圖文並茂、深度分析,觀點獨到。
⏰ 活動時間:2025年7月20日 17
一文了解LCL:可通過“因果推理”增強多模態大模型的學習能力
撰文:Ekrem Chetinkaya
來源:MarkTechPost
語言模型能夠生成連貫且與上下文相關的文本,徹底改變了我們與計算機交流的方式。大型語言模型(LLM)一直走在這一進步的最前沿,它通過對海量文本數據的訓練來學習人類語言的模式和細微差別。 ChatGPT 作為LLM 革命的先驅,在不同學科領域的人士中極受歡迎。
LLM 的超強能力讓各種任務變得更容易處理。我們用它們來總結文本、撰寫電子郵件、自動完成編程任務、解釋文檔等。所有這些任務在一年前還相當耗時,但如今只需幾分鐘就能完成。
然而,隨著對多模態理解的需求日益增長,模型需要處理和生成文本、圖像甚至視頻等不同模態的內容,因此出現了對多模態大型語言模型(MLLMs)的需求。 MLLM 將語言模型的強大功能與視覺理解相結合,使機器能夠以更全面、更了解上下文的方式理解和生成內容。
當ChatGPT 的熱潮稍稍平息之後,MLLMs 在人工智能領域掀起了一場風暴,使機器能夠理解和生成文本和圖像等不同模式的內容。這些模型在圖像識別、視覺基礎和指令理解等任務中表現出色。然而,如何有效地訓練這些模型仍然是一項挑戰。最大的挑戰在於,當MLLM 遇到完全陌生的場景時,圖像和標籤都是未知的。
此外,MLLM 在處理較長的上下文時往往會“迷失”。這些模型嚴重依賴開頭和中間的位置,這也是隨著樣本數量的增加,準確率會出現高原現象(指在學習或技能的形成過程中,出現的暫時停頓或者下降的現象)的原因。因此,MLLM 在處理較長的輸入時很吃力。
現在,讓我們認識一下解決MLLM 中各種難題的鏈接上下文學習(LCL)。
在MLLM 中,有兩種關鍵的訓練策略。多模態提示調整(M-PT)和多模態指令調整(M-IT)。 M-PT 只對模型的一小部分參數進行微調,其餘參數保持不變。這種方法有助於實現與全面微調類似的結果,同時最大限度地減少計算資源。另一方面,M-IT 通過在包含指令描述的數據集上對MLLM 進行微調,增強了MLLM 的零樣本能力。這種策略提高了模型理解和應對新任務的能力,而無需事先訓練。這些方法都很有效,但都有所犧牲。
LCL 探索了不同的训练策略:混合策略、双向策略、双向随机策略和双向加权策略。混合策略的突出特点是能显著提高零样本的准确性,并在样本数量达到 6 个的时候,取得令人印象深刻的效果。然而,样本为 16 个时,其性能略有下降。相反,双向策略的准确率从 2 个样本到 16 个样本逐渐提高,这表明它与训练模式更接近。
與傳統的上下文學習不同,LCL 更進一步,賦予模型在源和目標之間建立映射的能力,從而提高其整體性能。通過提供具有因果聯繫的演示,LCL 使MLLM 不僅能識別類比,還能識別數據點之間的潛在因果聯繫,從而更有效地識別未見圖像和理解新概念。
此外,LCL 還引入了ISEKAI 數據集,這是一個新穎而全面的數據集,專門用於評估MLLM 的能力。 ISEKAI 數據集由完全生成的圖像和捏造的概念組成。它對MLLM 從正在進行的對話中吸收新概念並保留這些知識以準確回答問題提出了挑戰。
總之,LCL 為多模態語言模型所採用的訓練策略提供了寶貴的見解。混合策略和雙向策略為提高多模態語言模型的性能提供了不同的方法,每種方法都有自己的優勢和局限性。上下文分析揭示了多模態語言模型在處理較長輸入時所面臨的挑戰,也強調了在這一領域開展進一步研究的重要性。