最頂尖的大語言模型人才，只關心這10個挑戰

2023-09-19 08:23:22

來源：矽兔賽跑

作者：林檎編輯：蔓蔓週

圖片來源：由無界AI生成

**編者按：本文探討了大語言模型（LLM）研究中的十大挑戰，作者是Chip Huyen，她畢業於斯坦福大學，現為Claypot AI —— 一個實時機器學習平台的創始人，此前在英偉達、Snorkel AI、Netflix、Primer公司開發機器學習工具。 **

我正目睹一個前所未有的現狀：全世界如此眾多的頂尖頭腦，如今都投入到「使語言模型（LLMs）變得更好」這個大一統的目標中。

在與許多工業界及學術界同仁交談之後，我試著總結出十個正在蓬勃生長的主要研究方向：

1. 減少和衡量幻覺（編按：hallucinations，AI的幻覺，即AI 輸出中不正確或無意義的部分，儘管這類輸出在句法上是合理的）

2. 最佳化上下文長度和上下文建構

3. 融入其他資料模態

4. 提高LLMs的速度和降低成本

5. 設計新的模型架構

6. 開發GPU替代方案

7. 提高agent的可用性

8. 改善從人類偏好學習的能力

9. 提高聊天介面的效率

10. 為非英語語言建構LLMs

其中，前兩個方向，即減少“幻覺”和“上下文學習”，可能是當下最火的方向。而我個人對第3項（多模態）、第5項（新架構）和第6項（GPU替代方案）最感興趣。

01減少和測量幻覺

它是指當AI模型編造虛假內容時所發生的現象。

對於許多需要創造性的場景，幻覺是一種難以迴避的特性。然而，對於大多數其他應用場景，它是一個缺陷。

最近我參加了一個關於LLM的討論小組，與Dropbox、Langchain、Elastics和Anthropic等公司的人員進行了交流，他們認為，企業大規模採用LLM進行商業生產，最大的障礙就是幻覺問題。

減輕幻覺現象並發展衡量幻覺的指標，是一個蓬勃發展的研究主題，許多新創公司都專注於解決這個問題。

目前也有一些臨時的方法可以減少幻覺，例如為提示添加更多的脈絡、思考鏈、自洽性，或要求模型的輸出保持簡潔。

以下是可以參考的相關演講

·自然語言生成中的幻覺調查（Ji et al., 2022）·語言模型幻覺如何滾雪球（Zhang et al., 2023）·ChatGPT 對推理、幻覺和互動性的多任務、多語言、多模態評估（Bang等人，2023）·對比學習減少對話中的幻覺（Sun 等人，2022）·自我一致性改善語言模型中的思維推理鏈（Wang 等人，2022）·SelfCheckGPT：零資源黑盒生成大型語言模型的幻覺檢測（Manakul 等人，2023）

02優化上下文長度和上下文建構

AI面對的絕大多數問題都需要上下文。

例如，如果我們問ChatGPT：“哪家越南餐廳最好？”，所需上下文可能是“在哪裡”，因為越南最好的餐廳和美國最好的越南餐廳可能不同。

根據《SituatedQA》（Zhang＆Choi，2021）這篇有趣的論文，相當大比例的資訊尋求問題都有依賴於上下文的答案，例如，NQ-Open資料集中就有約佔16.5%的問題是這一類問題。

我個人認為，對於企業應用程式場景來說，這個比例還可能更高。假設一家公司為客戶建立了一個聊天機器人，要讓這個機器人能夠回答任何產品的任何客戶問題，那麼所需上下文，可能是客戶的歷史記錄或該產品的資訊。

因為模型是從提供給它的上下文中「學習」的，這個過程也被稱為上下文學習。

對於檢索增強生成（RAG，也是LLM產業應用方向的主要方法），情境長度特別重要。

RAG可以簡單分為兩個階段：

第一階段：分塊（也稱為索引）

收集所有要供LLM使用的文檔，將這些文檔分成可以輸入LLM以產生嵌入的區塊，並將這些嵌入儲存在向量資料庫中。

第二階段：查詢

當使用者發送查詢，例如“我的保險政策是否可以支付這種藥物X”，LLM將此查詢轉換為嵌入，我們稱之為查詢嵌入，向量資料庫會取得與查詢嵌入最相似的區塊。

圖：來自Jerry Liu關於LlamaIndex（2023）的演講截圖

上下文長度越長，我們就可以在上下文中插入更多區塊。但是，模型可以存取的資訊越多，它的回應就會越好嗎？

並不總是這樣。模型可以使用多少上下文以及該模型將如何有效地使用，是兩個不同的問題。與增加模型上下文長度同樣重要的，是對上下文更有效率的學習，後者也被稱之為「提示工程」。

最近一篇廣為流傳的論文，就是關於模型從索引的開頭和結尾比從中間進行資訊理解表現要好得多：Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023).

03融入其他資料模態

在我看來，多模態是如此強大，卻又常常被低估。

首先，許多現實的應用場景需要處理大量多模態數據，如醫療保健、機器人、電子商務、零售、遊戲、娛樂等。醫學預測需要同時使用文字（如醫生的筆記、患者的問卷）和圖像（如CT、X光、MRI掃描）；產品資料通常包含圖像、影片、描述，甚至是表格資料（如生產日期、重量、顏色）。

其次，多模態承諾能為模型表現帶來巨大提升。一個既能理解文字又能理解圖像的模型，難道不會比僅能理解文字的模型表現更好嗎？基於文字的模型需要大量的文字數據，現在我們確實在擔心用於訓練基於文字模型的網路數據會被耗盡。一旦文字用盡，我們就需要利用其他資料模態。

最近有一個應用方向讓我感到格外興奮，那就是，多模態技術可以幫助視障人士瀏覽網路和導航現實世界。

以下為幾項傑出的多模態研究進展：· [CLIP] 從自然語言監督中學習可遷移的視覺模型（OpenAI，2021）·Flamingo：用於少樣本學習的視覺語言模型（DeepMind，2022）·BLIP-2：使用凍結圖像編碼器和大型語言模型進行引導語言影像預訓練（Salesforce，2023）·KOSMOS-1：語言不是你所需要的：將感知與語言模型對齊（微軟，2023）·PaLM-E：體現的多模態語言模型（Google，2023）·LLaVA ：視覺指令調優（Liu）等，2023）·NeVA：NeMo 視覺與語言助理（NVIDIA，2023）

04提高LLMs的速度和降低成本

GPT-3.5於2022年11月底首次推出的時候，許多人對在生產中使用該模型的延遲和成本表示擔憂。

如今，GPT-3.5使用所造成的延遲/成本分析又有了新的變化。在半年內，整個模型社群找到了一種新方法，能夠創建一個在效能方面幾乎接近GPT-3.5、但其記憶體佔用不到前者2%的模型。

由此，我的一個觀點是：如果你創造出夠優秀的東西，其他人會想盡辦法使其快速且經濟高效。

以下是根據Guanaco論文中報告的數據，該數據比較了Guanaco 7B與ChatGPT GPT-3.5和GPT-4的表現。

需要注意的是，整體而言，這些模型性能都還遠遠稱不上完美。對LLM來說，大幅提升效能依然非常困難。

記得四年前，當我開始著手撰寫《設計機器學習系統》一書中「模型壓縮」部分的筆記時，業界主要有四種模型優化/壓縮技術：

1.量化：迄今為止最通用的模型最佳化方法。量化透過使用較少的bits來表示模型的參數來減少模型的大小，例如，不再使用32位元來表示浮點數，而只使用16位，甚至4位。

2.知識蒸餾：即訓練出一個小模型（學生模型），它能夠模仿一個更大的模型或模型集合（教師模型）。

3.低秩分解：它的關鍵想法是使用低維張量來取代高維張量，以減少參數的數量。例如，一個3x3的張量可以分解為一個3x1的張量和一個1x3的張量的乘積，因此不再有9個參數，而只有6個參數。

4.剪枝：指通過去除模型中對整體性能貢獻較小的權重或連接來減少模型的大小。

這四種技術至今仍很流行。 Alpaca是透過知識蒸餾進行訓練的，QLoRA則採用了低秩分解和量化的組合方式。

05設計新的模型架構

自2012年的AlexNet以來，我們已經看到許多架構潮起又潮落，包括LSTM、seq2seq等。

與這些架構相比，問世於2017年的Transformer異常穩定，雖然目前尚不清楚這個架構還會流行多久。

要開發一種能夠勝過Transformer的新架構並不容易。在過去的6年中，Transformer已經經過了大量的優化，在合適的硬體上，這個模型的規模和效果可以達到讓人讚嘆的出色效果（PS：Transformer最早是由Google設計成在TPU上快速運行的，後來才在GPU上進行了最佳化）。

2021年，Chris Ré實驗室的研究「Efficiently Modeling Long Sequences with Structured State Spaces」 (Gu et al., 2021)，在業界引發了大量討論。我不太確定後來發生了什麼事。但Chris Ré實驗室仍在積極開發新架構，他們最近與新創公司Together合作推出了名為Monarch Mixer的架構。

他們的主要思想是，對於現有的Transformer架構，注意力的複雜度與序列長度的平方成正比，MLP的複雜度與模型維度的平方成正比。具有次二次複雜度的架構將會更加有效率。

我確信許多其他實驗室也在探索這個思路，雖然我不知道是否有任何已經公開嘗試過的研究。如果您曉得個中進展，歡迎與我聯絡！

06開發GPU替代方案

自從2012年AlexNet問世以來，GPU一直是深度學習的主要硬體。

事實上，AlexNet之所以受歡迎，其中一個普遍被認可的原因是，它是第一篇成功使用GPU訓練神經網路的論文。在GPU之前，如果要訓練一個與AlexNet相當規模的模型，你需要動用成千上萬個CPU，就像在AlexNet之前幾個月谷歌發布的那台伺服器一樣。

與成千上萬個CPU相比，幾塊GPU對於博士生和研究人員來說更容易取得，引發了深度學習研究的繁榮。

在過去的十年中，許多公司，無論是大公司還是新創公司，都試圖為人工智慧創建新的硬體。最值得注意的嘗試包括Google的TPU、Graphcore的IPU以及Cerebras。 SambaNova也籌集了超過10億美元來開發新的AI晶片，但似乎已轉向成為生成式AI平台。

期間，量子計算也引發了許多期待，其中主要參與者包括：

·IBM的量子處理器

·Google的量子計算機。今年稍早在《自然》雜誌上報告了量子錯誤降低的重要里程碑。它的量子虛擬機器可以透過Google Colab公開存取。

·大學的研究實驗室，如MIT量子工程中心、馬普量子光學研究所、芝加哥量子交流中心等。

另一個同樣令人興奮的方向是光子晶片。這是我了解最少的方向，如有錯誤，望指正。

現有晶片使用電力傳輸數據，這消耗了大量能量，並產生了延遲。光子晶片使用光子傳輸數據，利用光的速度進行更快、更有效率的運算。在這一領域，各種新創公司已籌集了數億美元，包括Lightmatter（2.7億美元）、Ayar Labs（2.2億美元）、Lightelligence（2億美元以上）和Luminous Computing（1.15億美元）。

以下是光子矩陣計算三種主要方法的進展時間線，摘自Photonic matrix multiplication lights up photonic accelerator and beyond (Zhou et al., Nature 2022).。這三種不同的方法分別是平面光轉換（PLC）、馬赫-曾德干涉儀（MZI）和波分複用（WDM）。

07提高agent的可用性

agent可視為能夠採取行動的LLMs，例如瀏覽網路、發送電子郵件等。與本文中的其他研究方向相比，這可能是最年輕的方向。

由於其新穎性和巨大潛力，人們對agent產生了極大的興趣。 Auto-GPT現在是GitHub上星標數量排名第25的最受歡迎的庫。 GPT-Engineering也是另一個受歡迎的庫。

儘管如此，人們仍然對LLMs是否足夠可靠、性能良好、具備一定行動能力存在疑慮。

現在有一個有趣的應用方向，是將agent用於社會研究。一項史丹佛實驗表明，一小群生成式agent產生了新興的社會行為：僅從一個用戶指定的想法開始，即一個agent想要舉辦情人節派對，其他一些agent在接下來的兩天內自主傳播了派對的邀請，認識了新朋友，互相邀請參加派對...（(Generative Agents: Interactive Simulacra of Human Behavior, Park et al., 2023）。

在這一領域，最值得注意的新創公司可能是Adept，由兩位Transformer的合著者（儘管兩人都已離開）和一位前OpenAI副總裁創立，迄今已籌集了近5億美元。去年，他們展示了其開發的agen如何瀏覽互聯網並在Salesforce上新增帳戶。我期待看到他們的新演示🙂。

08提升從人類偏好學習的能力

RLHF（Reinforcement Learning from Human Preference，從人類偏好中進行強化學習）很酷，但有點繁瑣。

我絲毫不意外人們會找到更好的訓練LLMs的方法。關於RLHF，有許多開放問題，例如：

·如何在數學上表示人類偏好？

目前，人類偏好是透過比較來確定的：人類標註者確定回答A是否優於回答B。然而，它沒有考慮到回答A相對於回答B的優劣程度具體是多少。

·什麼是人類偏好？

Anthropic透過三個維度來衡量模型回答的品質：有幫助、誠實和無害。參考論文：Constitutional AI: Harmlessness from AI Feedback (Bai et al., 2022)。

DeepMind試圖產生最能取悅大多數人的回答。參考論文：Fine-tuning language models to find agreement among humans with diverse preferences, (Bakker et al., 2022).

另外，我們是想擁有能夠表態的AI，還是一個在任何可能引發爭議的話題上避而不談的普通AI？

·「人類」偏好是誰的偏好，考慮文化、宗教、政治傾向等的差異？

取得足以代表所有潛在用戶的訓練數據，存在許多挑戰。

例如，OpenAI的InstructGPT數據，沒有65歲以上的標註者。標註者主要是菲律賓人和孟加拉人。參考論文：InstructGPT: Training language models to follow instructions with human feedback (Ouyang et al., 2022).

近年來，AI社群主導的努力，雖然初衷令人欽佩，但數據偏見依然存在。例如，在OpenAssistant資料集中，222名調查對像中有201名（90.5％）自我報告為男性。 Jeremy Howard在Twitter上發表了一系列關於此問題的推文。

09提高聊天介面的效率

有了ChatGPT之後，關於聊天是否適合廣泛範圍任務的討論就一直不絕於耳。比如：

·自然語言是懶惰的使用者介面（Austin Z. Henley，2023）

·為什麼聊天機器人不是未來（Amelia Wattenberger，2023）

·哪些類型的問題需要對話來回答？ AskReddit 問題的案例研究（Huang 等人，2023）

·人工智慧聊天介面可能成為閱讀文件的主要使用者介面（Tom Johnson，2023）

·透過最少的聊天與法學碩士互動（Eugene Yan，2023）

然而，這不是一個新的討論。在許多國家，尤其是在亞洲，聊天已經作為超級應用程式的介面使用了大約十年時間。 Dan Grover在2014年就進行了這個現象的討論。

這類討論在2016年再次變得緊俏，許多人的看法是，現有的應用程式類型已經過時，聊天機器人將是未來。例如下列的研究：

·論聊天介面（Alistair Croll，2016）

·聊天機器人趨勢是一大迷思嗎？（威爾奈特，2016）

·機器人不會取代應用程式。更好的應用程式將取代應用程式（Dan Grover，2016）

就我個人而言，我喜歡聊天介面，原因如下：

聊天介面是一個每個人（甚至是沒有之前接觸過電腦或網路的人）都可以快速學會使用的介面。

2010年代初，我在肯亞的一個低收入居民區志工工作時，我驚訝地發現，那裡的每個人都很適應在手機上透過簡訊進行銀行業務。即便那個社群沒有人有計算機。

聊天介面通常是易於存取的。如果我們雙手忙於其他事情，也可以使用語音而不是文字。

聊天介面還是一種非常強大的介面，用戶提出任何請求，它都會做出回應，即使有些回應不是很好。

然而，我認為聊天介面在某些方面可以進行改進：

·一輪內多條訊息

目前，我們幾乎是假設每次只有一則訊息。但我和我的朋友在發短信時，經常需要多個消息才能完成一次聊天，因為我需要插入不同的數據（例如圖像、位置、鏈接），我在之前的消息中忘記了某些內容，或者我只是不想把所有內容都放在一大段裡。

·多模態輸入

在多模態應用領域，大部分精力都花在建立更好的模型上，而很少花在建立更好的介面上。以英偉達的NeVA聊天機器人為例。我不是使用者體驗專家，但我認為這裡可能有改進的空間。

PS 對不起，NeVA團隊，因為我點名批評了你們。儘管如此，你們的工作仍然非常棒！

圖：NVIDIA的NeVA介面

·將生成式人工智慧融入工作流程

Linus Lee在他的演講「Generative AI interface beyond chats」中很好地介紹了這一點。例如，如果你想問關於正在處理的圖表列的問題，你應該能夠只需指向該列並提問。

·編輯和刪除訊息

編輯或刪除使用者輸入，將如何改變與聊天機器人的對話流程？

10為非英語語言建構LLMs

我們知道，目前以英語為首的LLMs在許多其他語言中的表現都不好，無論是在表現、延遲還是速度方面。

以下是可以參考的相關研究：

·超越英語的ChatGPT：對多語言學習中的大語言模型進行全面評估（Lai et al., 2023）

·所有語言並非生來平等（標記化）（Yennie Jun，2023）

有些讀者告訴我，基於兩個原因，他們認為我不應該在這個方向上進行探討。

這比較是一個「後勤」問題，而不是一個研究問題。我們已經知道該如何做了。只需要有人投入金錢和精力。

這並不完全正確。大多數語言被認為是低資源語言，例如，與英語或漢語相比，它們擁有的高品質資料要少得多，可能需要不同的技術來訓練大型語言模型。

以下是可以參考的相關研究：

·低資源語言：回顧過去的工作與未來的挑戰（Magueresse et al., 2020）

·JW300：適用於低資源語言的廣覆蓋平行語料庫（Agić et al., 2019）

那些更悲觀的人認為，在未來，許多語言將消亡，互聯網將由兩種語言構成的兩個世界：英語和漢語。這種思考方式並不新鮮。有人還記得Esperanto嗎？

AI工具（如機器翻譯和聊天機器人）對語言學習的影響仍不清楚。它們會幫助人們更快學習新語言，還是會徹底消除學習新語言的需要？

結論

上文提到的10大挑戰，確實有些問題比其他問題更難。

例如，我認為第10項，為非英語語言建立LLMs，更直接地指向足夠的時間和資源。

第1項，減少幻覺，將會更加困難，因為幻覺只是LLMs正在進行其機率性任務。

第4項，讓LLMs更快更便宜，永遠無法達到完全解決的狀態。在這個領域已經取得了很多進展，還會有更多進展，但我們永遠不會停止改進。

第5項和第6項，新的架構和新的硬件，非常具有挑戰性，是不可避免的。由於架構和硬體之間的共生關係，新架構需要針對常見硬體進行最佳化，而硬體需要支援常見架構。它們可能會由同一家公司解決。

其中，還有一些問題不僅可以透過技術知識來解決。例如，第8項，改進從人類偏好中學習，可能更多是策略問題，而不是技術問題。

第9項，提高聊天介面的效率，更多是一個使用者體驗問題。我們需要更多具備非技術背景的人一起合作解決這些問題。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
分享

留言

0/400

暫無留言