6000字解讀：當前大語言模型LLM研究的10大挑戰

2023-08-30 06:34:52

作者：Chip Huyen

**翻譯：**阿法兔

來源鏈接：

讓大語言模型變得更完善這個目標，是我一生中，第一次見到這麼多的聰明人，同時在為一個共同目標而努力。在同眾多業界和學術界人士交流後，我注意到出現了十大研究方向。目前受到關注最多的兩個方向是Hallucinations（輸出幻覺）和Context Learning。

而對我自己來說，最感興趣的是下面列出的第3 個方向（Multimodality多模態數據模式）、第5 個方向（New architecture 新架構）和第6 個方向（GPU alternatives開發GPU替代的解決方案）

LLM 研究的十大公開挑戰減少並評估輸出輸出（虛構信息）優化上下文長度和上下文構建融合其他數據形式提升語言模型的速度和成本效益設計新的模型架構開發替代GPU的解決方案提升代理（人工智能）的可用性改進從人類偏好中學習的能力提高聊天界面的效率構建用於非英語語言的語言模型

1. 減少和評估幻覺

輸出環境是一個已經被大量討論過的話題，所以這裡我會長話短說。當人工智能模型胡編亂造時，就會產生幻覺。對於許多創意用例來說，幻覺屬於功能的一種。然而，對於大多數應用場景來說，幻覺屬於一種錯誤。最近，我與Dropbox、Langchain、Elastics 和Anthropic 的專家共同參加了一個關於LLM 的專題討論會，在他們看來，企業在實際生產中，應用LLM 需要克服的首要障礙就是幻覺輸出。

降低模型的幻覺輸出和製定評估幻覺輸出的指標，是一個蓬勃發展的研究課題，目前很多初創公司都在關注這個問題。還有一些技巧可以減少幻覺輸出的概率，例如在提示詞中添加更多上下文、CoT、自洽性，或者特定要求模型的響應簡潔明了。

下面是關於幻覺輸出的系列論文和參考資料：

自然語言生成中的幻覺調查（Ji et al., 2022）

語言模型幻覺如何滾雪球（Zhang et al., 2023）

ChatGPT 對推理、幻覺和交互性的多任務、多語言、多模式評估（Bang et al., 2023）

對比學習減少對話中的幻覺（Sun et al., 2022）

自洽改善了語言模型中的思維鏈推理（Wang et al., 2022）

SelfCheckGPT：生成大型語言模型的零資源黑盒幻覺檢測（Manakul 等人，2023）

NVIDIA NeMo-Guardrails 事實核查和幻覺的簡單示例

2.優化上下文長度和上下文構建

絕大部分問題都需要上下文。例如，如果我們問ChatGPT：“哪家越南餐廳最好？”所需的上下文將是“這個餐廳的限定範圍到底在哪裡？”，因為越南本土最好吃的餐廳與美國的最好吃的越南餐廳，這個問題的範圍是不同的。

根據下面這篇很酷的論文《 SITUATEDQA: Incorporating Extra-Linguistic Contexts into QA 》（Zhang＆Choi，2021），有相當一部分信息搜索問題的答案與上下文有關，例如，在Natural Questions NQ-Open 數據集中大約佔16.5%。

（NQ-開放：

我個人認為，在企業實際遇到的案例中，這一比例會更高。例如，假設一家公司為客戶支持建立了一個聊天機器人，要讓這個聊天機器人回答客戶關於任何產品的任何問題，所需的上下文很可能是該客戶的歷史或該產品的信息。由於語言模型會從提供給它的上下文中"學習"，因此這一過程也被稱為上下文學習。

圖片客戶支持查詢所需的上下文

Context length 對於RAG（檢索增強生成）非常重要，而RAG已成為大語言模型行業應用場景的主要模式。具體來說，檢索增強生成主要分為兩個階段：

**第1 階段：分塊（也稱為編制索引）**chunking (also known as indexing)

收集LLM使用的所有文檔,將這些文檔分成可以餵入大於模型，以生成嵌入的塊，並將這些嵌入存儲在向量數據庫中。

第2階段：查詢

當用戶發送查詢時，如"我的保險單是否能夠支付某種藥物X"，大語言模型會將此查詢轉換為embedding，我們稱之為QUERY_EMBEDDING。向量數據庫，會獲取embedding與QUERY_EMBEDDING 最相似的塊。

上下文長度越長，我們就能在上下文中squeeze越多的chunks 。模型獲取的信息越多，它的輸出和回應質量就會越高，是這樣的嗎？

並非總是如此。模型能用多少上下文，和模型使用上下文的效率如何，是兩個不同的問題。在努力增加模型上下文長度的同時，我們也在努力提高上下文的效率。有人稱之為"提示工程engineering "或" construction"。例如，最近有一篇論文談到了模型如何更好地理解索引開頭和結尾，而不僅是中間的信息——Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023).

3. 其他數據模式融入（多模態）

在我看來，多模態是非常強大的，但是它也同樣被低估了。這裡解釋一下多模態的應用原因：

首先，許多具體應用場景都需要多模態數據，尤其是在醫療保健、機器人、電子商務、零售、遊戲、娛樂等混合數據模態的行業。舉例來說：

醫療檢測通常需要文本（如醫生筆記、患者問卷）和圖像（如CT、X 光片、核磁共振掃描片）。

產品的Metadata通常包含圖片、視頻、描述，甚至表格數據（如生產日期、重量、顏色），因為從需求角度，您可能會需要根據用戶的評論或產品照片，自動填補缺失的產品信息，或者希望讓用戶能夠使用形狀或顏色等視覺信息，進行產品搜索。

其次，多模態有望大幅提升模型性能。一個既能理解文本又能理解圖像的模型，難道不應該比單一能理解文本的模型表現更好嗎？基於文本的模型，需要大量文本，以至於我們擔心很快就會用完互聯網數據來訓練基於文本的模型。一旦文本耗盡，我們就需要利用其他數據模式。

讓我特別興奮的一個使用案例是，多模態技術可以讓視障人士瀏覽互聯網和瀏覽現實世界。

下面是關於多模態相關的系列論文和參考資料：

[CLIP] 從自然語言監督中學習可遷移的視覺模型（OpenAI，2021）

Flamingo：用於少樣本學習的視覺語言模型（DeepMind，2022）

BLIP-2：使用凍結圖像編碼器和大型語言模型引導語言圖像預訓練（Salesforce，2023）

KOSMOS-1：語言並不是您所需要的全部：使感知與語言模型保持一致（Microsoft，2023）

PaLM-E：一種具體的多模態語言模型（Google，2023）

LLaVA：視覺指令調整（Liu 等人，2023）

NeVA：NeMo 視覺和語言助手（NVIDIA，2023）

4. 讓LLM 更快、成本更低

當GPT-3.5在2022年11月底首次發佈時，很多人對在生產中使用它的延遲和成本表示擔憂。然而，自那時以來，延遲/成本分析已經迅速發生了變化。在不到半年的時間裡，社區找到了一種方法，可以創建一個性能與GPT-3.5非常接近的模型，但所需的內存佔用僅為GPT-3.5的2%左右。

這裡的啟示是：如果你創造出足夠優秀的東西，人們會找到一種方法讓它變得快速且經濟高效。

以下是《Guanaco 7B》的性能數據，與ChatGPT GPT-3.5和GPT-4的性能進行了比較，根據《Guanco》論文中的報告。請注意：總體而言，下列關於性能的比較，離完美還差很遠，並且，對LLM的評估非常非常困難。

Guanaco 7B 與ChatGPT GPT-3.5 和GPT-4 的性能比較：

四年前，當我開始為《設計機器學習系統》一書撰寫後來成為"模型壓縮"部分的筆記時，我寫了關於模型優化/壓縮的四種主要技術：

Quantization：迄今為止最通用的模型優化方法。量化通過使用較少的位數來表示模型的參數來減小模型的大小，例如，可以使用16位甚至4位來表示浮點數，而不是使用32位。

Knowledge distillation：一種通過訓練小模型來模仿大型模型或模型集合的方法。

Low-rank factorization：這裡的關鍵思路是用低維張量代替高維張量，以減少參數數量。例如，可以將3x3 張量分解為3x1 和1x3 張量的乘積，這樣就不再需要9 個參數，而只需要6 個參數。

修剪所有上述四種技術在今天仍然適用和流行。 Alpaca 採用Knowledge distillation進行訓練。 QLoRA 結合使用了Low-rank factorization和quantization。

5.設計一種新的模型架構

自2012 年的AlexNet 以來，我們看到了許多架構的興衰，包括LSTM、seq2seq 等。與這些相比，Transformer 的影響力，令人難以置信。自2017 年以來，Transformer 就一直存在，而這種架構還能流行多久，還是個未解之謎。

開發一種新架構來超越Transformer 並不容易。 Transformer 在過去6 年中進行了大量優化，而這種新架構，必須在人們當前關注的硬件，以當前關心的規模運行。

注意：谷歌最初設計Transformer 是為了在TPU 上快速運行，後來才在GPU 上進行了優化。

2021 年，Chris Ré's lab的S4 引起了廣泛關注，詳見《Efficiently Modeling Long Sequences with Structured State Spaces 》(Gu et al., 2021)）。 Chris Ré's lab仍在大力開發新架構，最近與初創公司Together 合作開發的架構Monarch Mixer（Fu ，2023 年）就是其中之一。

他們的主要思路是，對於現有的Transformer 架構，注意力的複雜度是序列長度的二次方，而MLP 的複雜度是模型維度的二次方。具有次二次方復雜度的架構將更加高效。

君主攪拌機

6. 開發GPU 替代方案

自2012年的AlexNet以來，GPU一直是深度學習的主導硬件。實際上，AlexNet受歡迎的一個普遍認可的原因之一是它是首篇成功使用GPU來訓練神經網絡的論文。在GPU出現之前，如果想要以AlexNet的規模訓練模型，需要使用數千個CPU，就像谷歌在AlexNet之前幾個月發布的那款。與數千個CPU相比，幾塊GPU對於博士生和研究人員來說更加容易得到，從而引發了深度學習研究的繁榮。

在過去的十年裡，許多公司，包括大型企業和創業公司，都試圖為人工智能創建新的硬件。最值得注意的嘗試包括谷歌的TPU、Graphcore的IPU（IPU的進展如何？）以及Cerebras。 SambaNova籌集了超過十億美元來開發新的AI芯片，但似乎已轉向成為一個生成式AI平台。

有一段時間，人們對量子計算抱有很大的期望，其中關鍵參與者包括：

IBM的QPU

*谷歌的量子計算機在今年早些時候在《自然》雜誌上報導了量子誤差減少的重大里程碑。其量子虛擬機可以通過Google Colab公開訪問。 *

*研究實驗室，如麻省理工學院量子工程中心、馬克斯·普朗克量子光學研究所、芝加哥量子交流中心、奧克里奇國家實驗室等。 *

另一個同樣令人興奮的方向是光子芯片(photonic chips)。我對這個領域知之尚淺，所以，如果有錯誤，請糾正我。現有芯片使用電力來傳輸數據，這消耗大量的能量並且產生延遲。而光子芯片使用光子來傳輸數據，利用光速進行更快、更高效的計算。在這個領域，各種初創公司已經融資數億美元，包括Lightmatter（2.7億美元）、Ayar Labs（2.2億美元）、Lightelligence（2億美元以上）和Luminous Computing（1.15億美元）。

以下是光子矩陣計算三種主要方法的進展時間線，摘自論文《Photonic matrix multiplication lights up photonic accelerator and beyond》（Zhou，Nature 2022）。這三種不同的方法分別是平面光轉換（PLC）、馬赫-曾德爾干涉儀（MZI）和波分複用（WDM）。

7. 提高agents的可用性

Agent指可以執行動作的大語言模型（可以理解為那些可以代替你來完成各種任務的代理人，所以叫Agent），例如瀏覽互聯網、發送電子郵件、預訂等。與本文中其他研究方向相比，這可能是最新的方向之一。由於Agent本身的新穎性和巨大潛力，人們對Agent充滿熱情。而Auto-GPT現在是GitHub上標星數量排名第25的、最受歡迎的repo。 GPT-Engineering是另一個受歡迎的repo。

儘管這個方向令人興奮，但人們仍然對大語言模型是否足夠可靠和高性能，以及能夠被賦予行動的權力，存在疑慮。然而，已經出現了一個應用場景，即將Agent用於社會研究，例如著名的斯坦福實驗，該實驗顯示一小簇生成式Agent產生了新興的社會行為：例如，從一個用戶指定的想法開始，一個Agent想要舉辦情人節派對，Agent在接下來的兩天裡自動傳播派對的邀請，結交新朋友，互相邀請參加派對...（Generative Agents: Interactive Simulacra of Human Behavior, Park et al., 2023)，

在這個領域最值得注意的創業公司也許是Adept，由兩位前Transformer的合著者和前OpenAI副總裁創立，到目前為止已經融資近5億美元。去年，他們展示了他們的agent的如何瀏覽互聯網的，還有就是演示瞭如何向Salesforce添加新賬戶。

8. 迭代RLHF

RLHF（從人類反饋中進行強化學習）很酷，但有點技巧性。如果人們找到更好的訓練LLM的方法，也不奇怪。不過，在RLHF方面還存在許多未解決的問題，例如：

①如何用數學方式，表示人類偏好？

目前，人類偏好是通過比較來確定的：人類標註員確定響應A是否比響應B更好。然而，它沒有考慮響應A比響應B好多少。

②什麼是人類偏好(preference)？

Anthropic根據輸出，在有益、誠實和無害三個方面對其模型的質量進行了衡量。請參閱Constitutional AI: Harmlessness from AI Feedback (Bai et al., 2022).

DeepMind試圖生成能夠取悅大多數人的響應。請參閱Fine-tuning language models to find agreement among humans with diverse preferences, (Bakker et al., 2022).

此外，我們想要能夠表達立場的AI，還是對任何可能具有爭議性的話題迴避的傳統AI呢？

③“人類”偏好究竟是誰的偏好，是否要考慮到文化、宗教、政治傾向等的差異？獲得足夠代表所有潛在用戶的訓練數據存在許多挑戰。

例如，對於OpenAI的InstructGPT數據，沒有65歲以上的標註員。標註員主要是菲律賓人和孟加拉人。請參閱InstructGPT: Training language models to follow instructions with human feedback (Ouyang et al., 2022).

InstructGPT標註員的國籍統計信息

儘管社區主導的努力在其意圖上值得讚賞，但可能導致數據存在偏見。例如，對於OpenAssistant數據集，222位（90.5％）回答者中有201位自我認定為男性。 Jeremy Howard在Twitter上有一個很好的Thread：

9.提高聊天界面效率

自ChatGPT 以來，人們一直在討論聊天是否是一個適用於各種任務的界面。

詳見：

自然語言是惰性用戶界面（Austin Z. Henley，2023）

為什麼聊天機器人不是未來（Amelia Wattenberger，2023）

哪些類型的問題需要通過對話來回答？ AskReddit 問題的案例研究（Huang 等人，2023）

人工智能聊天界面可能成為閱讀文檔的主要用戶界面（Tom Johnson，2023）

通過最少的聊天與法學碩士互動（Eugene Yan，2023）

然而，這並不是一個新話題。在許多國家，尤其是在亞洲，聊天已經作為超級應用的界面使用了大約十年時間，Dan Grover在2014年就已經寫過相關論文。

2016 年，當許多人認為應用程序已死、聊天機器人將成為未來時，討論再次變得激烈緊張起來：

作為界面的聊天（Alistair Croll，2016）

聊天機器人趨勢是一個大誤解嗎？（Will Knight，2016）

機器人不會取代應用程序。更好的應用程序將取代應用程序（Dan Grover，2016）

我個人喜歡聊天界面，原因如下：

①聊天界面是每個人，甚至是沒有先前接觸過計算機或互聯網的人，都可以迅速學會使用的界面（普適性）。在2010年代初，當我在肯尼亞的一個低收入居民區做志願者時，我驚訝於那裡的每個人在手機上進行銀行業務時是多麼熟悉，通過短信。那個社區沒有人有計算機。

② 聊天界面是易於訪問的。如果你的雙手整忙於其他事情，可以使用語音而不是文本。

③ 聊天也是一個非常強大的界面--你可以向它提出任何請求，它都會給予回复，即使回復不一定完美

不過，筆者認為聊天界面在某些方面還可以繼續改進：

①單次可交流多條消息

目前，我們基本上假設每次交流只有單輪消息。但這不是我和我的朋友發短信的方式。通常，我需要多條消息來完成我的思考，因為我需要插入不同的數據（例如圖像、位置、鏈接），我可能在之前的消息中遺漏了某些內容，或者只是不想把所有內容都放在單一的大段落裡。

②多模態輸入

在多模態應用領域，大部分精力都花在構建更好的模型上，而很少花在構建更好的界面上。以Nvidia的NeVA聊天機器人為例。我不是用戶體驗專家，但我認為在這裡可能有改進的空間。

附註：對這裡提到NeVA團隊表示抱歉，即使有了這個，你們的工作仍然非常酷！

③將生成式AI融入工作流程中

Linus Lee在他的分享“Generative AI interface beyond chats.”中很好地涵蓋了這一點。例如，如果您想問關於您正在處理的圖表中的某一列的問題，您應該能夠只需指向那一列並提問。

④消息編輯和刪除

用戶輸入的編輯或刪除會如何改變與聊天機器人的對話流程？

10. 為非英語語言創建LLM

我們知道，目前以英語為第一語言的LLM 在性能、延遲和速度方面都無法很好地適用於許多其他語言。請參閱：

ChatGPT 超越英語：對多語言學習中的大語言模型進行綜合評估（Lai et al., 2023）

所有語言並非生來平等（標記化）（Yennie Jun，2023）

我只知道訓練越南語的嘗試（比如Symato 社區嘗試），不過，本文幾位早期讀者告訴我，他們認為我不應該把這個方向包括進來，原因如下：

這與其說是一個研究問題，不如說是一個logistics問題。我們已經知道如何去做，只是需要有人投入資金和精力。不過，這並不完全正確。大多數語言都被認為是low-resource語言，例如，與英語或中文相比，很多語種的高質量數據要少得多，因此可能需要不同的技術來訓練大型語言模型。參見：

低資源語言：回顧過去的工作和未來的挑戰（Magueresse et al., 2020）

JW300：適用於低資源語言的廣覆蓋平行語料庫（Agić et al., 2019）

那些更為悲觀的人認為，在未來，許多語言將會消失，互聯網將由兩個語言組成的兩個宇宙：英語和漢語。這種思潮並不新鮮- 有人還記得Esperanto嗎？

人工智能工具，例如機器翻譯和聊天機器人，對語言學習的影響仍然不明確。它們會幫助人們更快地學習新語言，還是會完全消除學習新語言的需求。

結論

本文如有任何遺漏，請告知我，為了獲取其他觀點，請查閱這篇全面的論文《Challenges and Applications of Large Language Models (Kaddour et al., 2023).

上述問題比其他問題更加困難。例如，我認為上述第10個問題，即建立非英語語言的LLM，只要有足夠的時間和資源，就會比較簡單。

上述第1 個問題是減少幻覺輸出，這將會難得多，因為幻覺只是LLM 在做概率的事情。

第4 ，讓LLM 更快、更便宜，這一點永遠無法徹底解決。這方面已經取得了很大進展，以後還會有更多進展，但是這個方向的改進將會一直持續。

第5 項和第6 項，即新架構和新硬件，非常具有挑戰性，但隨著時間的推移，它們是不可避免的。由於架構和硬件之間的共生關係——新架構需要針對通用硬件進行優化，而硬件需要支持通用架構，它們可能會由同一家公司來完成。

有些問題僅靠技術知識是無法解決的。例如，第8 個問題，即改進從人類偏好中學習的方法，可能更多的是一個政策問題，而不是技術問題。第9 個問題是提高聊天界面的效率，這更像是用戶體驗問題。我們需要更多具有非技術背景的人員與我們一起解決這些問題。

你最感興趣的研究方向是什麼？認為最有希望解決這些問題的方案是什麼？很想听聽您的意見。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
分享

留言

0/400

暫無留言

話題
ETH突破3600
31604 熱度
特朗普施壓鮑威爾
18924 熱度
Gate 2025 Q2報告出爐
46803 熱度
4比特幣巨鯨動向
16459 熱度
5山寨季何時到來？
43431 熱度
6Gate衍生品交易量新高
19338 熱度
7加密法案投票周
6534 熱度
8MicroStrategy增持比特幣
3536 熱度
9BTC再創新高
112835 熱度
10我的Gate時刻
28398 熱度