AI大模型裡的不平等：漢語訓練費用是英語的2倍！

2023-08-03 05:55:41

來源：Ifanr

作者：莫崇宇

近日，X（原Twitter）用戶@Dylan Patel 展示了一份來自牛津大學的研究：通過對GPT-4 和大多數其他常見LLM 的語言進行研究，研究發現LLM（大語言模型）推理的成本差異很大。

其中英語輸入和輸出要比其他語言便宜得多，簡體中文的成本大約是英語的2 倍，西班牙語的成本是英語的1.5 倍，而緬甸撣語則是英語的15 倍。

究其原理，可以追溯到今年5 月份牛津大學在arXiv 上刊印的一篇的論文。

詞元是將自然語言文本轉換成詞元（token）序列的過程，是語言模型處理文本的第一步。在LLM 計算力成本的核算中，詞元越多，耗費計算力的成本越高。

毫無疑問，在生成式AI 商業化的趨勢下，計算力的耗費成本也會嫁接給用戶，當下許多AI 服務也正是按照需要處理的詞元數量來計費。

論文顯示，研究者通過分析17 種詞元化方法後，發現同一文本被轉換成不同語言詞元序列時長度差異巨大，即使是宣稱支持多語言的詞元化方法，也無法做到詞元序列長度完全公平。

例如，根據OpenAI 的GPT3 tokenizer，倘若給「你的愛意」詞元化，英語只需兩個詞元，而在簡體中文中則需要八個詞元。即使簡體中文文本只有4 個字符，而英文文本有14 個字符。

從X 用戶@Dylan Patel 曝光的圖片也可以直觀看到，讓LLM 處理一句英語需要17 個詞元（tokens），而讓LLM 處理同樣意思的一句緬語，則需要198 個詞元（tokens）。這意味著緬語的處理成本將達到英語的11 倍。

類似的情況也有很多，Aleksandar Petrov 的網站中提供了許多相關的圖標和數據，感興趣的朋友不妨點擊「進去查看語言之間的差異。

在OpenAI 的官網上也有著類似的頁面，解釋了API 是如何對一段文本進行詞元化，以及顯示該文本的詞元總數。官網也提到，一個詞元通常對應英語文本的約4 個字符，100 個詞元約等於75 個單詞。

得益於英語詞元序列長度短的優勢，在生成式人工智能預訓練的成本效益方面，英語可謂是最大贏家，將其他語言使用者遠遠地甩在身後，間接產生了一種不公平的局面。

除此之外，這種詞元序列長度的差異也會導致處理延遲不公平（某些語言處理同樣內容需要更多時間）和長序列依賴性建模不公平（部分語言只能處理更短的文本）。

簡單點理解，就是某些語言的用戶需要支付更高的成本，承受更大的延遲，獲得更差的性能，從而降低了他們公平地訪問語言技術的機會，也就間接導致了英語使用者和世界其他語言使用之間形成了AI 鴻溝。

僅從輸出的成本來看，簡體中文的成本是英語的兩倍。伴隨著AI 領域的深層次發展，總是「差一步」的簡體中文顯然並不友好。在成本等各方面疊加因素的權衡下，非英語母語的國家也紛紛嘗試開發自己的母語語言大模型。

以中國為例，作為國內最早一批探索AI 的巨頭，2023 年3 月20 日，百度正式上線生成式AI 文心一言。

隨後阿里巴巴的通義千問大模型、華為的盤古大模型等一批批優秀大模型也陸續湧現出來。

在這當中，華為盤古大模型中的NLP 大模型更是行業內首個千億參數中文大模型，擁有1100 億密集參數，經過40TB 的海量數據訓練而成。

正如聯合國常務副秘書長阿米娜·穆罕默德曾經在聯合國大會上警告說，如果國際社會不採取果斷行動，數字鴻溝將成為「不平等的新面孔」。

同理，伴隨著生成式AI 的狂飆突進，AI 鴻溝也很有可能成為新一輪值得關注的「不平等的新面孔」。

所幸的是，平時「慘遭嫌棄」的國內的科技巨頭已然採取了行動。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

0/400

暫無留言