穩健,是 Gate 持續增長的核心動力。
真正的成長,不是順風順水,而是在市場低迷時依然堅定前行。我們或許能預判牛熊市的大致節奏,但絕無法精準預測它們何時到來。特別是在熊市週期,才真正考驗一家交易所的實力。
Gate 今天發布了2025年第二季度的報告。作爲內部人,看到這些數據我也挺驚喜的——用戶規模突破3000萬,現貨交易量逆勢環比增長14%,成爲前十交易所中唯一實現雙位數增長的平台,並且登頂全球第二大交易所;合約交易量屢創新高,全球化戰略穩步推進。
更重要的是,穩健並不等於守成,而是在面臨嚴峻市場的同時,還能持續創造新的增長空間。
歡迎閱讀完整報告:https://www.gate.com/zh/announcements/article/46117
直接壓縮一切! OpenAI首席科學家Ilya Sutskever這麼看無監督學習
原文來源:機器之心
近日,OpenAI 首席科學家Ilya Sutskever 在專注於計算理論研究的Simons Institute 作了一次講座,一句話總結就是我們可以通過壓縮的視角來看待無監督學習。此外他還分享了不少其它有趣的見解。機器之心整理了該演講的大體內容,希望藉此幫助讀者更深入地理解無監督學習。
Sutskever 首先談到了自己的研究方向的變化,他說:「不久前,我將全部的研究重心都轉移到了AI 對齊研究上。」這說的是OpenAI 前段時間成立的「Superalignment(超級對齊)」團隊,由他與Jan Leike 共同領導。 Sutskever 表示他們已經在AI 對齊方面取得了一些研究成果,但這並非這次演講關注的話題。
這次演講的主題為「An observation on Generalization(對泛化的一種觀察)」,而Ilya Sutskever 具體談論的重點是一種解釋無監督學習的理論。
監督學習
Sutskever 先從監督學習談起。他表示,監督學習方面已經有了重要的形式化工作,這是多位研究者在多年前得到的成果;這些成果通常被稱為統計學習理論。
監督學習的優勢在於能提供一個學習必定成功的精確數學條件。也就是說,如果你有一些來自某數據分佈的數據,然後你能成功實現較低的訓練損失並且你的訓練數據足夠多(多於數據分佈的自由度),那麼你的測試誤差必定很低。
從數學上講,如果能在一類函數中找到能實現較低訓練損失的函數,那麼學習就必定成功。也因此,監督學習非常簡單。
研究者在相關研究中已經發現了一些定理,如下便是一例。 Sutskever 表示解釋這個定理大概需要五分鐘,但很顯然他的演講時間有限。
所以相對而言,監督學習已經得到很好的理解。我們知道其必定會成功的原因—— 只要我們能收集到大規模的監督學習數據集,那麼就完全可以相信模型必定越來越好。當然另一點也很重要,也就是保證測試分佈和訓練分佈一致;只有這樣,監督學習理論才是有效的。
這裡Ilya Sutskever 順帶提了提VC 維度。他提到很多統計學習理論的研究者都認為VC 維度是一大關鍵組件,但VC 維度被發明出來的目的是為了讓模型有能力處理有無限精度的參數。
**無監督學習是什麼? **
接下來看無監督學習。首先什麼是無監督學習? Ilya Sutskever 表示他目前還沒看到令人滿意的對無監督學習的闡釋,我們也不知道如何從數學上推理它—— 最多只能在直覺上做點推斷。
無監督學習是機器學習領域長久以來的夢想。 Sutskever 認為這個目標已經在實驗研究中達成,即模型在不被告知數據內容的前提下觀察數據並發現其中存在的真實有用的隱藏結構。
這是怎麼發生的?我們能確保這一定會發生嗎? Sutskever 表示我們不能,畢竟我們在無監督學習方面沒有在監督學習方面那樣的理論保證。
但因為我們不知道無監督學習的工作方式,所以它一直都讓人困惑。
難道我們就要放棄理論,在實證主義上一路走下去嗎?
一種無監督學習方法:分佈匹配
接下來,Sutskever 展示了一種思考無監督學習的潛在方式。他說這種無監督學習方式一直沒有成為主流,但卻非常有趣。它有與監督學習類似的特徵,也就是必然有效。為什麼會這樣?這涉及到一種名為分佈匹配(distribution matching)的無監督學習流程。
對於機器翻譯和語音識別等許多應用場景,這個約束可能是有意義的。舉個例子,如果有一個英語句子的分佈,使用函數F 後,可以得到接近法語句子分佈的分佈,那麼就可以說我們得到了F 的真實約束。
如果X 和Y 的維度都足夠高,那麼F 可能就有大量約束。事實上,你甚至有可能從那些約束中恢復完整的F。這是無監督學習的監督學習(supervised learning of unsupervised learning)的一個示例,它必定有效,就像監督學習必定有效一樣。
此外,替代密碼(subsitution cipher)也符合這一框架。
Sutskever 表示自己在2015 年時獨立發現了這一現象。這讓他不禁思考:也許我們能用某種有意義的數學形式來描述無監督學習。
當然,上面描述的機器翻譯場景是簡化過的人工場景,並不符合真實的應用情況,對應的無監督學習場景自然也是如此。
接下來,Sutskever 將闡述他提出的方法—— 其能從數學上為無監督學習提供說明以及確保無監督學習的結果優良。
眾所周知,壓縮就是一種預測,每個壓縮器都可以轉換為一個預測器,反之亦然。全體壓縮器與全體預測器之間存在一一對應關係。
Sutskever 指出,為了能更清晰地說明對無監督學習的思考,使用壓縮方面的論述方式更具優勢。
現在的重要問題是:一個足夠好的壓縮器會做什麼?
Sutskever 給出了一個非常直覺式的答案:壓縮器會使用X 中存在的模式來幫助壓縮Y;反之亦然。
他表示,預測任務場景其實也存在類似的現象,但在壓縮語境中說起來似乎就更直觀一點。
如果你的壓縮器足夠好,那麼對連接後文件的壓縮結果應該不會差於分開壓縮的結果。
兩種壓縮結果之間的差就是共有結構,即算法互信息(algorithmic mutual information)。
對應地,可以把Y 視為監督任務的數據,X 視為無監督任務的數據,而你對這些信息有某種形式的數學推理—— 可以使用X 中的模式來幫助Y 任務。
這樣一來,閉環就形成了。那麼我們如何用數學形式描述無監督學習呢?
無監督學習的數學形式化
注意這一部分的描述會交替使用壓縮場景和預測場景的描述。
那麼我們要問自己:使用這個算法最大的遺憾(regret)是什麼?
Sutskever 解釋說:「如果我很好地完成了工作並且我的遺憾很低,就意味著我已經從這未標註的數據中獲得了所有盡可能的幫助。這些未標註數據已經盡可能地幫助了我。我對此毫無遺憾。」也就是說已經沒有更好的預測值可供更好的壓縮算法使用了。 「我已經從我的未標註數據中獲得了最大收益。」
Sutskever 認為這是向思考無監督學習所邁出的重要一步。你不知道你的無監督數據集是否真的有用,但如果你在監督學習算法上的遺憾很低,那麼不管有沒有用,你都已經得到了最佳結果,不可能會有更好的結果了。
現在進入有些晦澀難懂的理論領域。
先簡單解釋一下Kolmogorov 複雜度:就好比你給我一些數據,為了壓縮它,我給你提供一個可能存在的最短的程序。 Kolmogorov 複雜度就等於這個最短程序的長度。
我們可以使用模擬論證(simulation argument)來證明這一點。假設有一個非常棒的壓縮器C,那麼它可能是一個計算機程序,如果將這個計算機程序交給K 來運行,那麼K 所需的成本就是這個程序的長度。 Kolmogorov 壓縮器可以模擬其它計算機程序和其它壓縮器,也因此它是不可計算的。它就像是一個能夠模擬所有計算機程序的自由程序,但它也是有可能存在的最好的壓縮器。
現在我們泛化Kolmogorov 壓縮器,使其可以使用其它信息。我們知道Kolmogorov 壓縮器是不可計算的,不可判定的,而像是搜索所有程序。這就像是使用神經網絡通過SGD(隨機梯度下降)調整參數來搜索程序。這個過程運行在有一定資源(內存、 步驟數)的計算機上,這就像是非常微小的Kolmogorov 壓縮器。這兩者存在相似之處。
模擬論證在這裡也適用。如果你想設計一個更好的神經網絡架構,你會發現這很困難,因為增添或修改連接這些操作雖然可以被其它神經網絡架構模擬,但實際卻難以做到。因為這些是能帶來巨大提升的罕見情況。正如從RNN 到Transformer 轉變。 RNN 有一個瓶頸:隱藏狀態。但如果我們能找到一種方法,讓RNN 可以擁有非常大的隱藏狀態,那麼它的性能表現可能會重新趕上Transformer。
所以我們可以把條件Kolmogorov 複雜度作為無監督學習的解,如下所示:
這是無監督學習的超低遺憾的解,只不過它是不可計算的,但卻能提供一個有用的框架。
**直接壓縮一切! **
Sutskever 又進一步提到「直接壓縮一切」也是可行的。
對此的證明要更複雜一些,這裡就不再繼續深入了。
聯合壓縮就是最大似然
Sutskever 在演講中談到的最後一點是:這種聯合壓縮就是最大似然,只要沒有過擬合。
所以通過連接數據來進行聯合壓縮在機器學習語境中是非常自然的做法。相比而言,通過條件Kolmogorov 複雜度就麻煩多了。
我們甚至可以將其用於解釋神經網絡的工作方式。我們可以將用於大型神經網絡的SGD 用作我們的大型程序搜索器。神經網絡越大,就能更好地近似常規Kolmogorov 壓縮器。 Sutskever 評價說:「也許這就是我們喜歡大型神經網絡的原因,因為我們可以以此近似不可實現的無遺憾常規Kolmogorov 壓縮器思想。隨著我們訓練的神經網絡越來越大,遺憾會越來越低。」
**此理論也適用於GPT 模型嗎? **
Sutskever 對此的答案是肯定的,不過解釋GPT 模型的行為時,無需引述有關壓縮或監督學習的說明,你可以說GPT 的「理論」可以通過對文本的條件分佈進行推理而得到。
Sutskever 表示他們已經在2020 年做過這樣的研究,即iGPT。當然,這主要是一個驗證概念的研究,離實踐應用還有很大距離,詳見論文《Generative Pretraining from Pixels》。
簡單來說,先將圖片轉換成像素序列,每個像素都有一個離散的密度值。要做的就是使用同樣的Transformer 來預測下一個像素。這不同於BERT,就是預測下一個token,因為這是最大化壓縮的似然。
下面來看看結果:
他們進行了實驗研究,結果發現在ImageNet 上,經過多方面擴展的iGPT 的表現可以接近當今最佳的監督學習,但依然還有些差距。
而在CIFAR-10 上,有13.6 億參數的iGPT-L 取得了準確度99% 的好成績,如下圖所示。
線性表徵
演講最後,Sutskever 表示他想談談線性表徵。
他覺得另一個有趣的地方是自回歸模型在線性表徵方面的表現優於BERT。但目前人們還不清楚其中的緣由。
不過Sutskever 倒是給出了自己的推測:在根據之前所有的像素預測下一個像素時,模型需要觀察數據的長程結構。 BERT 在處理向量時會丟棄一些像素token,通過兼顧地考慮一點過去和一點未來,模型實際上能得到相當好的預測結果。這樣一來就去除了所有困難任務,任務的難度就下降了很多。預測下一個像素中最困難的預測任務比BERT 預測情況中最困難的預測任務難多了。