穩健,是 Gate 持續增長的核心動力。
真正的成長,不是順風順水,而是在市場低迷時依然堅定前行。我們或許能預判牛熊市的大致節奏,但絕無法精準預測它們何時到來。特別是在熊市週期,才真正考驗一家交易所的實力。
Gate 今天發布了2025年第二季度的報告。作爲內部人,看到這些數據我也挺驚喜的——用戶規模突破3000萬,現貨交易量逆勢環比增長14%,成爲前十交易所中唯一實現雙位數增長的平台,並且登頂全球第二大交易所;合約交易量屢創新高,全球化戰略穩步推進。
更重要的是,穩健並不等於守成,而是在面臨嚴峻市場的同時,還能持續創造新的增長空間。
歡迎閱讀完整報告:https://www.gate.com/zh/announcements/article/46117
有了ChatGPT,讀書還有用嗎?
**作者:**李子技術社會學博士,哥倫比亞大學醫學人文和倫理系博士後研究員
上半年ChatGPT橫空出世,人工智能的潛能展現,給許多職業帶來了一場生存危機的探討。 GPT能夠通過律師和工程師資格考試,寫的大學論文能不掛科,甚至能夠“理解”笑話。它能回答人們的疑問,組織生動的語言結構,模仿各式各樣的語言風格;而大語言模型和圖像生成AI 結合的技術,例如Midjourney,能夠讓絲毫沒有受過藝術訓練的人,用只言片語“創造”出驚人的藝術圖像。
ChatGPT 的本質,實際上是大語言模型(Large Language Model,LLM)疊加生成式人工智能。大語言模型,顧名思義,就是大,用海量的語素,用機器學習的方法訓練一個計算機模型。生成式,則是用預測的方式,在對話時把最有可能出現的語素聯繫展示出來。
對於知識“加工”和“消費”者而言,大語言模型加上生成式人工智能的能力是巨大的。海量語素數據、深度神經網絡和極大的計算力,相當於把整個來自互聯網的知識“壓平“,再通過人機互動進行“整裝”。
**從計算邏輯上來講,ChatGPT 相當於一個更加強大的搜索引擎。 **普通的搜索引擎例如穀歌和百度通過爬蟲的模式“扒”整個互聯網的信息,並通過複雜的算法進行排序。而人工智能使用機器學習的方法,相當於把這些扒出來的信息,用預測的方式進行了符合語言邏輯的整理。知識加工變得更加便捷迅速,消費變得更加簡明清晰——有的時候甚至過於簡便,給了考試論文作弊以可乘之機。
針對這一點,技術樂觀主義者認為,既然從今以後機器能夠生成的內容,或許也不需要大多數的人類去動腦實現,就如同搜索引擎取代了圖書館的館藏卡片、計算器取代珠算一般。的確,那些需要大量重複的文字類工作,或者機械的列舉、整理工作,即使AI 不介入最終決策,確實也能夠提供相當程度的生產力,輔助人類進行知識的加工和消費。
那麼,讀書還有用嗎?各大高校、研究機構的人員,是否也可以下班了?
機器能“學到”什麼
大語言模型和生成式人工智能,為將來的知識“生產者”帶來了一個繞不過的課題:何為知識?如何生產多樣、公正、真實的知識?
人工智能的“學習”能力是驚人的。現有的大語言模型和人工智能的應用,都脫不開機器學習作為其底色。 “學習”二字,實質上是用大量的數據訓練預測模型,並在預測的準確度,以及普適性上找到平衡。這種預測實際上是基於現有知識的,語言模型的預測,也是基於現有語言之間的聯繫。例如輸入“紅燒”,機器預測“肉”;然後根據更多的輸入,例如地點,人,習慣等等,給出更加精確的預測,比如“外婆做的紅燒牛肉”等等。
這種預測是怎麼實現的呢?我們熟悉的坐標係是二維的。比如整個人群中,身高和體重有一個大致的對應關係,給出身高,機器預測一個平均體重,就是基於現有數據的預測。再加入另一個維度,比如性別,那麼就成為了一個三維坐標,男女的預測會有所不同。如此下去,數據的維度可以是無限的,而機器學習的模型,就是在人腦所不能想像的多維空間中尋找此類聯繫,並不斷調整各個維度之間的權重。比如,身高對體重的預測“有多重要”,可以在大量的數據輸入之後進行調整。
**因此,基於機器學習的人工智能,會把各種維度的數據,在更高維度的空間里聯繫起來,有發現數據之間潛在聯繫的能力,也會“學到”一些現實中不存在的、但很可能發生的聯繫。 **用在語言模型中,人工智能也能學習到不同的語言風格,挖掘現有文字中的“精髓”和“問題”。
**數據越大,模型越成熟,其計算和挖掘能力也越高。 **類似於BERT、GPT 這樣誕生於大機構的AI,被許多人認為走到了技術的“拐點”,量變產生質變也不無道理——這對於知識生產者來講是好事。不過,大模型也有其內在的問題,模型越大,問題也越尖銳,特別是涉及到知識的多樣、公正和真實方面。
怎樣才能生產真實
**且公正的知識? **
新的知識能從現有知識的連結和新模式中產生,這一點不管是從人還是機器的層面都是成立的。然而,現有的知識是否足夠?是否充分?是否公平?如果現有知識的基礎是不足的、甚至是有偏見的,那麼在此基礎上建立的新知識也會產生偏差。
自從機器學習的AI投入大規模應用以來,學者們就在不斷地揭示出這些模型內在的偏見:性別歧視、種族歧視、有違倫理的輸出等等。開發者們用各種補丁和糾偏的方式去彌補,但大部分問題都潛藏於數據生產和訓練過程中,而AI的偏見,亦是對社會偏見的反映和放大。
到了大模型時代,這個問題可能會被隱藏得更深一些:不是每個研究者或者團隊都有能力從0開始開發AI模型,尤其是大語言、大圖像模型,大多都是在現有模型的基礎上進行微調。而大模型本身的問題和偏差,會被遷移到更多的應用模型上。而越是底層的偏差,越是難以通過微調糾偏的方式進行處理。
現有語言模型的預測生成模式,甚至還會將數據現有的偏差放大,產生“過擬合“的效果:例如,某種疾病在某個族群中統計數據佔比偏高,約有60% ;但若讓語言模型去生成一個病人的畫像,那麼有超過90%的可能,生成的病人描述會屬於該族群。
現在一些AI的模型訓練,採用的是一種“互搏”模式——所謂“生成對抗網絡”(generative adversarial network),讓兩個模型不斷互相生成、彼此糾正。這種方式的確是提高了模型訓練的效率,然而任何小的偏差,都會在這種“互搏”中被放大。同樣的原理,**如果一個與機器緊密合作的知識生產者,其生產依賴於這類“生成”,那麼一些來自於模型的偏見,就會被嵌入更多的新知識中,新知識再被吸收為數據,又進一步加強了模型的偏差。 **知識生產者在這個過程中必須保持警惕。
**什麼是新知識? AI 的“生成”能代表新知識嗎? **
所謂的新知識,究竟是什麼?如果要充分使用AI來生產知識,那麼知識生產者就必須要從人機的結合點去思考這個問題。任何信息,以及人類從真實世界中獲取的知識,都需要被“清洗”和“格式”成數據。除了上面提到的數據質量以外,數據生成的過程也很重要。簡而言之,人們要研究的問題是什麼?這個問題被翻譯成為了怎樣的數據?這些數據是怎麼被生產出來的,又是否全面、公正地代表了知識生產者們想要研究的問題?
這個問題,對於“傳統”的知識生產者而言也是成立的。以歷史學為例,雖然歷史研究的是過去的事情,但過去的事情沒有百分百能夠蓋棺定論的。學者們通常會不斷地尋找新的史料,去補充對於歷史問題的理解,去不斷地挖掘過去被忽略的視角和聲音。有趣的是,當下的史學,也常常會求助於大量的數據,特別是過去的經濟、人口、氣候數據,甚至依靠機器學習,為歷史帶來的新認識、新觀點。
同樣的,依靠機器生成的認識和觀點,也有可能放大了某一些數據來源的重要性。現在的知識生產者,過於依賴那些主流的、存在於互聯網的、電子的信息,去在那些已經被別人“翻譯”為數據的東西上進行創造。 **在AI時代,AI 提供的便捷和可延展性,也會潛在地讓人們更容易忽視沒有被數據化、電子化的,非主流的,經驗性的知識,從而錯過形成新觀點、新視角的可能性。 **
往更深層次講,新知識往往產生於對於新材料的挖掘,不同觀點、不同視角之間的碰撞,對於現有知識的重新解構。大語言模型為知識的展現提供了許多可能性,然而其內在的邏輯和架構可能是和這種生產方式相悖的。
基於大語言模型的訓練方式,和模型生成輸出的特徵,排序靠前的、概率更高的輸出內容,權重會變得更大,特徵會變得更單一。 “AI生成的”幾乎已經變成了一個形容詞,去描述那些沒有特徵的、不斷重複、說了像是沒說的片湯話。誠然,對於知識消費者而言,那些“最有可能”出現的答案大大降低了理解門檻;但對於知識生產者而言,這些東西反而有可能成為阻礙。
**新時代的知識生產者該往哪裡走? **
可能很多和我一樣的社科研究者,都在使用ChatGPT的時候遇到過這個問題:問它解釋一個概念,說得頭頭是道;然而問起來源,就是“一本正經地胡說八道”了,比如列舉出一個作者從來沒寫過的書、從來沒發表過的論文。領域越是狹窄、專業,“胡說”的可能性越大。
退回到AI 的原理,這種“創造”其實也是在海量的數據中,挖掘詞句“有可能”的聯繫,但這些聯繫在現實中是不存在的,說白了只是“聽起來很像”。這種新現象,在當下被稱為“幻視”(hallucination)。對於知識生產者而言,如何活用人工智能去挖掘現有知識庫中的模式和聯繫,但又對機器的“幻視”保持警惕,什麼存在,什麼存疑,是非常重要的技能。
與AI“對話”,也會變成一個新的技能。當下的AI對於大部分非技術人員而言(甚至技術人員),依然是一個神秘的“黑箱”。 如何從技術的底層或者中層入手,去更有效地與機器對話,理解和對抗“幻視”,需要知識生產者和技術從業人員的合作。
而對於新知識、新視角、新材料的研究,各個領域獨有的結構和詮釋,在當下依然是十分關鍵的。大語言模型和生成式AI的預測模式,依然是傾向單一、重複的,越是訓練材料少的領域,能力就越是有限。想要機器和人能力的結合,就必須從數據的生產根源上著手,去用準確的、多樣的、公正的、新穎的數據訓練AI模型,建立良性的人機互動模式。
大語言模型和生成式AI的問世對研究人員帶來的挑戰,僅僅是一個開始。與其探討“取代”,不如在更加審慎的目光下,尋求磨合與發展的可能。