復旦教授肖仰華:ChatGPT代碼解釋器是里程碑意義的成就

來源:澎湃新聞

記者邵文

·ChatGPT代碼解釋器測試版開放後,用戶即使不是程序員,也可以用自然語言向ChatGPT下達指令完成複雜編程任務,這可能會產生兩個重大影響:消滅語言鴻溝;重塑產業形態。

·未來大模型快速迭代將有兩個趨勢:第一,ChatGPT一定會朝著更大規模、更多樣的數據學習,同時結合私域專業性更強的數據,旨在開展更有寬度的學習;第二,它會加大數據解析程度,一定程度上可以認為是在開展更有深度的學習。

圖片來源:由無界AI工俱生成

ChatGPT代碼解釋器測試版正式向所有ChatGPT Plus用戶開放,能夠利用人類的自然語言作為指令,去驅動大模型完成數學運算、數據分析、專業圖表繪製,甚至生成視頻、分析股票市場。

“OpenAI的ChatGPT能力又升級了,它已經完成從工具到助手的升級,這次又從普通助手升級為專業助手。”7月12日,復旦大學教授、上海市數據科學重點實驗室主任肖仰華向澎湃科技(談到OpenAI近日的重磅發布:ChatGPT代碼解釋器(Code interpreter)。

北京時間7月9日,ChatGPT代碼解釋器測試版正式向所有ChatGPT Plus用戶開放,其能夠利用人類的自然語言作為指令,去驅動大模型完成數學運算、數據分析、專業圖表繪製,甚至生成視頻、分析股票市場。

也就是說,用戶即使不是程序員,也可以用自然語言向ChatGPT下達指令,進而完成複雜編程任務。這被外界評價為“GPT-4有史以來最強大的功能”。

“用個不恰當的比喻。”肖仰華說,“可以看得出來OpenAI應該是'蓄謀已久',他們一直在努力提升大模型的多模態交互能力。”多模態交互是利用自然語言驅動圖像、專業圖表等多模態任務的能力。

變成這樣的專業助手意味著什麼? “意味著即便是很多專業性很強的工作,ChatGPT都有能力完成。可以說,其可以勝任一些大學相關專業本科生的工作,比如數據科學專業。”肖仰華說。

“數據解析能力決定大模型將來能獲得的能力”

對於ChatGPT為何選擇在這個方面進行升級,肖仰華認為,這得益於數據的深度解析與學習,此類數據廣泛存在,大部分論文本質上就包含各個學科的專業性數據分析。前面幾個版本的GPT主要側重於文本數據的有效利用,但對於這些數據中圖表、格及其與文本之間的對應關係,利用比較粗放簡單。這一次的升級實際上得益於從專業文獻等數據中進行深度解析,建立文本於圖表與公式的對應關係,使得GPT習得了通過自然語言交互驅動圖、表的製作能力。

從這樣的發現中,肖仰華得到了技術研發上的一個啟示:“這種對於語料的深度解析能力很有可能是決定大模型能力的核心因素之一,大模型的研製無論何種程度地重視數據都不為過。”

對於ChatGPT,肖仰華認為,OpenAI一直以來努力的方向都是尋求更多的優質數據,深度解析已有的數據,從而使自己的能力越來越強大。所以獲取大規模、高質量、多樣性的數據,並深入解析這些數據,可能是推動大模型發展重要思路之一。 ”

“消滅語言鴻溝”

總體看待此次ChatGPT的能力升級,肖仰華認為其中有兩個可能產生的影響值得關注:第一,“消滅語言鴻溝”;第二,重塑產業形態。

什麼是語言鴻溝?自計算機發明以來,人類希望讓計算機按照自己的意願完成各種設定任務,這需要專業人士通過非自然語言或者形式化語言表達意圖、下達指令,如早期的彙編語言,後來的C++高級程序語言、結構化查詢語言如SQL等。而人類溝通與交流的語言是自然語言。

西方傳說中,上帝為了阻止人類建成通天的“巴別塔”,變亂了人類語言,使得人類之間語言不通,永遠沒有辦法真正達成溝通、理解他人。肖仰華認為,機器和人類之間也存在著這樣的情況,至少機器一直以來都無法準確理解人類的自然語言,所以實際上人類一直遷就機器,將自己的意圖轉換成各種各樣的形式語言。

然而,計算機要完成的任務存在於千行百業,肖仰華說,這意味著為了完成不同的任務,專業人員就要學習不同的語言,比如專門面向芯片設計的語言、專門面向辦公自動化的語言。這些都需要經過複雜培訓才能掌握,所以每一項專業任務都需要經歷複雜的語言學習,為人們從事某個行業設定了較高的語言門檻。

但現在看來,肖仰華判斷,“這些所有的形式語言都不必要了,基本上可以被自然語言代替。”某種程度上而言,可以認為機器“理解”了人類的自然語言,同時也理解了各種專業的形式化語言,可以把人類各種自然語言所表達的意圖準確轉換成相應的形式語言,比如編程的語言和芯片設計的語言。

這就是消滅了語言鴻溝,機器“理解”人類不再存在障礙。 “如果說ChatGPT的初版消滅了人機之間的自然語言表達鴻溝,這次帶有Code Interpreter功能的ChatGPT則消滅了人機之間的專業語言表達鴻溝。”肖仰華認為,這將有非常深遠的影響,是里程碑意義的成就。

“很快,像數學語言、物理語言等人類從事非常專業性工作所需要的'語言'能力,以及相應的思維能力和解決問題的能力,大模型將會逐步勝任。因為,從原理上這是相通的,數學家籍以開展研究工作所需要的數學語言也是一種形式語言而已。只要能夠拿到自然語言和相應專業語言的配對數據,大模型就有機會習得。而這些數據廣泛存在於論文中,還可以通過廣泛應用的專業軟件,比如MATLAB,進行數據合成,進而進一步緩解大模型專業能力學習時的數據稀缺問題。”肖仰華說。

**專業性崗位還有無必要? **

這就意味著,以後大部分需要一些掌握專業語言才能夠勝任的專業性工作,大模型或許都能完成得不錯。這也帶來一個值得深入思考的問題,肖仰華問道:我們還有沒有專業人士的發展空間,或者說其工作崗位有無必要性?

在肖仰華看來,隨著大模型能力提升,所有借助語言完成的工作將來都會分成三個步驟:第一步提示(),第二步生成,第三步評價。

“很顯然現在這些生成的工作,不管是專業性還是非專業性的,都可以交給大模型。但專業人士仍然有其價值所在,比如寫提示詞,如何提示大模型生成所需要的專業性圖表,以及如何評價分析其生成結果的對錯好壞。這些方面人類仍然有其優勢,或者說短期之內大模型仍然需要較大的完善才能夠勝任。”肖仰華說,所以這將重塑產業形態。

更進一步而言,大部分內容生成相關的任務和分析型工作,都將會被分解成很多個細分步驟,其中重複性、常規性、生成式的細分步驟將逐漸交給大模型,將傳統小模型擅長的細分任務交給小模型,將仍然只有人類擅長的細分任務交給人類。肖仰華認為,將復雜任務分解成多個步驟(分解),再由大模型、小模型、人類完成其所擅長的步驟(重組),這種“分解+重組”模式將是未來重塑產業形態的基本趨勢。

大模型快速迭代的兩個趨勢

對於此次更新是否代表著GPT-4.5出現,肖仰華認為這並非關鍵,但這個問題如此引起關注,背後實際上反映了人類對大模型快速迭代的擔心,一定程度上體現了大家對其可能帶來的社會衝擊的擔憂。在他看來,這種擔心不無道理,“在它快速迭代的情況下,至少我們理解它的速度顯然可能是跟不上它的迭代速度。我們甚至要主動按下大模型研發的暫停鍵,好好去思考其到底能做什麼、不能做什麼。”

對於大模型快速迭代的兩個趨勢,肖仰華認為,第一,現在ChatGPT主要是以公開的數據學習為主,其一定會朝著更大規模、更多樣的數據學習,同時結合私域專業性更強的數據。第二,它會加大數據解析程度,一定程度上可以認為是提高學習的深度。也就是說這是兩個維度,一個是學得越來越廣博,一個是舊的數據學得越來越專、越來越深。

“這是這次版本出現的一個非常重要的思路,實際上很有可能數據還是那些數據,只不過學得更深入。”肖仰華繼續說,“如果每一個領域的大模型是割裂而無法融合的,那麼其能力或許還在可控範圍內。但如果像ChatGPT這樣擁有強大通識能力、又不斷結合各個私域數據進行學習,那麼其能力升級可能會在我們的預期之外。所以推動大模型向安全可控的方向發展勢在必行、迫在眉睫”。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)