大模型的應用熱:最甜的蛋糕與最難的關

作者丨白嘉嘉

美編丨漁夫

來源:矽基研究室

編者按:

一面狂熱,一面冷峻,這是中國大模型行業此刻的現狀,「混沌年代」可能是這一行業最貼切的標籤。大模型狂飆這半年,技術與人、技術與產業、人類文明與技術文明,走向了一個新的重構階段。這種變革背後,既是技術的進步,也是關鍵人物與關鍵企業的推動。

作為智能時代的前沿觀察者,「矽基研究室」關註一切與技術相關的故事,今天,我們將啟動「大模型的混沌年代」這一策劃,從解構大模型開始,將鏡頭轉向這些浪潮前沿的公司與人,分享與解讀他們的獨特洞察,以饗讀者。

此篇為該系列策劃的第二篇稿件:《大模型的應用熱:最甜的蛋糕與最難的關》。第一篇:大模型的混沌年代:矛盾、分化與未來

圖片來源:由無界AI工俱生成

“我所見過的事物,你們人類絕對無法置信。我目睹了戰船在獵戶星座的端沿起火燃燒,我看著C射線在唐懷瑟之門附近的黑暗中閃爍。所有這些時刻,終將流逝在時光中,一如眼淚消失在雨中。”

這是電影《銀翼殺手》中最後的獨白,出自複制人羅伊·巴蒂之口。

這段台詞後來被英國《觀察家報》評選為電影史上十大經典時刻的第六位,經常作為科幻作品的代表被引用。

某種程度上,這段話正在成為現實。如今令全球陷入狂熱的大模型,正在以難以想像的速度吸納全球的知識,那些字符背後的人、事、物匯聚成的洪流,或許不比星河大戰來得平淡。

而促成這一切的學者、工程師、商人仍在等待,或許他們也說不上來自己究竟希望等來些什麼,更精巧的技術探針?更高效的生產工具?更具錢景的超級應用?

又或者是一個像羅伊·巴蒂一樣的複制人,緩解人類仰望星河時近乎絕望的孤單。

它來了嗎?

它帶來什麼?

它是如何來的?

它首先在哪兒萌芽?

中外之間又會有什麼差別?

……

面對今天層出不窮的大模型,不論焦慮還是期待都已經來不及了,對於這個未來必將和我們長久相伴的伙伴,最好的歡迎儀式,就是注視它。

C端卷向B端,開源衝擊閉源

ChatGPT的出現,就像人工智能敲了敲你家的門。

從2022年11月30號面向公眾發布,僅用了兩個月時間,ChatGPT的月活躍用戶就成功過億,成為歷史上增長最快的消費者應用程序。

3月初Codeway Dijital基於ChatGPT API開發的對話機器人應用Chat with Ask AI,憑藉強大的問答功能,上半年收入超1600萬美元(約1.12億人名幣),成為AI+Chatbot賽道下載量和收入最高的應用。

**ChatGPT的成功似乎預示著AI應用面向C端用戶的商業邏輯成立——將產品交給用戶,由他們自己來挖掘AI帶來的無限可能,在這個過程中,一條美妙的收入曲線也會隨之浮現。 **

可惜,事情並沒有那麼簡單。

7月4日,網絡分析公司Similarweb發布數據稱,ChatGPT6月份的全球訪問量環比降幅9.7%,獨立訪客數量環比下滑了5.7%。

除了ChatCPT,Character.AI的訪問量也在6月出現了大幅下滑,環比降幅達32%。

Character.AI可以模仿娛樂名人、歷史人物、虛構人物的人格進行對話,在所有同類AI工具中訪問量排名第二。

對此,Similarweb分析師David Carr表示,“從現在開始,聊天機器人必須證明自己的價值,而不是認為一切都是理所當然的”。

某種程度上,ChatGPT和Character.AI訪問量的下滑,象徵著面向C端用戶的AI應用已經逐漸摸到了上限,而這一點則說明——

**用戶並沒有那麼大的興趣自主挖掘AI的可能性,將AI與應用場景深度結合,“把錘子放在釘子旁邊”,是大模型落地的必要條件。 **

微軟率先當起了“錘子的搬運工”。

採用ChatGPT母公司OpenAI的技術,微軟推出了Microsoft 365 Copilot,並在7月18日的年度Inspire大會上,面向商業客戶開出了每個月30美元的價碼。

據介紹,Microsoft 365 Copilot可以幫助企業對所有業務數據進行推理,包括從早上的會議、電子郵件和聊天記錄中生成最新信息,發送給團隊;幫助用戶了解上週項目進展;或從內部文件和網絡數據中創建SWOT分析。

**通過與自有場景結合,微軟走出了一條更紮實的變現路徑,而這也是今天許多大公司試水AI的模式,全程閉環,數據、模型僅在巨頭間流動。 **

就像《銀翼殺手》中最先進的機器人製造技術被泰勒公司牢牢把控。

不過現實的發展往往比電影更加戲劇,近日,同為互聯網巨頭的Meta宣布開源Llama2基礎大模型,由微軟雲分發,可供企業免費商用,打響了“反技術壟斷”第一槍。

就測評結果來看,Llama2距離GPT-4仍有一定的差距,與GPT-3.5各有優劣,是目前市場上最好用的開源模型。

不過這究竟這意味什麼?

以華為對大模型層級的劃分為例,可以分為基礎大模型(模擬人的功能,如語言、視覺),行業大模型(根據行業劃分,可能統籌了多個基礎大模型的功能)和場景模型(對應到行業裡的具體場景,比如網點助手、供應鏈物流、小分子優化)。

Meta開源的Llama2,就是基礎大模型中的大語言模型,不需要大量的數據來訓練模型,只需要大量的語料庫即可。通過精調,大模型創業者便可在此之上開發出適用於相應行業或場景的AI應用。

就像安卓系統托起了起了非蘋果手機的移動互聯網生態,Llama2最大程度降低了企業研發大模型的成本,從而可以更加聚焦自身的產業場景。

最近在國內突然爆火的“妙鴨相機”就是開源的受益者。

Stable Diffusion(SD)是目前最火的AI繪畫工具之一,它是一個免費開源的項目,可以被任何人免費部署和使用。市場預測,“妙鴨相機”的原理就是通過LoRA模型插件解決了SD出圖具有隨機性的問題。

而LoRA,其實也是一個面向公眾免費開放的模型微調技術。 7月25日阿里雲在國內推出針對Llama2全系列版本的訓練和部署方案中,就包括LoRA微調。

從ChatGPT直面C端消費者,到微軟將大模型與旗下場景結合後再推向消費者或企業,再到Meta開源Llama2,為企業提供基礎大模型和精調服務,**多條路徑推動大模型落地背後,既有大模型玩家試圖盡快打通商業閉環,回籠資金支持技術迭代的考量,也是構建AI產業生態,爭奪話語權的長線投資。 **

值得一提的是,雖然文中以微軟、OpenAI、Meta舉例,卻並不代表它們僅局限於相應路徑,事實上,在技術、資金的支持下,頭部企業均有實力部署多條路徑,而這也讓戰局顯得更加焦灼。

譬如,據The Information 7月24日發文爆料,OpenAI正在開發的開源大型語言模型,目前代號為G3PO,內部尚未決定發佈時間表。

有意思的是,雖然前腳扎克伯格在facebook上表示“開源推動了創新,因為它讓更多的開發者能夠使用新技術……我相信如果生態系統更加開放,將會釋放更多的進步” ,但在幾天后的電話會議上他又提出,將對微軟、亞馬遜、谷歌這樣的大型雲計算公司收取一部分轉售服務帶來的收益。

數據或成中國企業最牢固護城河

對於此輪的大模型創業潮,真格基金管理合夥人戴雨森有一個精妙的比喻:GPT-3的出現等於發現新大陸,而ChatGPT-4,好比是在新大陸上發現了黃金。

中國公司的追趕之旅則如同知道了新大陸和黃金所在,並且知道OpenAI 是坐船去的,也知道船大概的樣子,卻沒有詳細地圖。

因而,對中國的大模型玩家來說,在這段漫長航海之旅中找到靠岸補給,是生死攸關的必選項。

靠岸,就是為大模型尋找落地場景,形成可持續的商業模型。

不可否認,目前國產人工智能芯片仍與世界一流水準有一定差距,受限於芯片製裁,中國公司在擴大算力規模上難度較大。

此外,在算法端,包括自然語言處理、計算機視覺、音頻、多模態等各種大模型上,中國有著一定的優勢,但算法本身與算力相輔相成,因此也暫時與OpenAI等行業領先者有一定的距離。

在此現狀下,國內企業想要在這波AI浪潮中不落人後,就必須要在數據下功夫。

**換言之,中國大模型玩家在這輪競爭中的核心壁壘之一,就是基於中國市場形成的數據。 **

在大模型研發過程中, 數據是其中的決定性因素,數據質量和規模直接影響模型的研發成本和最終呈現效果。

然而,高質量數據往往包含著大量企業機密,就連上傳至外部網絡都不被允許,更別提交給其它公司用於大模型研發了。

今年三月,韓國媒體《economist》報導,三星內部發生了三起涉及ChatGPT誤用與濫用案例,導致半導體設備測量資料、產品良率等內容被存入ChatGPT學習資料庫,給企業造成了重大損失。

也正是因為存在信息洩露的風險,企業間信任成本過高,國外大模型企業往往先著手提升大模型規模,建立產業生態,隨後再跟進應用。

某種程度上,近日微軟、OpenAI、亞馬遜等企業在白宮簽訂的《自願承諾書》,既是對AI飛速發展所引起的社會擔憂的回應,也是向市場釋放信號,希望能得到更多社會機構和企業的信任。

**回到國內,在國家力量的引導下,國企及地方政府對大模型的態度相對開放,應用、生態、模型建設呈同步發展態勢。 **

比如,華為的盤古大模型落地山東省內開採儲量最大、礦井服務年限最長的現代化大型跨井“李樓煤礦”。

2022年10月,華為與山能集團子公司雲鼎科技簽署合作框架,全面啟動礦鴻、人工智能、ICT基礎設施、智慧園區、人才培養、智能穿戴、礦用終端、行業場景ICT解決方案等領域合作。

此後,雙方專家一同深入礦井一線,深度參與大模型應用工作,在實際生產中挖掘出採煤、掘進、主運、輔運、提升、安監、防衝、洗選、焦化9個專業21個應用場景,不斷升級模型,並於今年7月18日正式發布礦山領域首個AI大模型。

據了解,盤古大模型的功能之一是輔助防衝部門進行防衝卸壓工程規範性驗證,可以降低82% 人工審核的工作量,實現防衝工程100% 驗收率。

類似的故事也發生在百度、科大訊飛等企業身上。

今年6月27日,北京發布的首批10個行業大模型典型應用案例中,大部分是城市治理、智慧金融、健康醫療和工業現代化等“硬核”領域。

其中包括百度與國家電網智能電網研究元共同開發的“設備運檢知識助手搭載電力行業NLP大模型”,可分別提升電力專業分詞、電力營銷敏感實體識別F1指標9.27%、13.28%,達到92.376%和94.947%;

科大訊飛與中關村科學城城市大腦共同開發的“城市大腦大模型”,解決城市治理數據資源訪問和應用受限、城市治理服務模型通用泛化能力弱以及人工智能時代下的信息安全等問題。

**中國企業由此走出了一條與眾不同的道路——從行業大模型到通用大模型,然後再反過來看應用的規模化落地需要什麼樣的大模型技術。 **

**而這一流程也符合業內對於高質量數據生產的普遍共識——通過普及AI降低門檻,同時將AI落地到產業中去,進而積累和收集更多高質量的數據,最後反推模型進行快速迭代。 **

國內大模型應用場景之所以與國外產生差異,本質上是算力、算法不佔優勢的背景下,國家與企業形成合力加速“數據-模型-數據”的發展飛輪成型。

**而這一輪靠岸時刻裡真正決定未來走向的,實際是國內是否能建設起一個兼具高質量、流動性和安全性的數據市場。 **

日前,中國通信標準化協會和中國信息通信研究院發布《數據庫發展研究報告(2023年)》,報告指出,2022年全球數據庫市場規模為833億美元,中國數據庫市場規模為59.7億美元(約合403.6億元人民幣),佔全球7.2%。

預計到2027年,中國數據庫市場總規模將達到1286.8億元,市場年復合增長率(CAGR)為26.1%。

**最甜的蛋糕在哪兒? **

綜上所述,大模型賽道整體呈現出兩個趨勢。

**一是頭部企業從C端應用卷向B端,部分玩家選擇整合自身資源,建立起從數據底座到產業應用的全鏈條服務體系,另一部分則選擇打造大模型平台,與中小企業結合形成合力對領先玩家發起衝擊。 **

**二是海外企業首先將大模型落地在企業自有場景,國內企業與實體產業深度結合形成數據飛輪。 **

潮漲潮退之間,AI產業鏈應用層中“最甜的一塊蛋糕”逐漸浮出水面。

**從目前的情況來看,語言大模型和視覺大模型是商業化路徑最清晰,也是市場上大模型最集中的賽道。 **除了ChatGPT和妙鴨相機這樣直面消費者的應用外,在協同辦公、圖像編輯、智能客服等領域也在穩步推進。

但這類應用的同質化程度較高,除非像OpenAI那樣斷崖式技術領先,否則呈現出的效果差別不大,更何況即便是OpenAI也需要不斷推出新功能來留住客戶。

7月20日和7月21日,ChatGPT先後上調了可通過GPT-4發送的消息數量和推出自定義指令功能。

相比之下,同樣是基於圖文生成能力,多人在線遊戲(MMO)則存在更高的行業壁壘。 AI的深度學習功能契合遊戲多方面特性,在現階段的遊戲技術開發過程中占主導地位,將為玩家帶來更加智能、豐富和個性化的遊戲體驗。

在遊戲版號平穩發放的背景下,遊戲產業有望成為短期內大模型應用中最甜的一塊蛋糕。

**從長遠來看,大模型本質上是產業提質增效的工具,客戶購買服務或產品的意願與大模型所能撬動的收益直接相關。因此,想要找到未來最具想像力的應用場景,實際上需要考察的關鍵指標是產業本身的規模以及護城河的高度。 **

「矽基研究室」認為,新能源車是未來大模型最具想像力的領域。

從發展前景來看,新能源車順應全球“低碳環保”的消費趨勢,有利於降低石化能源消耗,屬於發展的“剛需”,世界各國皆有相應的法律法規出台支持相關產業擴大規模。

比如,2022年6月,歐盟27國環境部長就一項新的氣候保護立法達成一致,2035年起,歐盟將只允許二氧化碳排放量為0的汽車上路。

單從降低二氧化碳排放量這一點出發,大模型便能找到用武之地。

除了行駛,整條汽車產業鏈本身也是碳排大戶,金屬原料冶煉、跨國運輸、生產製造等環節均是碳減排的重點。然而,由於產業鏈複雜、數據瑣碎、應用場景廣泛,車企很難對汽車全生命週期的碳足跡進行收集和評定。

隨著汽車產業鏈智能化,各項數據被傳至雲端,從中整理出一條清晰地減碳路徑也逐漸成為可能,而在這個過程中,大模型的“數據”飛輪有望成為汽車的“第五個輪子”,打破各環節間的數據壁壘,在產業鏈條中形成一條智能通路。

**另一方面,大模型與新能源車的結合,實際上也是一條共贏的道路。 **

大模型高昂的推理成本是許多企業對其望而卻步的原因。隨著技術發展,大模型從雲端落地產品,汽車本身也能基於車載芯片進行一定程度的推理任務,並將結果反饋給雲端。而對於車主來說,這意味著新能源車將在不聯網的情況下仍保持一定的“智能”,是用戶體驗的加分項。

**但當前距離大模型真正賦能新能源車行業,還有幾個難關要過。 **

比如數據儲存問題。

早在2017年,中國曾興起過一波工業大數據熱,其中典型的場景是關鍵設備的預警維護。通俗來說,就是通過傳感器反饋的數據預測設備有可能在什麼時候停機,並提示應該更換什麼樣的設備。

但真正落實以後發現,形成完整的數據模型需要至少2到3個週期的數據,僅儲存成本就高達上千萬,對企業來說風險過高。

而這一點放在今天也成立,因為大模型的研發和後續迭代同樣需要海量數據作為支撐,所以,今天的車企更傾向於先進行平台建設,打通數據和業務,然後再用大模型的做一些配適。

**其次,相比與生成式大模型,工業領域更注重穩定性。 **

舉個簡單的例子,我們用ChatGPT寫詩,期待它富有創造力,每篇都不一樣,但放在工業領域裡,如果每個指令都不同,那就會出大問題。

因此,大模型與產線的深度結合一定是類似於寫代碼般生成工業指令或針對具體環節提出優化方案,而不可能真正介入到生產中去。

俗話說,福兮禍所依,禍兮福所伏,大模型落地新能源車產業的兩道難關,實際上也是未來在這一領域做出成果的企業的護城河,隨著存儲技術的不斷發展,以及“黑燈工廠”這類新型數字化工廠的出現,大模型與新能源產業對接的阻力也正在減少。

在一些較為前沿的領域,二者已經開始產生化學反應。

目前,大模型在新能源車領域的落地基本集中在自動駕駛,百度、特斯拉、華為、谷歌均有所佈局,百度旗下的“蘿蔔快跑”自動駕駛出行服務平台已經在北京亦莊自動駕駛示範區上路。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)