專訪丨不迷信大模型,現階段的革新仍在“交互”

圖片來源:由無界AI生成

**來源:**AI科技評論

作者:黃楠;編輯:陳彩嫻

《流浪地球》裡被視為“叛軍”的MOSS,是為火種計劃量身打造的數字生命。它很聰明,有超越人類道德、哲學、科學、藝術等知識的能力,能在最短時間內得出最優解、做出“最正確”的決定,是趨於完美的智慧體。

如今大模型之於技術變革,為“行業”和“領域”在有限範圍內落地,提供了近乎絕對的可能性,在新的AI商業化敘事裡,人們或主動、或被動地加入資源競賽狂潮中。

讓人類永遠保持理智,是一種奢求。正如MOSS 前的人類文明,經歷了一次次毀滅、又迎來浴火重生的涅槃史,我們也亟需從大模型落地的狂歡中回歸技術理性。

身處這場軍備競賽中的特斯聯CTO華先勝,也給出了自己關於大模型的冷靜思考與破局答案,以下是華先勝和AI 科技評論的對話實錄,經AI 科技評論節選整理如下:

1、觀點一:大模型不是智能湧現的終點

在大模型“智能湧現”之後短短一年,物理世界與信息的生產方式發生革命性變化,映射到更廣泛的城市空間,也必然帶來新一輪的革新。對此,華先勝在對話AI科技評論時直言,“雖然大模型的確取得了很大的進展,但不要迷信大模型,它有它的局限。

據華先勝回憶,去年ChatGPT 出來之後,他非常地關注並且第一時間去試用了。不可否認的是,它確實是一個巨大的突破,一方面,驚嘆它能力的大幅度提升,但坦白講,也發現它不如我們想像般的強大,哪怕是稍微深入一些的問題,它的表現都不夠好。

“過去深度學習剛誕生時,大家也覺得它可以解決一切問題,可以用足夠複雜的模型和足夠多的數據去建立現實世界各種問題的模型。但在實戰中,其實需要深入行業才能真正解決問題。今天的大模型並沒有改變這一規律,仍然需要深入領域去了解對應的流程、數據等,才能解決行業的問題。”華先勝提到。

今天,在特斯聯的超級智慧園區裡,軟體機器人成為大模型時代MOSS 般的存在。它隱身於園區的各大屏幕裡,對園區所有的事情瞭如指掌,你可以向它問路、獲取需要的信息,也可以使用它執行操作。人與機器共存的背後,是大模型與IoT 硬件通過語義對齊,實現人、物聯網設備和城市之間的高度智能化,這與特斯聯一貫以來堅持城域AIoT 領域為技術核心的戰略非常吻合。

那麼,當AIoT 遇見大模型,將會碰撞出怎樣的火花呢?華先勝給出了他的思考:AI 是AIoT 的靈魂, IoT 是它的感知和控制,像它的“手腳”,當然也包括為其提供“身體”的物理基礎,也即算力資源。

LLM(大語言模型)的出現,推動AI 能力向更通用的目標邁進了一步:首先,大語言模型可以直接作為AIoT 系統的交互界面。其次,AIoT數據天生就是多模態的,多模態大模型有望解決過去很多需要通過“AI + 規則”來解決的問題

在華先勝眼中,目前提到AIoT 大模型,主要有兩條路線:第一種是將過去AI 所做的事情用大模型進行升級、再做一遍,這是大部分人的做法;第二種是真正意義上大規模的AIoT 大模型,將AIoT 裡的多模態異構數據真正使用起來,放入大模型當中去。 “不過,這種真正意義上的AIoT大模型未來也可能會很快出現,也可能需要很長時間。”華先勝說。

現階段AIoT 行業裡所使用的大模型、仍處於他認為的第一種技術路線,也即基於語言或語言加視覺的“偽”AIoT 大模型。

在“偽”AIoT 大模型出現前,AIoT 設備之間的連接和協同完全基於人類專家預定義的規則,這些規則是固定的、不完備的和不自我進化的,不一定能直接理解和遵循人類指令。但有了大模型後,根據高度多樣的Context(任意季節、時間、人物、指令等),我們可以自動地、動態地構建物體間連接和協同規則,提供自適應的、多樣的、深入的、融合人類指令的智能場景體驗。

華先勝在訪談中表示,“無論哪條路線,眼下特別典型的全域AIoT 大模型還沒有出現。

2、觀點二:立體感知,精準控制,釋放AIoT 大模型的洪荒之力

真正的AIoT大模型應該具備什麼能力呢?華先勝認為,AIoT 與其他行業有兩大差異。首先是異構數據多,大量的傳感器收集了天氣、溫度、濕度、電量、降水量等各種各樣的數據,信息更豐富;其次,IoT 設備不只是感知設備,還可以反向控制環境。 更豐富的感知維度,更強大的行動力,這是AIoT 大模型所應該具備的

回到場景下去賦能AIoT 領域,僅依靠一個通用的、又有很多局限的大模型是很難實現。因此,AIoT 大模型還要滿足幾個特性:

第一,專業性。它一定是專業的,能夠解決領域內更專業的相關問題。今天的大模型看上去很厲害,但並不具備足夠的領域專業信息,無法在園區裡真正使用。

第二,可靠性。模型對所關注的場景要非常了解,一方面通過引入新知識讓它懂得足夠多;其次,還需要一些約束的方法讓輸出結果高度可靠,不出現“一本正經胡說八道”的“幻覺”。

第三,性能和成本的平衡。從訓練成本出發,一個特別大的通用模型不是一個常規創業公司所能承受的;其次在推理時,如果用戶量或訪問量過大,也會導致大模型服務撐不住。因此,簡化模型是一個好的選擇。我們不需要它是一個百事通,只要能解決我所關注的問題,且具備一定的常識就可以了。

第四,系統打通。這個大模型不只有知識,更要同園區的系統深度耦合,以獲取實時信息,還能在被授權的前提下去實時地反控園區。

當提及近期備受關注的具身智能技術,華先勝在訪談中提及:我們提出的AIoT大模型,是現有大模型技術的具身化。 AIoT 設備既是我們的眼睛和耳朵,也是我們的手和腳。目前,我們更多地聚焦於交互和場景聯動,後面我們也會將感知和控制也替換成大模型。特別是,我們的超級IoT 設備和機器人,在無縫聯合的服務器端能力(物聯網和大模型)和機器人側能力(感知、規劃、行動和交互)的支持下,本身就是具身智能的體現,只不過特斯聯的機器人具身智能是“機境協同”的具身智能,不只是機器人本身的直接能力。

3、觀點三:落地之難,AIoT 大模型的多模態挑戰

關於AIoT 大模型落地的難點,華先勝認為,其難點主要有幾個方面,除了滿足上述提到的專業性、可靠性、性能和成本的平衡、以及系統打通外,落地對實時性要求也會高很多,因為它是一個真正在working 的AIoT 系統;此外,它在能力上的演化,不僅是大模型自身的更新,還涉及數據積累、記憶迭代等。總的來說**,AIoT 大模型落地最大的難點在於多模態**。

長期來看,將IoT 數據統一融入AIoT 大模型中是有可能的,也許是以文本/圖片為中心、其他IoT 數據和中心對齊的方式,這是需要的。但由於AIoT 數據的異構和多模態,將不同類型的數據整合和有效地利用,需要克服數據表示和對齊的挑戰

首先,在數據表示上,各類傳感器數據應該以何種形式建模,是參考文本作為序列輸入、還是參考圖像作為矩陣輸入、還是一種新的建模形式?對此,目前無論是學術界和工業界都暫無定論。

此外,在數據對齊上,語言模型從語言中學習、又生成語言,這是人類能理解的,而AIoT領域有很多沒有標籤和信息標註的數據,其本身的上下文也大多不具備顯性的語義,無法將語義與數據進行對應,這使得它生成的數據、信息無法被理解,需要再加工建立AIoT 數據和自然語言的語義對齊,才能賦予這些數據以意義

4、觀點四:大模型不是AGI 唯一途徑,「模型+系統」才是正解

面對AIoT 等各個領域AI落地面臨的困境,如何實現真正意義上的AGI?華先勝認為目前有三條可能的路徑:

  • 第一條路徑是大模型持續演化和進步,不斷地增大模型的規模、增加數據的量和模態來產生一個超級大模型以實現AGI。
  • 第二條路路徑是顛覆當前的連接主義,研究新的模型框架使得更接近於人腦或人心的工作模式,在低功耗的前提下,具備強大的分析、推理、發現和創新的能力。
  • 第三條路就是我們所提出來的**「模型+系統」**的方法;不同於第一條路以大模型系統為核心,這裡所講的系統更廣泛,有大小模型的融合和演化,有模型與規則的融合,有規則和模型的相互轉化,等等。通過系統和模型融合的方法,我們會構建一個更複雜的、可以不斷自我成長的智能體。

華先勝以AIoT 領域為例子表示,大語言模型本身是AIoT 的擴充,將大語言模型作為一個具有強大理解能力的“大腦”,再通過系統連接AIoT 設備來給它配上“眼睛” 、“鼻子”、“耳朵”、“手”和“腳”,使其具備多元的感知、分析、決策和控制能力,從而實現更強的智能。當**「模型+系統」**使用得越來越多,積累了更多數據,才有可能真正實現多模態、異構數據的“大一統”AIoT 大模型。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)