外掛程式：門檻最低的 AI 另類原生應用

巴比特_

2023-10-23 07:54:46

來源： AI新智慧

圖片來源：由無界 AI生成

大模型+外掛程式模式，極有可能是AI大模型商業化的答案之一。

10月17日，在“2023百度世界大會”上，李彥宏正式發佈了最新的文心大模型4.0版本。

一時間，各種測評紛湧而至，各大科技媒體從理解、生成、邏輯和記憶能力等方面，對模型進行了全方位測評。

然而，除了被人反覆談論的文心4.0之外，在發佈會上，另一個稍顯低調的功能，卻也冷不丁地顯示了未來大模型的發展趨勢。

**這就是百度文心4.0的外掛程式功能。 **

目前，文心4.0光是外掛程式就有8個，包括一鏡流影（文字轉視頻）、說圖解畫（看圖說話）、E言易圖（可視化數據分析）等。

這些外掛程式還可以自由組合，來完成更複雜的任務。

不僅如此，百度文心大模型外掛程式開發平臺——靈境矩陣平臺，上線1個月已有2.7萬家開發者申請入駐，個人開發者佔比超30%。

那麼，百度為何如此重視外掛程式？而外掛程式生態的繁榮，對大模型又意味著什麼？

外掛程式，讓大模型如虎添翼

從某種程度上說，外掛程式對於大模型，相當於是另一大隱藏的“殺手鐧。 ”

在不對模型演算法、參數進行改進的情況下，僅僅憑藉一個簡單的外接外掛程式，模型能力就有可能得到顯著擴展和提升。

此前，GPT-4就已經通過外掛程式功能實現了如虎添翼的效果。外界甚至將那次提升稱之為GPT-4.5的到來。

今年7月9號，OpenAI宣佈將官方外掛程式Code Interpreter（代碼解釋器）通過設置中的Beta面板向所有ChatGPT Plus 使用者提供。

那Code Interpreter具體能做什麼？

簡單來說，它相當於是GPT-4能力邊界的一次大擴展，能讓GPT-4做到很多之前做不到的事。

例如，在該外掛程式推出后，推特使用者@歸藏展示了用代碼解析器分析newsletter訂閱用戶數據的過程。

代碼解析器從分析數據到製圖，都不需要使用任何複雜軟體，只需要說出：“我想分析最近一個月訂閱使用者增長的趨勢”這類直白的，就可以完成。

除外，人們還能直接用「人話」讓GPT通過數據製作一些可視化的GIF圖片。

例如人們如果想製作一份美國燈塔的地理圖示，只需要上傳地理位置數據，GPT就能通過外掛程式功能，自動製作如下的GIF動圖。

而即使是想通過圖片生成視頻，CodeInterpreter也能手到拈來。在啟用外掛程式後，只需告訴GPT：“我想用這張圖片，製作一段從右往左的平移視頻。 ”

GPT就會根據你的要求，自動將Midjourney生成的圖片做成視頻。

網友ChaseLean用ChatGPT生成的漢堡視頻

甚至，不怎麼有代碼和程式設計經驗的人，也能運用CodeInterpreter外掛程式，在5分鐘內製作一個簡單的遊戲。

只需幾段提示詞，一個簡單的小遊戲就完成了

總地來說，CodeInterpreter包括的功能，涵蓋了打破模態壁壘，轉換素材形態，進行數據分析等多種不同的任務。

而該外掛程式之所以有如此“逆天”的功能，則是因為其**打破了自然語言和代碼語言之間的壁壘。 **

有了它，使用者就能刨去複雜的代碼過程，通過自然語言交互（所謂“人話”），直接完成各種跨領域、跨模態的任務。

也正因如此，有人驚呼這種讓模型能力倍增的外掛程式，就是GPT-4.5的到來。

由此，我們便不難理解，為何百度會如此重視外掛程式的發展。

對於大模型研發團隊來說，**讓一個模型囊括使用者的所有需求是不可能，也不現實的。 **因為在AI演化的過程中，使用者必定會產生更多新的，難以預料的想法、需求。

而這時，一個個多樣化的、靈巧的外掛程式，就成了延申大模型能力的“義體”。

外掛程式的百花齊放

除了OpenAI自帶的原生外掛程式之外，當下的AI賽道上，還湧現出了其他百花齊放的外掛程式。

此處，我們將做一些簡單的列舉，看看這些功能各異的外掛程式，將對大模型帶來哪些多樣化的擴展。

聊天PDF

ChatPDF是一款功能強大的在線PDF工具，使用者只需上傳PDF檔到ChatPDF，ChatPDF便能夠快速使用AI解析PDF文件內容，並生成準確的答案來回答用戶的問題。

除了智慧問答功能，ChatPDF還提供了在線編輯、轉換和檔壓縮功能。如果使用者想在PDF檔中添加或刪除一些元素，或者更改某些文本或圖像，ChatPDF 的在線編輯功能將會非常有用。

### 莫妮卡

一個接入了ChatGPT的API介面的網頁側邊欄外掛程式，啟動該外掛程式後，在流覽任何網站時，Monica就能使用ChatGPT的能力，解讀任何資訊或文本，或對網頁內容進行探討，以及提供翻譯等。

值得一提的是，除了ChatGPT之外，Monica還集合了Claued、Bard等其他AI的介面，如果這還不夠，使用者還可以在其接入的AI庫中，自行搜索並添加其他AI工具，從而可以通過不同的AI滿足自己多樣化的需求。

### 聊天中心

這是一個可以在一個應用程式中使用不同的聊天機器人的外掛程式，目前支援ChatGPT和新的BingChat，並將來會集成Google Bard等更多聊天機器人。用戶可以同時與多個聊天機器人進行交流，輕鬆比較它們的答案。

### 注意GPT

這是一個使用ChatGPT對視頻進行總結的外掛程式。支援在視頻網站上一鍵截屏和記錄筆記。

啟動該外掛程式後，面對某些時長較長的視頻時，使用者就可以快速地用ChatGPT獲取視頻內容的關鍵資訊，並生成摘要和總結，同時還可以在觀看視頻時一鍵截屏或記錄帶有時間戳的筆記。

### 智星AI助手

這是國內首款支援外掛程式的AI認知模型產品，智星AI當前已接入7個外掛程式，包括天氣查詢、Bing搜索、Wolfram等，可以快速提供即時天氣資訊，解答高等數學問題，進行深度金融分析等。

相較而言，ChatGPT每次只能使用3個外掛程式，而智星AI使用時沒有外掛程式數量限制。

### WPSAI

相當於是國內版的Microsoft365 Copilot，具備縮寫、擴寫、續寫、轉變寫作風格、總結概括文章要點，快速生成PPT大綱、一鍵製作PPT範本，智能化處理Excel表格等功能，並擁有語音交互新特性，可以在手機等小屏終端上進行移動辦公。

外掛程式裡的雄心

除了上述種類各異的第三方外掛程式功能外，各大科技巨頭在外掛程式方向上，也呈現出了一種蓄勢待發的態勢。

例如，MicrosoftAI 外掛程式平臺，就提供了一系列的工具和服務，讓開發者可以利用微軟的的ChatGPT和新必應，創建和部署各種AI外掛程式，包括能力模型類、數據類、應用類等。其外掛程式跨越了多個場景和產品，**如Dynamics 365、Microsoft 365等。 **

而在國內方面，百度也推出了號稱讓人人可開發AI外掛程式的「靈境矩陣」平台，試圖以文心一言為基礎，構建一個龐大的外掛程式生態。

而這種大布局的背後，至少顯露了巨頭們在兩方面的意圖：

**1、以外掛程式為突破口，打通大規模商業化的路徑; **

**2、以龐大的外掛程式生態，構築類似英偉達的CUDA那樣的軟體壁壘。 **

關於第一點，為何大模型+外掛程式模式，極有可能是AI大規模商業化的答案？

理由其實很簡單，此前的大模型，無論是AI生文、作圖，其賦能領域都只能局限在單一的、狹窄的範圍內。

某個大模型也許寫作水平不錯，但它在現實中，該如何解決商品對比、財務分析這樣多門類的、具體的任務呢？

人們在生活中的需求是多樣化、多層次的，從這個角度上說，**當大模型打破了單一模態的限制，並滿足了這種多樣化需求的時候，就是其真正大規模商業化落地的開始。 **

而一個個外接的外掛程式功能，就相當於是大模型的？ “眼”和“手”，讓其不再局限於單一領域、模態的範圍。

在未來，使用者可能只需要一個大模型入口，就能完成諸如訂票、點餐、叫外賣等任務。

而這也引出了第二點，即以**外掛程式為主的生態壁壘。 **

在當下的大模型賽道上，儘管國內外衍生的AI應用已不勝枚舉，當其中有相當一部分，仍然是基於ChatGPT的“套殼”產品。

這樣的現實，也從一個側面反映出：在大模型的選擇上，大部分開發者和使用者，仍然只認最強的幾個頭部產品。

著名投資機構A16Z上月公佈的流量前50的AI網站，其中相當一部分是“套殼”應用

換句話說，對於大模型，使用者只要遇到了一個最好用的，就不太會再用其他的。

在這樣的邏輯之下，眾多企業若是不想陷入重複造輪子的境地，最好的選擇必然是將重心轉向應用端。

而歷史的經驗表明，在軟體、應用端的競爭上，誰能為開發者提供一個低門檻的，友好的開發環境，誰就能率先建立起自身的生態壁壘。

在這方面，英偉達的CUDA可以說是做了一個極好的表率。

經過持續的演進，CUDA已然形成了一個豐富而成熟的龐大生態。英偉達也由此實現了軟硬體深度捆綁：用他的軟體就必須買他的硬體，買他的硬體使用CUDA可事半功倍。

而目前各大巨頭們在外掛程式上的爭相佈局，也頗與英偉達的CUDA有異曲同工之妙：開發者或使用者若想實現低門檻、快捷的AI應用開發，就必須基於其大模型的能力。

反過來，應用生態的繁榮，又會強化人們對其大模型的仰賴。

而誰若率先實現了這樣與應用相互促進，相輔相成的生態，誰就將有可能在AI時代率先豎立起自身的生態的壁壘。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。