プラグイン:参入障壁が最も低いAI代替ネイティブアプリ

出典:AIニューインテリジェンス

画像ソース:無制限のAIによって生成

大型モデル+プラグインモデルは、AI大型モデルの製品化に対する答えの1つになる可能性が高いです。

10月17日、「2023バイドゥ世界会議」で、ロビン・リーは最新のウェンシンモデル4.0バージョンを正式にリリースしました。

一時期、様々な評価が寄せられ、主要な科学技術メディアは、理解、生成、論理、記憶能力の側面からモデルの総合的な評価を行った。

しかし、繰り返し話されているWenxin 4.0に加えて、記者会見での別のやや控えめな機能も、将来の大型モデルの開発傾向を冷たく示しました。

**これは百度文新4.0のプラグイン機能です。 **

現在、Wenxin 4.0には、ミラーフローシャドウ(テキストからビデオ)、絵の描画(写真を見て話す)、E Yan Yi Tu(ビジュアルデータ分析)など、8つのプラグインがあります。

これらのプラグインは、より複雑なタスクを実行するために自由に組み合わせることもできます。

それだけでなく、Baidu Wenxin大型モデルプラグイン開発プラットフォームであるLingjing Matrix Platformは、発売後1か月間で27,000人の開発者によって適用され、個々の開発者が30%以上を占めています。

では、なぜBaiduはプラグインをそれほど重要視しているのでしょうか。 そして、プラグインエコシステムの繁栄は、ビッグモデルにとって何を意味するのでしょうか?

プラグイン、虎の羽のような大きなモデルをしましょう

ある程度、プラグインは大規模なモデル用の別の隠された「キラーアプリ」と同等です。 "

モデルのアルゴリズムとパラメーターを改善することなく、単純なアドインだけでモデルの機能を大幅に拡張および改善できます。

以前、GPT-4はプラグイン機能で虎を強化する効果を実現していました。 外の世界はその増加とさえ呼びましたGPT-4.5の到着

今年の7月9日、OpenAIは、公式プラグインコードインタープリター(コードインタプリタ)が、[設定]のベータパネルからすべてのChatGPT Plusユーザーが利用できるようになることを発表しました。

では、コードインタプリタは正確に何ができるのでしょうか?

簡単に言えば、これはGPT-4の機能境界の大幅な拡張に相当し、GPT-4は以前は不可能だった多くのことを実行できるようになります。

たとえば、プラグインのリリース後、Twitterユーザー@歸藏、コードパーサーを使用してニュースレターの購読者データを分析するプロセスを実演しました。

コードパーサーは、データの分析からマッピングまで複雑なソフトウェアを使用する必要はなく、「先月の加入者の増加傾向を分析したい」と率直に言うだけです。

さらに、「人間のスピーチ」を直接使用して、GPTにデータから視覚的なGIF画像を作成させることもできます。

たとえば、アメリカの灯台の地理的アイコンを作成したい場合、地理的位置データをアップロードするだけで、GPTはプラグイン機能を使用して次のGIFを自動的に作成できます。

また、画像からビデオを生成したい場合でも、CodeInterpreterはあなたの指先でそれを行うことができます。 プラグインを有効にしたら、GPTに「この画像を使用して右から左へのパンビデオを作成したい」と伝えるだけです。 "

GPTは、要件に応じてMidjourneyによって生成された画像のビデオを自動的に作成します。

ネチズンチェイスリーンはChatGPTを使用してハンバーガービデオを生成します

コードやプログラミングの経験が少ない人でも、CodeInterpreterプラグインを使用して5分で簡単なゲームを作成できます。

ほんの少しのプロンプトで、簡単なミニゲームが完成します

一般に、CodeInterpreterには、モーダルバリアの破壊、マテリアルフォームの変換、データ分析の実行など、さまざまなタスクをカバーする関数が含まれています。

プラグインがこのような「空に逆らう」機能を持っている理由は、自然言語とコード言語の間の障壁を打ち破るからです。 **

これにより、ユーザーは複雑なコードプロセスを排除し、自然言語インタラクション(いわゆる「人間のスピーチ」)を通じてさまざまなクロスドメインおよびクロスモーダルタスクを直接完了できます。

このため、モデルの機能を2倍にするこのプラグインはGPT-4.5の登場であると叫ぶ人もいました。

したがって、Baiduがプラグインの開発を非常に重視している理由を理解するのは難しくありません。

大規模なモデル開発チームの場合、モデルにユーザーのすべてのニーズを含めることは不可能であり、非現実的です。 AIの進化の過程で、ユーザーは必然的により多くの新しく予測不可能なアイデアやニーズを生み出すからです。

現時点では、さまざまな柔軟なプラグインが、大規模なモデルの能力を拡張する「補綴」になっています。

プラグインが咲く

OpenAIに付属するネイティブプラグインに加えて、他のプラグインが現在のAIトラックに登場しています。

ここでは、いくつかの簡単な列挙を行って、さまざまな機能を備えた多様な拡張機能プラグインがより大きなモデルにもたらすことを確認します。

チャットPDF

ChatPDFは強力なオンラインPDFツールであり、ユーザーはPDFファイルをChatPDFにアップロードするだけでよく、ChatPDFはAIを使用してPDFファイルの内容をすばやく解析し、ユーザーの質問に答えるための正確な回答を生成できます。

スマートQ&A機能に加えて、ChatPDFはオンライン編集、変換、およびファイル圧縮も提供します。 ユーザーがPDFファイルの要素を追加または削除したり、テキストや画像を変更したりする場合は、ChatPDFのオンライン編集機能が非常に便利です。

### モニカ

ChatGPTのAPIインターフェースに接続するウェブページサイドバープラグインであり、起動すると、モニカはChatGPTの機能を使用して、情報やテキストを解釈したり、ページのコンテンツについて議論したり、ウェブサイトを閲覧するときに翻訳を提供したりできます。

ChatGPTに加えて、MonicaはClauedやBardなどの他のAIのインターフェースも統合しており、これだけでは不十分な場合は、ユーザーがアクセスするAIライブラリで他のAIツールを自分で検索して追加することもできるため、さまざまなAIを通じて多様なニーズを満たすことができます。

### チャットハブ

これは、1つのアプリでさまざまなチャットボットを使用できるプラグインであり、現在ChatGPTと新しいBingChatをサポートしており、将来的にはGoogle Bardなどのチャットボットをさらに統合する予定です。 ユーザーは同時に複数のチャットボットと通信し、回答を簡単に比較できます。

### NoteGPT

これは、ChatGPTを使用してビデオを要約するプラグインです。 ワンクリックでスクリーンショットを撮ったり、ビデオWebサイトでメモを取ったりすることをサポートします。

プラグインを起動した後、ユーザーはChatGPTをすばやく使用して、ビデオコンテンツに関する重要な情報を取得し、特定の長いビデオに直面したときに要約と要約を生成しながら、ワンクリックでビデオを見ながらスクリーンショットを撮ったり、タイムスタンプ付きのメモを記録したりできます。

### スマートスターAIアシスタント

これはプラグインをサポートする中国初のAI認知モデル製品であり、Zhixing AIは現在、気象クエリ、Bing検索、Wolframなどを含む7つのプラグインにアクセスでき、リアルタイムの気象情報をすばやく提供し、高度な数学的問題に回答し、詳細な財務分析を行うことができます。

比較すると、ChatGPTは一度に3つのプラグインしか使用できませんが、Smartstar AIにはプラグインの数に制限がありません。

### WPSAI

これは、Microsoft365 Copilotの国内版と同等であり、略語、拡張、継続、文体の変更、記事の要点の要約と要約、PPTアウトラインの迅速な生成、PPTテンプレートのワンクリック生成、Excelテーブルのインテリジェント処理およびその他の機能を備え、携帯電話などの小さな画面端末のモバイルオフィスに使用できる音声対話の新機能を備えています。

プラグインの野心

上記のさまざまなタイプのサードパーティプラグイン機能に加えて、主要なテクノロジーの巨人もプラグインの方向に勢いを示しています。

たとえば、Microsoft AI プラグイン プラットフォームは、開発者が Microsoft の ChatGPT と新しいBingを使用して、機能モデル クラス、データ クラス、アプリケーション クラスなど、さまざまな AI プラグインを作成および展開できるようにする一連のツールとサービスを提供します。 そのプラグインは、Dynamics 365、Microsoft 365 などの複数のシナリオと製品にまたがっています。 **

中国では、Baiduは誰もがAIプラグインを開発できる「Spirit Matrix」プラットフォームを立ち上げ、Wen Xinの言葉に基づいて巨大なプラグインエコシステムを構築しようとしています。

この大きなレイアウトの背後には、少なくとも巨人の意図が2つの側面で明らかにされています。

**1.プラグインを突破口として、大規模な商用化の道を切り開きます。 **

**2.巨大なプラグインエコシステムを使用して、NVIDIAのCUDAのようなソフトウェアバリアを構築します。 **

1点目についてですが、なぜラージモデル+プラグインモデルモデルがAIの大規模事業化に対する答えになりそうなのでしょうか。

その理由は実際には非常に単純で、以前の大規模なモデルは、AIテキスト、描画、その有効化フィールドは、単一の狭いスコープにしか制限できません。

大規模なモデルは良い記述レベルを持っているかもしれませんが、実際には、商品比較と財務分析のマルチカテゴリと特定のタスクをどのように解決するのですか?

人々の生活ニーズは多様でマルチレベルであり、この観点から、大型モデルが単一モードの限界を打ち破り、この多様な需要を満たすとき、それは本当の大規模な商業化の始まりです。 **

そして、各外部からのプラグイン機能は大型モデルと同等? 「目」と「手」は、もはや単一の分野とモダリティの範囲に限定されません。

将来的には、ユーザーは、チケットの予約、食べ物の注文、食べ物の注文、テイクアウトの注文などのタスクを完了するために、大きなモデルの入り口のみが必要になる可能性があります。

これはまた、2番目のポイント、つまり**プラグインによって支配される生態学的障壁につながります。 **

現在の大型モデルトラックでは、国内外で派生したAIアプリケーションは無数にありますが、そのかなりの部分がChatGPTベースの「シェル」製品です。

この現実は一方の側面からも反映されています:大規模なモデルの選択において、ほとんどの開発者とユーザーは依然として最強のヘッド製品しか認識していません。

有名な投資機関であるA16Zは先月、トラフィックで上位50のAIウェブサイトのかなりの部分が「シェル」アプリケーションであると発表しました

つまり、大規模なモデルの場合、ユーザーが使用するのに最適なモデルに遭遇する限り、もう一方を使用する可能性は低くなります。

この論理の下で、多くの企業が車輪を繰り返す状況に陥りたくない場合、最良の選択は彼らの焦点をアプリケーション側に移すことでなければなりません。

歴史的な経験は、ソフトウェアとアプリケーションの競争において、開発者に低しきい値でフレンドリーな開発環境を提供できる人、独自の生態学的障壁を確立する上で主導権を握ることができることを示しています。

この点で、NVIDIAのCUDAは優れた例を作ったと言えます。

継続的な進化の後、CUDAは豊かで成熟したエコシステムを形成しました。 NVIDIAはまた、ソフトウェアとハ ードウェアの緊密なバインディングを達成しました:彼のソフトウェアでは、彼のハードウェアを購入する必要があり、CUDAを使用して彼のハードウェアを購入することは2倍効果的です。

現在、プラグインの主要な巨人のレイアウトもNVIDIAのCUDAと非常によく似ています:開発者またはユーザーが低しきい値で高速なAIアプリケーション開発を実現したい場合、それらは大規模モデルの機能に基づいている必要があります。

次に、アプリケーションエコロジーの繁栄は、その大規模なモデルへの人々の依存を強化するでしょう。

このようなエコシステムを主導し、アプリケーションを促進し、補完し合う人は、AI時代に最初に独自の生態学的障壁を建てるでしょう。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)