大きな言語モデルの次は、コンピュータビジョンが次の出口になるのでしょうか?

Question

*記事の出典:ビッグモデルハウス**著者:趙暁満*![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2b333c2d0d-dd1a6f-69ad2a) *画像ソース:無制限のAIによって生成*先月、Open AIは、ユーザーがGPT-4にユーザー提供の画像入力の最新機能を分析するように指示できるGPT-4Vの最新バージョンをリリースし、画像入力などの他のモダリティを大規模言語モデル(LLM)に組み込むことは、AI研究開発の重要なフロンティアと見なされており、マルチモーダルLLMは純粋言語システムの影響を拡大する可能性を提供するというニュースが業界の注目を集めています。昨年末にリリースされたAIチャットボットChatGPTから現在のGPT-4Vまで、Open AIは、大規模マルチモーダルモデル(LMM)の多感覚スキル(視覚理解など)を備えた大規模言語モデル(LLM)を拡張し、より強力な汎用知能を実現します。GPT-4Vのリリース直後、マイクロソフトはGPT-4Vの166ページの超詳細なユーザーガイドを提供し、単純な入力モードから視覚言語能力、人間とのインタラクティブなプロンプト、時間のビデオ理解、抽象的な視覚的推論、IQ感情指数テストまで、GPT-4Vは日常生活でのインタラクティブな体験をカバーするだけでなく、産業、医療、その他の分野で専門的な診断評価を実現することもできます。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-abca433d25-dd1a6f-69ad2a) **出典: マイクロソフト (Web 翻訳は参照用です)**現在、GPT-4Vの任意のインターリーブマルチモーダル入力を処理する前例のない能力とその機能の多様性が組み合わさって、GPT-4Vは強力なマルチモーダルジェネラリストシステムになっています。 さらに、入力画像に描かれた視覚的マーカーを理解するGPT-4Vのユニークな機能は、視覚的な参照手がかりなどの新しい人間とコンピュータの相互作用方法につながる可能性があります。GPT-4Vの予備調査は、次世代のマルチモーダルタスクフォーミュラ**に関する将来の研究を刺激し、LMMの新しい方法を使用および強化して現実世界の問題を解決し、マルチモーダル基本モデルをよりよく理解し、コンピュータービジョンの開発方向の新しい探求にもなる可能性があることを確認する価値があります。  ## **ビッグモデルがコンピュータビジョンの新開発を強化**  おそらく、マルチモーダル機能に関しては、多くの人々が見知らぬ人ではなく、中国には、発売時にすでにマルチモーダル機能を持ち、画像認識と生成を実行できる大型モデルがたくさんありますが、LLM(大規模言語モデル)と比較して、LMM(大規模マルチモーダルモデル)の開発にはまだ解決すべき抜け穴がたくさんあることを認めなければなりません。 **以前、ビッグモデルホームは、AIフレームワークMindSpore「Zidong Taichu」バージョン2.0ラージモデルプラットフォームとiFLYTEK Sparkを例として取り上げ、マルチモーダル機能を備えた多くの大規模モデルを経験しており、分析、推論、表現機能を改善する必要があります。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-158366da31-dd1a6f-69ad2a) **写真:ジドン台中**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cd3185c149-dd1a6f-69ad2a) **写真:iFLYTEKスパーク****今年4月、メタはモデルSAM(Segment Anything Model)を提案したことは注目に値します**すべてを分割するために、SAMは迅速なモデルであり、1,100万枚の画像で10億個以上のマスクをトレーニングし、強力なゼロサンプル一般化を達成し、一部の業界関係者は、SAMがセグメンテーションの境界を突破し、コンピュータービジョンの基本モデルの開発を大幅に促進したと述べました。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3364ba847d-dd1a6f-69ad2a) ソース: メタ**SAM自体は画像の意味分割であり、モデルは、トレーニングで見たことがなくても、任意の画像またはビデオ内の任意のオブジェクトに対してマスクを生成できる「オブジェクト」の概念を把握します。SAMモデルとGPT-4Vの登場により、Open AIがGPT-4V世代**の展開に向けて準備したように、視覚障害者向けのツールを構築する組織であるBe My Eyesは、モデル生成の前夜に、大型モデルは話す「ブラインド」であると想像できますが、視覚を追加した後、マルチモーダル機能を備えた大型モデルは、図やビデオなどを理解できます。 この機能の力はまた、人工知能の開発を新しい方向に押し進めます。  ## **大型モデルの波の下で、国内のコンピュータビジョンの道**  画像入力、認識、推論分析の機能を使用した後、大規模なモデルはマルチフィールドの開花を実現し、「コンピュータービジョンGPT」に移行できます。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-681f3dc975-dd1a6f-69ad2a) **ソース: ファーウェイ**産業面では、視覚的な大規模モデルを欠陥検出など、製造プロセスにおける製品品質を確保するための重要なステップに適用することにより、障害や欠陥をタイムリーに検出し、運用コストと品質関連コストを最小限に抑えるための適切な対策を講じることが不可欠です。 **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d46ec6fa14-dd1a6f-69ad2a) **ソース: センスタイム**医用画像診断に関しては、認知大規模モデルの専門的ドメイン知識と組み合わせ、視覚機能を追加した後、さまざまな医用画像で分析できるだけでなく、完全な放射線レポートを迅速に生成し、放射線レポート生成のAIアシスタントになる可能性があり、現在、SenseTimeは、医療知識と臨床データに基づいて中国の医療言語モデル「ビッグドクター」を開発し、ガイダンス、相談、健康相談、意思決定などのマルチシナリオマルチラウンド会話を提供する機能を備えています。自動運転に関しては、運転中の認知大型モデル、動的運転目標などによって得られた画像情報を組み合わせて、対応する運転決定と運転説明を与え、大型モデルはそれを自動運転の言語に変換し、ドライブを介して自動運転システムと対話してインテリジェント運転を実現できます。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-df9ed5ee74-dd1a6f-69ad2a) **ソース: バイドゥ****バイドゥを例にとると、最近開催された2023年のバイドゥ世界会議では、インテリジェント運転の観点から、自動運転技術スタックがトランスフォーマーやBEVなどの新技術によって完全に再構築され、知覚能力が世代を超えて向上し、純粋なビジョンソリューションの成熟と普及が加速しました。 **現在、Baidu Apolloの純粋なビジョンハイエンドインテリジェントドライビングソリューションは、高速、都市、駐車場、その他のグローバルシナリオに適用でき、今年の第4四半期に大量生産を達成し、これは中国で都市シーンに上陸する最初の純粋なビジョンソリューションでもあります。 LIDARを削除すると、車両全体のコストが低くなり、市場競争力が高まることは言及する価値があります。**ビッグモデルハウスは、大規模な言語モデルの一般的な知識の祝福により、コンピュータビジョンはより明確な開発方向を導いたと考えています**、実用的なアプリケーション(顔認識、オブジェクト認識など)のための反復記憶に依存する初期のコンピュータビジョンから、視覚と言語の統合を探求することは、独立した開発から相互統合まで、大規模なモデルとコンピュータビジョンの新しい方向になり、人工知能はまた、常に人間に近い感覚能力を探求し、画像の詳細と特徴をよりよくキャプチャすることができ、大規模なモデルの精度が向上しました。 より多くのシーンやデータ配信に適応し、大規模なモデルを書いて理解し、視覚機能を統合し、よりインテリジェントなアバターになる能力に依存することができます。もちろん、科学技術の発展は多くの要因によって制限されなければなりません。 大規模なモデルは、トレーニングにより多くのコンピューティングリソースと時間を必要とし、スケーラビリティとリアルタイムを制限する可能性があり、膨大なトレーニングデータは、コンピューティング能力、特に高性能GPU、高速メモリとストレージ、分散トレーニングテクノロジーによって制限する必要があります**および現在のグローバル高性能GPU市場NVIDIAはシェアのほぼ90%を占めており、中国はこのAI競争で高い地位を占めたいと考えており、中国のインテリジェントコンピューティングパワーの高品質な開発を促進することが最優先事項となっています。 ****一般に、大規模なモデルには、ビジュアル機能を統合した後、多くの利点がありますが、この段階ではいくつかの開発上の制限もあります。 **ディープラーニングとコンピューティングリソースの継続的な開発により、高解像度画像タスクへのコンピュータービジョンの応用とブレークスルーをさらに促進する、より高度な大型モデルと関連技術の出現が期待できます。