AIビッグモデルがAIに革命を起こす

出典: 経済オブザーバー

著者: シェン・イーラン

画像ソース: Unbounded AI によって生成

今年の 4 月、大手人工知能企業の数人の研究者が新しいテクノロジーである SAM (Segment Anything Model) に注目しました。研究者らはすぐにこの技術を部門長に報告したが、この会社はマシンビジョン技術からスタートしており、研究者らが着目した技術もこれに関連するものだった。研究者の一人は「SAMの出現により、大きなモデルが自分たちにとって衝撃的であることに気づくAI担当者が増えている」と述べた。

1 か月後、同社は大規模なビジュアル モデルの開発にリソースを割り当て始めました。

その後 3 か月間で、大手マシン ビジョン AI 企業がこのテクノロジーの可能性に注目し、これまでのところ、SenseTime や CloudWalk Technology などの人工知能企業に加え、従来のセキュリティ企業もこの新しいテクノロジーの競争に投資を開始しています。

SAM は一般的なシーン用の画像セグメンテーション モデルです。今年 4 月に Meta によって開始されました。ChatGPT と話すのと同じように、人間はいくつかの言語命令を使用して、SAM に画像内のコンテンツを独立して区別して考えさせることができます。SAM は次のように考えられています。視界にChatGPTが現れた。

世界中の愛好家が絵を描いたり、切り絵を描いたり、楽しい時間を過ごしたりするために SAM を使用していますが、中国の研究者も SAM の威力を認めています。自動運転、セキュリティ監視、人、車、道路の検出に使用されれば、SAM は非常に強力です。従来のマシン ビジョン ゲームプレイを根本的に打ち破る自己完結型の大型モデルです。

画像のセグメント化と認識は、マシン ビジョンの中核的なタスクです。以前は、セグメント化された画像を作成する各タスクには、アルゴリズムをトレーニングし、データのバッチに注釈を付け、小さなモデルを重ね合わせてマシンが画像内のさまざまなオブジェクトを「見る」ことができるようにする必要がありました。 SAM は、いくつかの新機能を示しました。特定のタスクごとに小さなモデルを作成することなく、マシンは、未知のぼやけたシーンであっても、あらゆる画像内のあらゆるオブジェクトを自律的にセグメント化でき、操作は非常に簡単です。

これは、SAM がより汎用的な機能を備えていることを意味しており、この汎用的な機能を使用してマシンビジョン認識のコストを大幅に削減し、独自の技術に基づいてビジネス モデルや競争パターンを変えることができます。

Yitu Technologyによると、2016年以来、巨大な市場を有する中国では数百社の人工知能企業が出現し、市場競争と資本の力を借りて、Shangtang Technology、Cloudwalk Technology、Megvii TechnologyなどのいくつかのAIユニコーン企業が徐々に形成されているという。 , これらの企業は、セキュリティや行政、産業の分野にAIを持ち込み、アルゴリズムの高度化やスケールメリットを活かして外堀を築いてきました。

しかし、テクノロジーの変化により、イベントが再開される可能性があります。

チャイナ・モバイル・グループの首席科学者であり、中国人工知能産業発展同盟の副会長である馮君蘭氏は記者団に対し、AI大型モデルは新たな人工知能パラダイムをもたらすだろうと語った。大型モデルの影響では基本的に存在しません。 SAM の出現は、マシン ビジョンの研究枠組み、インタラクション、制作サービス方法を覆す、大規模なビジュアル モデルの実現可能性を証明しました。

IEEE の上級会員であり、天津理工大学教授で AR/VR 技術の専門家である Luo Xun 氏は、記者団に対し、これまでの大手企業の AI 機能の利点は、技術革新の台頭によりある程度弱まるだろうと語った。汎用大型モデル。しかし、これらの企業自体が弱体化するかどうかは、その変革にかかっている。

テクニカルルート

AI の重要な分野であるマシン ビジョンの目標は、コンピューターが人間の視覚システムを模倣して画像やビデオを理解して処理できるようにすることです。

2000 年以降、人工知能の創始者として知られるジェフリー ヒントン、ヤン ルカン、ヨシュア ベンジオは深層学習テクノロジーを突破し、機械が人間の脳を漠然とシミュレートし、大量の画像から特徴を自動的に学習して抽出できるようになりました。

2012 年は重要な時間の節目です。スタンフォード大学のリー フェイフェイ教授が作成した ImageNet プロジェクトは、深層学習を主流に押し上げました。研究者は、多数の写真に手動でラベルを付けることで、コンピュータにさまざまな物体を認識するよう教えることができ、これによりマシン ビジョンが大幅に向上します。精度率は大幅に向上します。コストを抑えて商品化が可能になります。

2023 年 4 月に新たな変更が加えられ、Meta は SAM と呼ばれる画像セグメンテーション モデルを開始しました。 SAM は大型モデルとして、外界を認識するための目を機械に装備するだけでなく、機械に実際の脳を与え、観察、知覚、思考、論理的推論、画像から結果を導き出すこと、および操作を学習します。非常にシンプルで、Chat と同様に、GPT は人間の言語の対話を使用してマシンにコマンドを与えます。

つまり、多数の画像注釈やスタッキング アルゴリズムを必要とせずに、マシン ビジョンの目標をより簡単に達成でき、消費するコンピューティング パワーも少なくなります。 Nvidiaの人工知能科学者ジム・ファン氏は、「SAMラージモデルはマシンビジョンのGPT-3モーメントであり、未知の物体、見慣れないシーン(水中画像など)、曖昧な状況であっても、オブジェクトの一般的な概念を理解している」と述べた。セグメンテーションも可能です。

Meta は SAM をリリースした後、モデルとその背後にあるトレーニング データセットもオープンソース化し、AR、VR、コンテンツ作成などの分野での SAM の応用シナリオを導入しました。

中国の企業や研究者は、SAM の商業的価値の可能性をすぐに判断し、これが自動運転、セキュリティ監視、人、車、道路の検出に使用されれば、従来のマシン ビジョンを根本的に打ち破る可能性があります。

Feng Junlan氏は、大規模モデルはAIの供給モードを変え、供給側の複雑さを大幅に軽減し、限界費用はゼロに近くなり、ビジネス側は需要をよりシンプルな自然言語で表現できるようになり、依存する必要がなくなると述べた。エンジニアによるコードなどの専門的な指示に従ってマシンと通信し、ニーズに応じて異なるモデルに柔軟に展開し、効率を向上させます

Uniview Technology の最高製品責任者である Zhu Bing 氏は記者団に対し、「これまで、AI の仕事は箱を運ぶようなものでした。実際、それは比較的ローテクな物理的な作業でした。AI が単一点のシーンに力を与えると、 」例えば、Zhu Bing氏は、メーカーがさまざまなシナリオや地域に合わせてアルゴリズムの開発、資料収集、校正、カスタマイズに投資する投資とコストは非常に多額であり、顧客にとってはカスタム開発料金もかなりの出費であると述べた。

現在、元の小規模モデルのゲームプレイを置き換えるために大規模モデルを使用することは、アルゴリズムや大量のラベル付きデータの積み重ねを必要とせず、そのプロセスで消費される計算能力もほとんどありません。より単純な人間の言語を使用して、機械にコマンドを与えることができます。専門的なコンピュータープログラミング言語を使用します。 Zhu Bing 氏は、「この大型モデルにより、AI の研究開発と展開のコストが大幅に削減されました。これにより、一連の新しいゲームプレイが構築され、特にコンピュータ ビジョン業界における業界秩序が再構築されました。大企業によって構築された以前の技術的障壁は、スムーズに進み、全員が同じスタートラインに戻りました。

流入

前世代のマシンビジョン技術の頃、中国では多くの人工知能企業が誕生し、これらの企業が提供する技術は、公安、地下鉄、商業ビルのカメラ監視やセキュリティ検査の識別に広く使用され始めました。

「AI四虎」とは、2011年から2014年にかけて相次いで設立された中国の人工知能企業4社、すなわちSenseTime、Cloudwalk Technology、Megvii Technology、Yitu Technologyを指す。これらの企業の共通の特徴は、中核技術としてのマシンビジョンであり、深層学習ルートにおけるAIの画期的な進歩が、この人工知能企業グループの台頭のための技術的基盤を提供し、中国の産業上の優位性がこれらの企業の発展のための市場を提供した。 。

SAMの登場後、彼らは次々とこの技術をターゲットにし始めた。

記者は多くの業界関係者から、「AI四虎」のうちYitu Technology、SenseTime、Cloudwalk Technology、Megvii Technologyに加え、大規模なビジュアルモデルを開発していることを知り、KangweishiとUniview Technologyも関連技術研究を展開しているとのことだ。そして開発。

Meta が SAM を発表してからわずか数日後の 4 月に、SenseTime は「Daily New」大型モデルをリリースしました。 SenseTime Intelligent Industry Research Instituteの所長であるTian Feng氏は記者団に対し、「Ri Ri Xin」シリーズは自然言語生成、画像生成、視覚認識を含む複数の大きなモデルのコレクションであり、その中には「Ruying」、「Qiongyu」があると語った。 , 「Gewu」は視覚に関わる大型モデルです。

Cloudwalk Technologyは5月に、視覚を含むマルチモーダルな大型モデルである「calm」大型モデルをリリースしたが、最近の投資家会議でCloudwalk Technologyは、大規模なビジュアルモデルは非常に重要であり、将来的にリリースされる予定であると述べた。 -LEDモデル。その理由は、同社がコンピュータ ビジョンに強い予備力を持っていることと、顧客の特定のビジネスを解決するためにマルチモーダル テクノロジを必要としているためです。

Megvii と Yitu はまだ大型モデルを発売していません。メグヴィー氏は記者団に対し、「大型モデルを開発中だが、まだ発売されて顧客に届けられていない」と語った。方向性としては、Megvii は一般画像大型モデル、ビデオ理解大型モデル、コンピュテーショナルフォトグラフィー大型モデル、自動運転知覚大型モデルの 4 つの研究方向を選択し、一定のブレークスルーを達成しました。

研究機関オムディアの人工知能主任アナリスト、蘇蓮傑氏は記者団に対し、視覚的な大規模モデルの影響を受けて、「AI四虎」はすぐに大規模モデルに変身し、マルチモーダルな大規模モデルを展開したと語った。比較的リーズナブルな視覚重視のスケールモデル。

Hikvisionは今年6月、投資家に対し、「リリース当初にSAMモデルに注目し、体系的な評価を行った」と述べ、Zhu Bing氏は記者に対し、同社が自社開発しているAIoT産業モデルは「Wutong」であると語った。一般的な大規模モデル + 業界シーン + トレーニングとチューニングに基づく大規模なインダストリ モデル。5 月 9 日に初めてリリースされ、6 月にパートナーの最初のバッチによってテストされました。

Hikvision と Uniview Technology は、機器メーカーとしてスタートした伝統的なセキュリティ企業ですが、「AI 四虎」がセキュリティ業界に参入してからは熾烈な競争にさらされ、マシンビジョン技術を積極的に採用して市場シェアを獲得しています。

現在、AI企業の間では「大型モデルの画期的な開発」の意味についてコンセンサスが得られ始めている。

SenseTime Intelligent Industry Research Instituteの所長であるTian Feng氏とYuncong Technologyの共同創設者であるYao Zhiqiang氏はいずれも記者団に対し、「AI1.0は小型モデルの時代だ。企業は主に独自の小型モデルを提供し、マルチポイント技術を使用して問題を解決している」と語った。特定のシーンのニーズ; AI2.0 は大規模モデルの時代です。企業は統合された大規模な技術ベース プラットフォームを使用する必要があります。つまり、世界向けの一般的な知覚と認識機能を備えたマルチモーダルな基本モデルを作成する必要があります。これをベースに一連の産業を生み出し、プロの現場から大規模な現場までのニーズを満たす小型モデルを生み出します。

Yao Zhiqiang 氏は、AI 企業がまだ前段階にある場合、現場の問題の多くは解決できるかもしれないが、コストを削減するのが難しく、規模の効果を発揮することができないと考えています。Tian Feng 氏は、2 つの時代は長く共存していると考えています。長い年月を経て、どちらかが一方を排除するのではなく、正反対の関係、両者が調和して完成する。たとえば、ハイブリッド エキスパート モデル構造 (MoE) を使用すると、AI2.0 時代には複数のモデルがサービスに結合され、1.0 モデルを組み込むこともできます。

新しい競争においても、独自の技術蓄積とハードウェア投資が引き続き役割を果たします。

Tian Feng氏は記者団に対し、「AI Large Device」インテリジェントコンピューティングセンターは強力なAIコンピューティングパワーを備えており、数千億のパラメータを持つ20個の大規模モデルのトレーニングコンピューティングパワーを提供することができ、大規模モデルの開発とトレーニングに重要な機器であると語った。個人利用のみですが、大規模なスタートアップや研究開発パートナーにも公開されています。

Yunwalk の担当者は記者団に対し、同社の CWOS オペレーティング システムには、ChatGPT などのスーパー言語モデルの統合において固有の利点があると語った。同時に、システムは実際の生産状況に応じてデータと情報を大規模モデルにフィードバックし、モデルのトレーニングと調整を最適化し、モデルの精度と効率を向上させることができます。

大型モデルが市場を突破

「ビッグモデルの影響がなくても、『AI四虎』は依然として変革の混乱期にあり、自らの価値と活路を考える必要がある」蘇蓮傑氏は語った。

人工知能企業のグループは資本と市場から支持されており、その中にはSenseTimeとCloudWalkが資本市場に参入している。 SenseTimeは2018年から2022年まで、毎年120億元以上を研究開発に投資し、2021年のIPOでは50億元以上を調達した。 Yunchongは2018年から2022年まで、毎年22億元以上を研究開発に投資しており、2022年のIPOでは17億元を調達する予定だ。

また、技術と資本の良好な相互作用により、中国は視覚認識の分野でも圧倒的な優位性を獲得しており、2018年頃には人工知能に関する論文の発表数と量において、中国は米国に次ぐ第2位、もしくは米国を上回っていた。特に視覚認識の分野では、中国の人工知能企業は国際競争で繰り返し記録を塗り替え、優れた成績を収めている。

しかしすぐに、市場の促進により、オリジナル技術の可能性は徐々にピークに達し、2019年、中国科学院の学者、張波氏は、経済監視紙との独占インタビューで、産業応用の可能性があると示唆した。既存の技術路線を踏襲し、天井まで。

さらに重要なことは、商業的な観点から見ると、AI の本来の技術的ルートはコストのボトルネックを突破することが常に困難であり、そのため、より伝統的な業界の顧客が請求額を支払うことができなくなっています。 Zhu Bing氏は、「長年にわたり、活発な新規注文は見られなかった。多数の企業が人間認識とナンバープレート認識という2つの分野で容赦なく競争している。根本的な理由は、より多くのアルゴリズムが規模効果を形成できないことである」と述べた。 」

ある大手企業のAI研究者は記者団に対し、従来の手法によれば、AI企業は自動車工場にサービスを提供し、障害物を特定するためのアルゴリズムセットを販売していると述べ、障害物を特定するための平均的な単一アルゴリズムのコストは10万元以上、所要時間は約2時間であると語った。顧客はラベル付けのために数万枚の写真を提供する必要がありますが、アルゴリズムが 1 つだけでは十分ではありません。実際の道路シーンは非常に複雑で、小型車に適したアルゴリズムは大型トラックには適していない可能性があります。他の角度からは認識できませんし、検出対象の一部が隠れている場合も認識しにくくなります。

機器のインテリジェンスを高めるために、AI 企業は複数のアルゴリズムを重ね合わせる必要があります。これは単純に、多数の小さなモデルを積み重ねることを意味します。財務報告書によると、センスタイムは67,000の小型商用モデルを蓄積しており、記者はYuncong Technologyから同社が数千の小型商用モデルも保有していることを知った。

しかし、トレーニングにかかる時間とコストも 2 倍になりました。

馮君蘭氏は記者団に対し、「多くのAI企業が利益を上げるのは難しい。重要な理由の1つは、AIサービスのコストが高く、企業は「1元稼いで5元失う」ことになり、「受注が多ければ多いほど、利益が増える」というモデルを引き起こしていると語った。続けて、需要側になれるのは、強力な支払い機能を備えた少数の主要産業または産業だけです。

財務報告書によると、2018年から2022年までにYuncong Technologyは31億元の累積損失を計上し、SenseTimeは400億元以上の累積損失を計上した。

AIのコストをさらに削減し、市場を改善するために、「AI四虎」の戦略も分岐しました。 SenseTime は AI デバイスを選択し、Cloudwalk はオペレーティング システムを選択し、Megvii はチップを選択し、YITU は IoT を選択します。

この観点から見ると、ビッグモデルは既存企業に課題をもたらすだけでなく、全く新しいビジネスモデルや応用シナリオをもたらす可能性があります。

前出の研究者によると、同社はより多くの市場でAIビジネスを開拓しようと懸命に努力しており、例えばあるスーパーマーケットと販売員の在席を検知するためのAI監視について話し合ったことがあり、5人のアルゴリズムエンジニアを派遣し、給料だけで30万元、顧客数十人の営業マンの月給の合計は5万元にも満たないほか、組立ラインで梱包箱の破損などを検知するAI品質検査についても工場主に相談した。党は労働者などを雇用する方が経済的であると評価している。

これらの要件は、総称して AI のロングテール要件と呼ばれます。多くの中小規模の顧客は、支払い能力が弱く、AI に対する厳密な需要はありませんが、特定のシナリオでは特別なニーズを抱えています。使用されているかどうかに関係なく、彼らは何百万ドルも払いたくないのです。この研究者の見解では、将来的には、大規模モデルの移行と一般的な機能を使用して、特定のタイプの大規模モデルまたはマルチモーダル大規模モデルのセットをこれらの視覚検出シナリオに適用できるようになります。データの注釈やアルゴリズムへの投資が必要となり、開発サイクルやコンピューティング能力の要件も低くなるため、コストが大幅に削減され、顧客が支払う可能性が高くなります。

Zhu Bing 氏は、これまで小規模なモデルに基づく AI アルゴリズムが満たせる断片化要件は 10% 未満であったが、将来的には大規模なモデルに基づく AI アルゴリズムの確率が 50% 以上に増加し、効率が向上する可能性があると推定しています。ロングテールアルゴリズム全体の時間を10倍に増やすことができ、時間を1人週以内に短縮できます。

姚志強氏は記者団に対し、テクノロジーがプラットフォーム化され標準化されれば、すべてのAI企業は大規模なシナリオに迅速に適応し、統合されたコアテクノロジーベースプラットフォームを通じて大規模なアプリケーションを実現できると語った。

Feng Junlan 氏は、「テクノロジー消費のコストは、テクノロジーがビジネスにもたらす価値よりもはるかに低い。この公式が満たされれば、テクノロジーをスケールアップし、より多くのロングテール市場に移行することができる」と述べました。これは、AI 企業が収益性を達成するための基本的なロジックも満たしており、より多くのブルー オーシャン市場を開発する機会があることも意味します。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)