AI「百機種戦争」の潮流は変わったのか？ 360度、Meituが次々と技を繰り出し、ビジュアル大型モデルが「妖精の戦い」を演出

Question

出典：チャイナタイムズ![](https://img.gateio.im/social/moments-bab2147faf-e3e634b33e-dd1a6f-62a40f) 画像ソース: Unbounded AI によって生成‌AI の大規模モデルの開発と応用の高まりが続く中、記者はトラック上のプレイヤーが大規模な言語モデルから大規模なビジュアル モデルに焦点を移し始めていることに気づきました。最近、Adobe、Meta、360、Meitu、その他多くの国内外のトップインターネット企業が大規模なモデルの結果を発表し、すでに非常に熱いAI市場に火を付けています。「ビデオ分野における人工知能の応用は、ますます注目を集めている」と中国通信産業協会工業化統合・工業化委員会副委員長の呉高斌氏は『チャイナ・タイムズ』記者に対し、これらの大型映像のリリースは次のように述べた。 - スケール AI モデルは企業に新たな競争をもたらしました。企業間の競争は技術革新や進歩を促し、より良い製品やサービスをもたらします。競争はまた、市場の需要をより適切に満たすために、企業間の協力とリソースの共有を促進します。## **国内外のビジュアル大型モデル「Fairy Fighting」**大規模な言語モデルとマルチモーダルな大規模モデルが次々と登場した後、「視覚的な大規模モデル」が軍事戦略家にとっての新たな戦場となっています。数日前、Meitu は大規模 AI ビジョン モデル MiracleVision と、AI ビジョン作成ツール WHEE、AI デジタル ヒューマン作成ツール DreamAvatar、Meitu AI アシスタント RoboNeo を含む 7 製品をリリースしました。レポートによると、MiracleVision は強力なビジュアル表現と創造性を備えており、絵画、デザイン、映画やテレビ、写真、ゲーム、3D、アニメーションなどのビジュアル制作シーンからの技術進化を逆転させることができます。市場にある他の大型モデルとは異なり、アジアのポートレート写真、国民的なスタイルやファッション、商業デザインなどの方向性を生み出すことに特に優れています。Meituの創設者、会長兼最高経営責任者（CEO）であるWu Xinhong氏は、チャイナ・タイムズ紙の記者とのインタビューで次のように述べた。顧客獲得率が低い. Meitu は現在、月間アクティブ ユーザー数 2 億 4,300 万人、グローバル VIP 会員 719 万人を抱えており、製品の成功を短期間で検証できます. 他メーカーとは異なり、Meitu の大型モデルは美観 (画面描画、品質デザインなど) に重点を置いています.)、将来、私たちが競争しなければならない場合、私たちは美学を「転がす」でしょう。」偶然ですが、360も数日前に「360 Smart Brain-Vision Large Model」を正式リリースしました。 360 の創設者である周宏儀氏は、大規模言語モデルは大規模なビジュアル モデルを構築するための基礎であり、マルチモーダル機能強化の中核は大規模言語モデルの認知、推論、意思決定能力であると述べました。同時に、大型ビジュアルモデルは、将来的に画像、ビデオ、音声を理解できる「360 Smart Brain」の重要な機能コンポーネントでもあります。海外企業もビジュアルモデルを展開し始めている。数日前、ソーシャルメディア大手のメタ社は、I-JEPAと呼ばれる「人型」人工知能モデルの一部コンポーネントを研究者に公開すると発表した。このモデルは、未完成の画像を既存のモデルよりも正確に分析して完成させることができる。他の生成 AI モデルと同様に、近くのピクセルに基づいて推論します。Meta Company の主任人工知能科学者であるヤン・リークン氏はかつて、現在の GPT 自己回帰モデルには計画と推論の能力が欠けており、将来の GPT システムは放棄される可能性があると公に指摘し、彼が考える正しい答えを与えました。世界モデル。 I-JEPA は、ビジョンの主要コンポーネントに基づいて、未完成の画像を既存のモデルよりも正確に分析して完成させる初の AI モデルであると言われています。さらに、Meta は、テキストからの音声生成をサポートし、わずか 2 秒の長さのサンプルに基づいてオーディオ スタイルをマッチングし、テキスト サンプルを別の言語に変換する音声生成 AI モデル「Voicebox」もリリースしました。音声サンプル、および翻訳されたテキスト コンテンツを話者の元の音声で読む機能により、現在、英語、フランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語の 6 つの言語がサポートされています。アドビは今年 4 月の時点で、Adobe Firefly 機能 (ChatGPT のような製品) を Premiere Pro、After Effects、Audition、Remix などのオーディオおよびビデオ製品のマトリックスに統合し、ワンクリックでコンテンツを生成できるようにしました。 、編集、カラーマッチング、音楽の変更、その他の機能。## **「言語モデル」から「視覚モデル」へ**「中国人工知能大規模モデル地図調査報告書」によると、世界的に公開されている大規模モデルの数と分布において、中国と米国が大きくリードしており、世界の80％以上を占めている。合計。同時に、ヨーロッパ、ロシア、イスラエルなどでもますます多くの研究開発チームが大型モデルの開発に投資しています。しかし、我が国ではコンピュータビジョンやその他の分野における大型モデルがまだ少ないことは注目に値します。その理由を調査し、北京知源研究所の客員主任研究員であるヤン・シュイチェン氏は「チャイナタイムズ」の記者に次のように語った。「ビジュアルモデルの開発が若干遅れている主な理由は、大規模なビジュアルモデルがより多くの計算能力を消費するためだ」テキストよりも速いので、私たちもチップの開発が早くなり、他の非GPUチップを統合することも可能になることを期待しています。現在見られるモデルは一般的にキロカルレベルですが、人によっては10,000カードレベルを使用するかもしれません来年も作るように。」北京知源人工知能研究所所長の黄鉄軍氏によると、大型モデルの分野における次の波の焦点は視覚分野だという。同氏は、大規模な視覚モデルと大規模な言語モデルの背後にある思考方法と基本的なルートは同じであるが、入力データは画像やビデオになっており、訓練されたモデルは一定の一般的な視覚言語能力を備えていると指摘しました。 AIGC（人工知能自動生成コンテンツ）は画像やアートワークを生成できるが、「もっと基本的な能力もあります。それは、世界を見た後、まず世界（すべて）を区別できなければならないということです」。大規模なビジュアル モデルの開発については、多くの組織も楽観的な姿勢を表明しています。 CICC Researchが発表した調査報告書によると、コンピュータビジョンは将来、より高度な自動化、高精度、低消費電力を実現し、メタバースのコンテンツエコロジーをさらに充実させ、参入障壁を下げると予想されている。コンピュータビジョンの進歩により、3D再構成技術とモーションキャプチャ技術が急速に成熟し、それぞれの分野で技術進歩が徐々に蓄積されてきました。将来的には、コンピュータービジョンは、より高度な自動化、高精度、低消費電力化をもたらすと予想されており、モバイル端末上でより優れた視覚効果を実現し、多くの下流産業に適用され、徐々に普及していくでしょう。物理世界とデジタル世界の接続に向けた長期的な世界ビジョン。CITIC Securities Researchはまた、デザインの分野では、大型モデルがデジタルデザインをインテリジェントデザインに導き、関連する工業デザインソフトウェアをGPTやその他のテクノロジーと組み合わせて、デザイン計画、レイアウト最適化、プラグインアシスタント、 AI のアップグレードという一般的な傾向の下で、新たな生産性革命が到来しています。