コーヒー大論争AIGC:AIブームの風と波にどう乗るか

出典:雷峰ネット

著者: 董子博 王岳

原題:『AIGC:隆盛の中で、フロンティアはどこにあるのか?丨GAIR 2023》

絵を描くことから詩を書くことまで、コピーライティングから表作成まで、PPTからコードを書くことまで、10か月以上前にAIがこれらすべてのタスクを実行できると言ったとしても、それを信じる人はほとんどいなかったでしょう。

しかし、テクノロジーの発展のスピードは常に爆発的であり、2023 年が終わったわけではありませんが、生成 AI の波がテクノロジー界全体を席巻し、人々は魅了され、それに群がっています。

GAIR Research Institute、Leifeng.com、World Science and Technology Publishing House、Kotler Consulting Group が共催した第 7 回 GAIR Global Artificial Intelligence and Robotics Conference では、AIGC 分野のすべての著名人がシンガポールのオーチャード ホテルに集まり、プレゼンテーションを行いました。生成 AI に関する直接の最新の知識を世界が共有しています。

GAIR AIGC および生成コンテンツ サブフォーラムに参加した講演者は次のとおりです。

Pan Xingang 氏、南洋理工大学コンピューター理工学部助教授 congxing Cai、joinrealm.ai 創設者 シンガポールの Help&Grow コミュニティ創設者、Wang Tong Lizhi Group CTO、Ding Ning 南洋理工大学主任研究員、Deepir Inc. 創設者、Wu Pengcheng Tencent 海外ゲーム パブリッシング アルゴリズム センター ディレクター、Lang Jun

現在の注目の AI トラックにおいて、どのようにして明晰な思考を保ち、テクノロジー、製品、ビジネス モデルのイノベーションを洗練させることができるでしょうか?生成 AI の隆盛の波に乗るために、会議のゲストはどのような洞察を得たのでしょうか?

南洋理工大学潘興港氏: ビジュアルコンテンツの重要なポイントをドラッグアンドドロップします。拡散モデルは使用しませんでした

AIGCといえば、今のトラックでは海外でも評価の高いMidJourneyと、それを支える技術サポート、つまり普及モデルを誰もが思い浮かべるでしょう。

しかし、かつて香港で唐小欧教授に師事した南洋理工大学コンピューター理工学部の潘星港助教授は、最新の「キーのドラッグアンドドロップ編集」で拡散モデルを決定的に放棄した。より「古い」技術である生成対立ネットワーク (GAN) が使用されます。

多くの人は、画像を生成する AI の強力な能力を見て、AIGC の時代が来たと考えていますが、Pan Xingang 氏は、「画像の生成」がユーザーの創造的なプロセスの最後のステップではないことが多いことに気づきました。

その後の絵の調整、特にAIが生成する絵素は不確実性が多いため、ユーザーのニーズに応えるためには、絵の各要素を後からユーザーが微調整できるようにする必要があります。

例えば、AIによって非常にリアルなライオンが生成されていますが、ユーザーがライオンの頭を回転させたい、位置を動かしたい、さらには表情を変えたいと思っても、現在の製品形態ではそれを行うことが困難です。

これらの操作は単純に聞こえますが、すべてオブジェクトの空間特性を細かく制御することに関係しており、依然として大きな技術的課題に直面しています。

以前は、Vincent の図のアイデアに従って、テキストのガイダンスに従って画像を編集する方法がありました。たとえば、「ライオンの鼻を右に 30 ピクセル移動する」などでした。

しかし、この解決策には次の問題もあります。

一方で、テキスト モデルは、ユーザーのさまざまな編集ニーズと方法を満たし、対話をより直観的にするために、オブジェクトの空間属性を十分に理解する必要があります。

一方、言語モデルの場合、画像の長さやサイズを正確に把握することが難しく、ビジュアルコンテンツの編集にも多大な困難をもたらします。

インタラクション レベルでは、ユーザーにとって最も直感的で使いやすいのは間違いなくドラッグ アンド ドロップ インタラクションですが、技術実装レベルでは、ユーザーは赤いグラブ ポイントと青いターゲット ポイントを指定するだけで済みます。 AI は、赤い点に対応する画像の意味部分を青い点の位置に移動して、画像の空間属性を編集する効果を実現します。

過去に同様の機能を開発した人もいますが、通常、編集する画像はメッシュ化する必要があり、オブジェクトの高さについては一定の前提条件があります。編集された画像は元の画像を 2D 歪めたものにすぎません。いいえ、新しいコンテンツを生成できません。

潘星港氏は、技術的な調査と判断を行う際に、現在最も注目されている普及モデルを使用せず、生成対立ネットワークの技術を選択しました。まず第一に、GAN によって記述される画像空間は非常に連続的であり、拡散モデルよりもはるかに連続的であること、第二に、GAN の接触の潜在空間はプロパティの編集に非常に適していることです。

Pan Xingang チームの研究のさらなる発展により、画像内のオブジェクトの姿勢を変更したり、車の形状を再設計したり、車の視点を変更したりできる、独自のベースでのマルチポイント編集がサポートされました。子猫の片目を開き、片目を閉じ、ポートレートの髪型や表情、姿勢や服の長さを変更することで、ユーザーは画像をより便利に編集でき、この方法でビデオ コンテンツの生成を完了することもできます。

現在、本作はGitHubでオープンソース化されており、32,000スターを獲得している。

将来的には、GAN と拡散モデルの組み合わせが、行われている作業に対する Pan Xingang のビジョンです。拡散モデルの生成機能だけでなく、画像編集における GAN の利点も活用でき、これらの機能を応用することも可能になるかもしれません。ビデオや 3D および 4D コンテンツにおいて、将来の AIGC はよりスマートで使いやすくなります。

joinrealm.ai Congxing Cai: AIGC に基づいたソーシャル ネットワークを構築します

joinrealm.ai の Congxing Cai は、AIGC ソーシャル ネットワークになるという夢を持っています。

Cai Congxing は、2016 年頃に Snapchat に入社し、社内でショートビデオの製品開発を担当し、ショートビデオ業界の超高速発展期を経験してきました。そして、TikTokが何の異論もなく海外で驚異的な製品となった後、蔡Congxing氏は別の考えを抱いた。

「生産的なショートビデオコンテンツの軌道において、誰もがすでに一定の方向に進んでいると私たちは感じています。そして将来、ジェネレーティブビデオの分野で、業界は間違いなく新たな進歩を遂げるでしょう。」

そこで Congxing Cai と彼の友人たちは joinrealm.ai を設立しました。

Cai Congxing 氏は、AIGC は特に広範かつ抽象的な概念であり、joinrealm.ai の方向性は主に「API の直接提供」と「人間とコンピュータのインタラクションの革新の完成」の中間点にあると考えています。つまり、ビジネス モデルの探索です。コンテンツ制作の

「なぜコンテンツ作成のモードが重要なのでしょうか? 過去 10 年間のショートビデオの観察に基づくと、大きな変化は実際にはスマート カメラの出現によるものです。スマート カメラの人気は、大部分において、そうではありません。」すべての人に携帯電話を与える代わりに、世界に数十億のモバイルインフラストラクチャを与えただけです。」

「言葉」から「ストーリー」までが、joinrealm.ai の起業家精神の中核となる鍵です。AI の助けを借りて、ユーザーはちょうど「考えるカメラ」のように、頭の中にあるコンテンツを画像として提示できます。

この効果を達成するために、Cai Congxing は joinrealm.ai の探索中に、解決すべき問題がまだ多くあることを発見しました。

まず第一に、自然言語との違いは依然としてあり、最終的には、自然言語は依然として一般の人々にとって直観的に理解するのが難しいプログラミング言語であり、ユーザーは依然として多くの「試行、失敗、試行」の手順を経る必要があります。必要なコンテンツを生成するため。

第二に、基本モデルは依然として AIGC ユーザーのニーズを完全に満たすことができず、安定した拡散を例に取ると、生成されたコンテンツを共有することに同意する新規ユーザーの割合は現在おそらく 20% 未満です。

ユーザーが微調整できるコンセプトの欠如は、AIGC が現在直面している最初の大きな問題でもあり、ユーザーが一連の定義されたコンセプトを通じて AI の生成を制御することは困難であり、またユーザー自身が独自のコンセプトを制御することも困難です。 「ストーリーテリング」 ;

最後に画像生成結果とコストの効率バランスですが、より低価格帯でより高品質なコンテンツをいかに生成するかということも、現時点ではAIGCにとって無視できない課題となっています。

これらの課題に対処するために、Cai Congxing と彼のチームは 100 人近くの影響力のある AI クリエイターと会い、彼らの制作方法のほとんどが独自で同じものはほとんどなく、全員が継続的にデバッグと調整を行うために多数のツールを使用していることを発見しました。

最終的に、joinrealm.ai は調査と判断を経て、次の 3 つの重要な時点でアップグレードを完了することを決定しました。

1 つ目はツール チェーンで、ユーザー インターフェイスの最適化を完了することでユーザー エクスペリエンスを向上させます。

2つ目は、ユーザー自身が微調整できることで、例えば「I」という記述を使うことで、ユーザー自身のイメージをもとに、より正確に希望するイメージを生成することができます。

3 つ目は、ユーザーがコミュニティでより多くの教えやインスピレーションを得られるように、自分でコミュニティを構築することです。

ラウンドテーブル ディスカッション: AIGC「Going Global」

シンガポールの Help&Grow コミュニティの創設者である Wang Tong がモデレーターを務め、joinrealm.ai の創設者である Cai Congxing、Lychee Group の CTO Ding Ning、南洋理工大学の上級研究員で Deepir Inc の創設者の Wu Pengcheng と議論しました。 、テンセント海外ゲームパブリッシングアルゴリズムセンターディレクターのLang Jun氏 AIGCとジェネレーティブコンテンツの今最もホットな話題。

AIGCの事業化モデルはTo B分野とTo C分野のどちらに着地しやすいのでしょうか?ゲストたちは自身の経験をもとに将来の足場を構想した。

Lang Jun 氏は、To B は、複数の異なる実際のケースに基づいてソリューションを抽象化し、洗練する必要があるため、簡単ではありませんが、To C に関しては、多くのゲーム プレイヤーがゲームを操作する際に迅速にゲームに統合できると考えています。ゲーム。社内でアルゴリズムに取り組む際、Lang Jun とチームは、どのようなモデルが AIGC 着陸シーンをより深く掘り下げることができるかを常に判断します。

Wu Pengcheng 氏は、To B と To C の両方にチャンスがあるが、偉大な企業は To C でなければならないと述べました。同氏は、Miaoya Camera、Apple VRグラス、デジタルヒューマンライブストリーミングなど、今年ToCレベルで成果をあげた企業を組み合わせ、AIGC To Cによって多くの興味深いアプリケーションが生まれると強調した。

丁寧氏は、AIGCの商業化はまだ初期段階にあると考えており、先陣を切って成果を上げている企業もあるが、ほとんどはまだ途中にある。同氏は特に、テクノロジー起業家はテクノロジーに触れるだけでなく、ユーザーのニーズや問題点をもっと考慮する必要があると強調した。 To BとTo Cの導入については、To Bは市場が大きく能力とリソースが必要であるのに対し、To Cは競争が激しく、鋭い市場感覚とコミュニティ運営能力が必要であると述べました。将来有望、幅広い。

AIGC の海外進出とグローバル化に関して、数人のゲストが経験を共有しました。

Lang Jun 氏は、国内チームには非常に人材が豊富で、効率的な知識共有チャネルがあり、インターネット業界への強い関心を持っているが、実際には海外にはこのようなリソースをあまり割り当てられていないと述べました。同氏は、現在AIGCは特に成熟したビジネスモデルを持っていないため、リソースを組み合わせる能力に優れた者が「枯渇」する可能性が高いと強調した。

丁寧氏は、AIGCが海外進出する際には、まず海外に出て数値を下げる必要があると考えており、必ずしも一定レベルの製品を達成する必要はないとし、2~3回以内に一気に市場で成功するのは難しいと認識している。年。さらに、「海外市場を尊重することが非常に重要だ。文化、言語、法律や規制には大きな違いがあり、現地市場を明確に理解する必要がある」と付け加えた。

呉鵬成氏は、AIGCが海外進出する大きなチャンスがあると信じている。一方で、中国の技術は海外で利用できるが、他方、外国にも現地のニーズがある。この2つは深く統合でき、莫大な利益を生み出すだろう。価値。同時に、海に行くことは第一歩に過ぎないことも考慮する必要があり、より良い海外旅行をするにはどうすればよいかを考える必要もあります。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)