Tang Jiayu 氏は、現段階で市場にあるモデルと製品は、初期段階の生成可能性の問題を解決するだけであるが、生成された結果には依然として大きな不確実性と制御不能性があり、正確に計算することが難しいなど、依然として大きな欠陥があると考えています。生成された画像内の要素の位置と詳細を制御しますが、生成された 3D モデルは、表面の細かさと色、光、影の精度の点でまだ比較的低いレベルにあります。
3D コンテンツの生成 (ヒント: 虹色のマカロンが入った大きなバスケットの上に立っているアオカケスの DSLR 写真)。
Shengshu Technology は、3D コンテンツ生成に関して、3 つのビューに基づいて 3D コンテンツを自動生成する業界初の技術と、3D トレーニング データを必要としない Wensheng 3D コンテンツ技術を開発し、その効果が期待できることを Pengpai Technology に紹介しました。 「訓練された大規模モデルは画像生成の点で安定拡散の基本モデルの最新バージョンを上回り、今年中にMidjourneyの最新バージョンに追いつくことが期待されている」 。」
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
マルチモーダル大規模モデルのレイアウト:清華大学チーム、アント主導のエンジェルラウンド資金調達で1億元近くを完了
著者: ザ・ペーパー
シャオ・ウェン記者
Shengshu Technology は 2023 年 3 月に設立され、主に清華大学人工知能学部の出身者が中心メンバーであり、中国で最も早くマルチモーダル汎用大規模モデルを導入したチームの 1 つです。この資金調達ラウンドは Ant Group が主導し、Baidu Ventures と Zhuoyuan Capital が続き、現在の評価額は 1 億米ドルです。
国内のマルチモーダル大型モデルの開発には新たな傾向が見られる。 6月19日、清華大学コンピューターサイエンス教授で人工知能研究所の副所長でもあるZhu Jun氏が率いる新しいチームが、1億元近い資金調達のエンジェルラウンドを完了した。
Pengpai Technology(北京盛樹科技有限公司(以下、盛樹科技)というマルチモーダル大規模モデルスタートアップ企業が、1億元近いエンジェルラウンドの資金調達完了を発表したことを知りました。)この投資はAnt Groupが主導し、Baidu VenturesとZhuoyuan Capitalが続き、現在の評価額は1億ドルで、今回の資金調達は主に中核となるR&Dチームの構築に使用され、マルチモーダルな大型開発を加速する予定である。 -スケールモデルと応用製品。
マルチモーダル大規模モデルとは、テキスト、画像、ビデオ、オーディオなどのマルチモーダル情報をトレーニング用に組み合わせたモデルを指します。以前、OpenAIの共同創設者Ilya Sutskever(イリヤ・サツケヴァー)氏は、「人工知能の長期的な目標は、マルチモーダルなニューラルネットワークを構築することだ。つまり、AIは世界をより深く理解するために、異なるモダリティ間の概念を学習できる」と語った。 。
Shengshu Technologyは2023年3月に設立され、Beijing Ruilai Smart Technology Co., Ltd.、Ant Group、Baidu Venture Capitalが共同で設立し、Ruilai Smartの元副社長で清華大学コンピュータ学部を卒業したTang Jiayu氏がサービスを提供した。制御可能なマルチモーダル汎用大型モデルの作成に使用されます。 ChatGPTの人気後、アント・グループが大規模なモデル企業に投資するのは今回が初めてで、朱軍氏にとっては瑞来智恵に次ぐ2件目の事業でもあると伝えられている。 Ruilai Wisdom は、人工知能インフラストラクチャとソリューションのプロバイダーです。
Shengshu Technology チームの中心メンバーは清華大学人工知能研究所の出身で、主に Zhu Jun 氏が率いる研究グループです。この研究グループは、ベイジアン機械学習の基礎理論と効率的なアルゴリズムの研究に取り組んでおり、深層確率生成モデルを研究した世界で最も早いチームの 1 つです。 2022年1月にはチームが提案した非トレーニング推論フレームワークAnalytic-DPMがOpenAIによるDALL E 2モデル処理戦略に適用され、その後、世界最速の画像生成を実現するサンプリングアルゴリズムDPM-Solverが提案されました。 Stable Diffusion によるアルゴリズムやその他の多数のオープンソース プロジェクトによって採用されています。
報道によると、Shengshu Technology はマルチモーダル汎用大規模モデルを中国で最も早くレイアウトしたチームの 1 つであり、2023 年初めに世界初の Transformer ベースのマルチモーダル拡散大規模モデル UniDiffuser をオープンソース化しました。画像ベースのテキスト生成、画像とテキストの結合生成、画像とテキストの書き換えなどのさまざまな生成タスクを実行します。
Transformer モデルは、2017 年に Google のチームによって発表されました。これは、入力データの各部分の重要性に応じて異なる重みを割り当てることができる深層学習モデルです。このモデルは主に自然言語処理 (NLP) とコンピューター ビジョン (CV) の分野で使用されます。現在、GPTなどの主要な大型モデルはTransformerをベースに開発されています。
「全体として、業界で大規模な画像生成モデルを作成するという現在の考え方は同じであり、それらはすべて普及モデルに基づいています。私たちのイノベーションは、基礎となるメインネットワークを変更することにあります。マルチモード姿勢を実現するために、初めて拡散モデル技術にTransformerを使用しました」とTang Jiayu氏は最近メディアのインタビューで語った。
Tang Jiayu 氏は、現段階で市場にあるモデルと製品は、初期段階の生成可能性の問題を解決するだけであるが、生成された結果には依然として大きな不確実性と制御不能性があり、正確に計算することが難しいなど、依然として大きな欠陥があると考えています。生成された画像内の要素の位置と詳細を制御しますが、生成された 3D モデルは、表面の細かさと色、光、影の精度の点でまだ比較的低いレベルにあります。
Shengshu Technology は、3D コンテンツ生成に関して、3 つのビューに基づいて 3D コンテンツを自動生成する業界初の技術と、3D トレーニング データを必要としない Wensheng 3D コンテンツ技術を開発し、その効果が期待できることを Pengpai Technology に紹介しました。 「訓練された大規模モデルは画像生成の点で安定拡散の基本モデルの最新バージョンを上回り、今年中にMidjourneyの最新バージョンに追いつくことが期待されている」 。」
Stable Diffusion は、スタートアップ企業 StabilityAI、CompVis、Runway によって開発されたテキストから画像への生成モデルで、2022 年にリリースされ、現在はオープンソースです。 Midjourney は、2022 年 3 月にリリースされたテキストから画像への生成ツールです。複数の反復を経て、パブリック ベータ段階に入りました。その現実的な効果は、中国のインターネット上で激しい議論を引き起こしました。 Stable Diffusion と Midjourney はどちらも業界をリードし、世界中で高く評価されている AI ツールです。