ChatGPT が普及する前、AI の分野で最も人気のあるトピックは AI 描画でした。普及モデルは生成 AI を大きく前進させ、一時期はテキストを入力してさまざまなスタイルの画像を生成する AI モデルが多数登場しました。その後、画像から画像を生成したり、画像を指定したスタイルに変換したりする方法がさらに登場し、人々は生成 AI の魔法に驚き、驚きました。
この経験の中で、マシンの心臓部は、一般的な意味の万祥テキストによって生成された画像が直接同様の画像を生成できることも発見しました。ここでは、上記の 3D 漫画スタイルの「宇宙服を着た猫」の 1 つを元の画像として選択しました。結果が出るやいなや、生成された猫はさらに可愛くなり、背景要素もより豊富になります。
それだけでなく、Composer は分解と組み合わせの可能性を「絞り出す」ことで、より広い創造空間を実現することもできます。 8つの要素に分かれた絵が100枚あるとすると、すべての要素の組み合わせは100の8乗通りあります。この数値の指数関数的な増加は組み合わせ爆発現象として知られており、間違いなく AI モデルの巨大な生成スペースを生み出します。同時に、人間のデザイナーにも、カスタマイズされた画像を生成する際に大きな自由とカスタマイズ機能が与えられます。
生成 AI の実装に関しては、高いコンピューティング能力、複雑な構築プロセス、限られた汎用性など、いくつかの課題に直面しています。 Tongyi は、業界初の AI 統合基盤を構築し、大小のモデルを調整した階層型人工知能システムを構築し、その課題に直面し、AI を知覚から認知へ移行させることを目標としています。
また、アリ氏は中国で初めて「Model as a Service」の概念を提案し、中国最大のAIモデルサービスコミュニティ「Magic Build」の構築を主導し、オープンソースとオープン性を主張し、AIの包括性を推進した。 Alibaba Cloud の「MaaS: モデル中心の AI 開発のための新しいパラダイム」のテーマ フォーラムで、Zhou Jingren 氏は、MaaS に対するビジョンと、製品とパートナーをさらに強化する方法を共有しました。
*Alibaba Cloud CTO、Jingren Zhou氏。 *
AI 2.0の競争は新たな段階に入り、100モデルの競争の後、必ず大きな波が来るだろうが、Alibaba Cloudの準備は整っている。
原文表示
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
アリのAI図面が社内でテストされ、一部の大手工場に衝撃を与えた
著者:デュ・ウェイ、ゼナン
カンファレンスは3日間にわたり、さまざまな企業や機関が30以上の大型モデルを相次いで発表した。
この大型模型の饗宴には言語模型が欠かせませんが、もちろん視覚的に衝撃を与える大型の絵画模型もあります。いや、AI描画の分野ではまた国内勢が参入してきた。
大型言語モデル Tongyi Qianwen のリリースから 3 か月後、Ali の AI 絵画作成大型モデルも登場しました。これは、自社開発の結合生成モデル Composer に基づいています。
7月7日のWAICカンファレンスで、Alibaba Cloud Tongyi大規模モデルファミリーは、最新メンバー「Tongyi Wanxiang」を発表した。
テキスト生成画像効果はこんな感じで、生成速度は非常に速いです。
現在、このモデルは指向性招待テストを開始しています。
ChatGPT が普及する前、AI の分野で最も人気のあるトピックは AI 描画でした。普及モデルは生成 AI を大きく前進させ、一時期はテキストを入力してさまざまなスタイルの画像を生成する AI モデルが多数登場しました。その後、画像から画像を生成したり、画像を指定したスタイルに変換したりする方法がさらに登場し、人々は生成 AI の魔法に驚き、驚きました。
アリはWAICという大きな舞台で、グラフだけでなくグラフも生成できるこのAIアーティファクトを発表しており、その生成効果に非常に自信を持っていることがわかります。
体験資格を取得したら、当然、まずは機械の心臓部を試してみる必要があります。
Tongyi Wanxiang 実測: 多様なゲームプレイ、一発勝負は傑作
Tongyi ファミリーのこの新しいモデルは、AI 描画の分野に変化をもたらしましたか?私たちは結果とともに話します。
現在、Tongyi Wanxiang は テキスト画像生成、類似画像生成、画像スタイル転送 の 3 つの機能を開始しています。
それほど複雑ではないものから始めましょう。元曲の四大巨匠の一人、馬志源の『天京沙・秋想』から「小さな橋、流れる水、家」を表す一連の単語を選択し、「中国の絵画」を選択します。スタイルのために。
その結果、同義万祥は、古代の魅力に満ちた、細部に富んだ絵画を完全に見せてくれ、遠くの山や水の中を泳ぐアヒルなど、説明にはなかったいくつかの要素を追加しました。
ここで突然、Tongyi Wanxiang と有名な Stable Diffusion を比較してみたいと思います。同じテキストの説明を「宇宙服を着た猫、宇宙、旅行、星空」と英語に翻訳し、「3D カートンのスタイル」を追加すると、生成される画像は次のとおりです。
予想外に、Tongyi Wanxiang がこの波に勝ちましたが、Stable Diffusion によって生成された猫は抽象的すぎるか現実的すぎて、3D 漫画のスタイルを示していませんでした。
今回は「茶色のストレートヘア、色白の肌、ドレス、レース、リボンを着て、小さなハンドバッグを持ち、微笑む日本人の女の子」という長めのセクションがあり、スタイルは「二次元」です。二次元が好きな友達に聞きたいのですが、生成されたこれらの画像はあなたの頭の中にある日本の女の子と一致しますか?
次に、Tongyi Wanxiang の類似画像生成機能について説明します ユーザーは参照画像を提供するだけで、内容とスタイルが似た AI 絵画を取得できます。ここで、アップロードする画像のサイズは 10M 未満である必要があり、形式は一般的な JPG、JPEG、PNG、BMP などをサポートしていることに注意してください。
まず、AI 描画の世界を頻繁に訪れるマスク氏の作品を入れて、マスク氏の「フェンケ」がトンイ・ワンシャン氏の目にどう見えるかを見てみましょう。マスクの実際の体と比較すると、生成された写真は老けていますが、笑顔は同様に陽気です。
まず写実的な原画と印象派風の絵を選択します。その結果、写実的な原画は一変して印象派の絵画となった。
Alibaba Cloud の Tongyi 大規模モデル ファミリーの新しいメンバーとして、Ali 氏は、Tongyi Wanxiang の既存の機能は小さなテストにすぎず、その機能はまだ進化していると述べました。将来的には、関連する機能が業界の顧客に徐々に公開される予定です。
自社開発の Composer モデル: 50 億パラメータ、頂点に到達します
以前は、多くの企業の大規模モデルでは、AI 描画機能を備えた「マルチモーダル」な人材が設定されていました。対照的に、アリの普遍的な意味はどれほどの技術的な内容を持っていますか?単なる模倣ではなく、独自の能力を持っているようです。
Tongyi Wanxiang は、Ali 自身が開発した複合生成モデルである Composer に基づいていると理解されており、これには 50 億のパラメータがあり、数十億のテキストと画像のペアでトレーニングされています。業界が AI ペイント モデルの制御性を向上させる方法を検討している時点で、Composer は革新的なアイデアを提供しました。
Composer は、拡散モデルに基づく「結合生成」フレームワークにより、カラー マッチング、レイアウト、スタイルなどの画像デザイン要素を分解および結合することができ、高度に制御可能で極めて自由な画像生成効果を実現します。
その結果、皆さんも私もおわかりのとおり、マルチクラスのイメージ生成タスクをサポートできるのは 1 つのモデルだけです。 Alibaba Cloud の最高技術責任者である Zhou Jingren 氏が Composer の研究に参加し、関連する成果は AI のトップ国際カンファレンスである ICML 2023 に組み込まれました。
いわゆる逆アセンブリ結合では、最初に画像をカラー マッチング、スケッチ、レイアウト、スタイル、セマンティクス、マテリアルなどのさまざまなデザイン要素に分解します。これらのデザイン要素は、AI モデルを使用して新しい画像に再結合されます。ここで、分解して組み立てるプロセスにより、使用する要素を自由に変更および編集できるため、制御性が大幅に向上します。
それだけでなく、Composer は分解と組み合わせの可能性を「絞り出す」ことで、より広い創造空間を実現することもできます。 8つの要素に分かれた絵が100枚あるとすると、すべての要素の組み合わせは100の8乗通りあります。この数値の指数関数的な増加は組み合わせ爆発現象として知られており、間違いなく AI モデルの巨大な生成スペースを生み出します。同時に、人間のデザイナーにも、カスタマイズされた画像を生成する際に大きな自由とカスタマイズ機能が与えられます。
Tongyi Wanxiang は Composer フレームワークに基づいており、類似度グラフの生成とスタイル転送の 2 つの機能を体験できます。画像理解モデルを使って画像をさまざまな要素に分解しながら、拡散モデルを使ってそれらの要素を新たな画像に再結合するという二方向からのアプローチで画像を生成するのは当然のことです。
このうち、類似画像の生成については、画像の意味内容を変えずに、画像内の局所的なディテールを変更するだけで、類似画像を生成することができる。この過程で、元の画像本体の一貫性がより良く維持され、生成される画像の多様性と品質も向上します。
スタイルの転送では、元の画像の基本的な形状と構造が保持される一方で、ターゲットのスタイル画像のスタイル、色、ブラシ ストローク、その他の個人情報が転送されて、最終的にスタイルが実現されます。移行。
大規模モデルをコアとして使用して、生成 AI の統合基盤を作成
Tonyi Wanxiang の予期せぬ効果は、Ali 独自のコア技術から来ているようです。
実際、中国では、Ali が生成 AI の探求を早くから始めた大企業の 1 つであり、2018 年に大規模モデル技術の研究開発を開始しました。 2019 年、Dharma Institute が提案した大規模言語トレーニング モデル StructBERT は、Google、Microsoft、Facebook の研究を上回り、当時 NLP の権威ベンチマーク リスト GLUE のトップに上り詰めました。
2021年に、アリは中国初の数百億パラメータを備えたマルチモーダル大規模モデルM6と、「中国語版GPT-3」と呼ばれる大規模言語モデルPLUGをリリースする予定だ。その中で、M6 は複数回の反復を経て 10 兆レベルのパラメータスケールを達成し、M6 は Alipay と Taobao のビジネスニーズと組み合わされています。
昨年のWAICで、アリ氏は業界初の「基本モデル」を構築したTongyi大規模モデルシリーズを発表し、統一されたモーダル表現、タスク表現、モデル構造を実現した。さらに、関連するコア モデルは世界中の開発者にオープンソース化されています。
生成 AI の実装に関しては、高いコンピューティング能力、複雑な構築プロセス、限られた汎用性など、いくつかの課題に直面しています。 Tongyi は、業界初の AI 統合基盤を構築し、大小のモデルを調整した階層型人工知能システムを構築し、その課題に直面し、AI を知覚から認知へ移行させることを目標としています。
アリは、超大型モデル、言語およびマルチモーダル機能、低炭素トレーニング、プラットフォームサービス、および着陸アプリケーションの点で、中国の大規模モデルの開発に最先端かつ主導的な貢献を果たしたと言えるでしょう。 。
Tongyi Wanxiang の前に、Ali は自然言語処理の「Tongyi Thousandquestions」とオーディオとビデオの生産性に特化した「Tongyi Listening」を連続してリリースしました。これまでのところ、AI の 3 つの主要な方向性はすべて明らかにされています。 大規模モデルと生成 AI に対する潜在的な膨大な需要に直面して、Alibaba Cloud には独自の利点があります。
大規模モデル技術の蓄積に加えて、強力なクラウド インフラストラクチャ機能が重要です。コンピューティング能力の点では、Alibaba Cloud はアジアでナンバー 1、世界で 3 位のクラウド コンピューティング サービス プロバイダーであり、その大規模モデルには堅牢なコンピューティング パワー システム サポートが備わっています。たとえば、Alibaba Cloud は中国で最も強力なインテリジェント コンピューティング能力を備えており、Alibaba Cloud のインテリジェント コンピューティング クラスターは最大 100,000 枚のカードの GPU スケールをサポートできます。
また、アリ氏は中国で初めて「Model as a Service」の概念を提案し、中国最大のAIモデルサービスコミュニティ「Magic Build」の構築を主導し、オープンソースとオープン性を主張し、AIの包括性を推進した。 Alibaba Cloud の「MaaS: モデル中心の AI 開発のための新しいパラダイム」のテーマ フォーラムで、Zhou Jingren 氏は、MaaS に対するビジョンと、製品とパートナーをさらに強化する方法を共有しました。
AI 2.0の競争は新たな段階に入り、100モデルの競争の後、必ず大きな波が来るだろうが、Alibaba Cloudの準備は整っている。