アリのAI図面が社内でテストされ、一部の大手工場に衝撃を与えた

著者:デュ・ウェイ、ゼナン

**今年の WAIC 世界人工知能会議の主役は誰ですか? AI メガモデルはそれに値します。 **

カンファレンスは3日間にわたり、さまざまな企業や機関が30以上の大型モデルを相次いで発表した。

この大型模型の饗宴には言語模型が欠かせませんが、もちろん視覚的に衝撃を与える大型の絵画模型もあります。いや、AI描画の分野ではまた国内勢が参入してきた。

大型言語モデル Tongyi Qianwen のリリースから 3 か月後、Ali の AI 絵画作成大型モデルも登場しました。これは、自社開発の結合生成モデル Composer に基づいています。

7月7日のWAICカンファレンスで、Alibaba Cloud Tongyi大規模モデルファミリーは、最新メンバー「Tongyi Wanxiang」を発表した。

WAIC *Alibaba Cloudの「MaaS: モデル中心のAI開発のための新しいパラダイム」のテーマフォーラムにTongyi Wanxiangが登場しました。 *

テキスト生成画像効果はこんな感じで、生成速度は非常に速いです。

Tongyi Wanxiang は、元の画像に対して別の指定されたスタイルの新しい画像を生成することもできます。

オリジナルの絵に似た絵をいくつか生成する入れ子人形ゲームもあります。

アリ氏は、Tongyi Wanxiangにはグラフやグラフを生成する機能があり、人間の画像作成を支援し、画像デザインの敷居を大幅に下げることができると述べた。将来的には、アートデザイン、ゲーム、文化創造などのアプリケーションシナリオにも適用できます。

現在、このモデルは指向性招待テストを開始しています。

ChatGPT が普及する前、AI の分野で最も人気のあるトピックは AI 描画でした。普及モデルは生成 AI を大きく前進させ、一時期はテキストを入力してさまざまなスタイルの画像を生成する AI モデルが多数登場しました。その後、画像から画像を生成したり、画像を指定したスタイルに変換したりする方法がさらに登場し、人々は生成 AI の魔法に驚き、驚きました。

アリはWAICという大きな舞台で、グラフだけでなくグラフも生成できるこのAIアーティファクトを発表しており、その生成効果に非常に自信を持っていることがわかります。

体験資格を取得したら、当然、まずは機械の心臓部を試してみる必要があります。

Tongyi Wanxiang 実測: 多様なゲームプレイ、一発勝負は傑作

Tongyi ファミリーのこの新しいモデルは、AI 描画の分野に変化をもたらしましたか?私たちは結果とともに話します。

現在、Tongyi Wanxiang は テキスト画像生成、類似画像生成、画像スタイル転送 の 3 つの機能を開始しています。

標準的なテキストから画像への生成から始めましょう。 Wenshengtu では、水彩画、油絵、中国画、平面イラスト、2D、スケッチ、3D 漫画など、さまざまなスタイルから選択できます。テキストの説明を入力し、スタイルを選択すると、AI がクリエイティブな画像を自動的に生成します。同時に、使いやすさのため、出力画像の比率には 1:1、16:9、9:16 の 3 つのオプションがあります。

それほど複雑ではないものから始めましょう。元曲の四大巨匠の一人、馬志源の『天京沙・秋想』から「小さな橋、流れる水、家」を表す一連の単語を選択し、「中国の絵画」を選択します。スタイルのために。

その結果、同義万祥は、古代の魅力に満ちた、細部に富んだ絵画を完全に見せてくれ、遠くの山や水の中を泳ぐアヒルなど、説明にはなかったいくつかの要素を追加しました。

もう一度 2 つのスタイルを変更して、今回は「スケッチ」と「油絵」を選択します。 Tongyi Wanxiang はさまざまなスタイルに自由に切り替えることができ、生成されたスケッチや油絵も同様に素晴らしいです。そのまま使えるレベルの写真と言っても過言ではありません。

別のテキスト セットで「宇宙服を着た猫、宇宙、旅行、星空」を説明するとします。今回はスタイルとして「2 次元」と「3D 漫画」を選択します。効果は一目瞭然で、特に 3D 漫画スタイルのグループ、猫がとてもかわいいです。

上: 2D、下: 3D 漫画

ここで突然、Tongyi Wanxiang と有名な Stable Diffusion を比較してみたいと思います。同じテキストの説明を「宇宙服を着た猫、宇宙、旅行、星空」と英語に翻訳し、「3D カートンのスタイル」を追加すると、生成される画像は次のとおりです。

予想外に、Tongyi Wanxiang がこの波に勝ちましたが、Stable Diffusion によって生成された猫は抽象的すぎるか現実的すぎて、3D 漫画のスタイルを示していませんでした。

Tongyi Wanxiang では簡単なテキストの説明は難しくないので、難しくしてみましょう。

今回は「茶色のストレートヘア、色白の肌、ドレス、レース、リボンを着て、小さなハンドバッグを持ち、微笑む日本人の女の子」という長めのセクションがあり、スタイルは「二次元」です。二次元が好きな友達に聞きたいのですが、生成されたこれらの画像はあなたの頭の中にある日本の女の子と一致しますか?

魔法のようなスタイルでの別の説明セットは、「シュールレアリズム、卓越した質感、4K解像度、サイバーパンク、戦艦、雄大、煙、金属巨人、レーザー兵器、オクタンレンダラー」で、スタイルは「油絵」です。下の写真を見ると、終末の戦いの緊張感が伝わってきます。

同じ記述を安定拡散に再度入れます。ディテールの豊富さという点では、Stable Diffusion の方が優れていますが、その画風は灰色に見え、色のインパクトを強く感じさせません。シュールレアリスムとは少し違う、より写実的な作風です。

少なくともウェン・シェントゥの軌跡では、トンイー・ワンシャンは完全に把握されているようだ。人々はため息をつかずにはいられません。描画分野における生成 AI の能力は進化しています。

次に、Tongyi Wanxiang の類似画像生成機能について説明します ユーザーは参照画像を提供するだけで、内容とスタイルが似た AI 絵画を取得できます。ここで、アップロードする画像のサイズは 10M 未満である必要があり、形式は一般的な JPG、JPEG、PNG、BMP などをサポートしていることに注意してください。

まず、AI 描画の世界を頻繁に訪れるマスク氏の作品を入れて、マスク氏の「フェンケ」がトンイ・ワンシャン氏の目にどう見えるかを見てみましょう。マスクの実際の体と比較すると、生成された写真は老けていますが、笑顔は同様に陽気です。

別の風景画像、生成された効果は非常に優れています。川はゴボゴボと音を立て、水面にはさらに落ち葉が点在しており、元の写真に劣りません。

この経験の中で、マシンの心臓部は、一般的な意味の万祥テキストによって生成された画像が直接同様の画像を生成できることも発見しました。ここでは、上記の 3D 漫画スタイルの「宇宙服を着た猫」の 1 つを元の画像として選択しました。結果が出るやいなや、生成された猫はさらに可愛くなり、背景要素もより豊富になります。

最後にスタイル移行機能を見てみましょう。スタイルを変更したい元画像と対象スタイルの模式図をアップロードするだけで、元画像を対象スタイルのクリエイティブ画像に素早く加工できます。類似画像生成と同様に、オリジナル画像とスタイル画像のサイズは10Mを超えてはならず、形式も同じです。

まず写実的な原画と印象派風の絵を選択します。その結果、写実的な原画は一変して印象派の絵画となった。

次に、3D 漫画のオリジナル画像とスケッチ風の画像を試してください。この結果から、2 つのスタイル間の切り替えが容易であることがわかります。

最後に中国画風の原画と水彩風の絵を選択します。生成された結果も同様に良好です。

Wensheng 図であろうと Tusheng 図であろうと、ある程度の経験を積んだ後、Tongyi Wanxiang は意味的な相関関係、画像の完全性、詳細の豊富さの点で多くの驚きを与えてくれました。特にスタイル移行機能は、異なるスタイル間の切り替えが非常にスムーズで、生成された画像は継ぎ目や汚れの感覚がほとんどなく、あたかもターゲットのスタイルに属しているかのように見えます。

Alibaba Cloud の Tongyi 大規模モデル ファミリーの新しいメンバーとして、Ali 氏は、Tongyi Wanxiang の既存の機能は小さなテストにすぎず、その機能はまだ進化していると述べました。将来的には、関連する機能が業界の顧客に徐々に公開される予定です。

自社開発の Composer モデル: 50 億パラメータ、頂点に到達します

以前は、多くの企業の大規模モデルでは、AI 描画機能を備えた「マルチモーダル」な人材が設定されていました。対照的に、アリの普遍的な意味はどれほどの技術的な内容を持っていますか?単なる模倣ではなく、独自の能力を持っているようです。

Tongyi Wanxiang は、Ali 自身が開発した複合生成モデルである Composer に基づいていると理解されており、これには 50 億のパラメータがあり、数十億のテキストと画像のペアでトレーニングされています。業界が AI ペイント モデルの制御性を向上させる方法を検討している時点で、Composer は革新的なアイデアを提供しました。

Composer は、拡散モデルに基づく「結合生成」フレームワークにより、カラー マッチング、レイアウト、スタイルなどの画像デザイン要素を分解および結合することができ、高度に制御可能で極めて自由な画像生成効果を実現します。

その結果、皆さんも私もおわかりのとおり、マルチクラスのイメージ生成タスクをサポートできるのは 1 つのモデルだけです。 Alibaba Cloud の最高技術責任者である Zhou Jingren 氏が Composer の研究に参加し、関連する成果は AI のトップ国際カンファレンスである ICML 2023 に組み込まれました。

* 紙のアドレス:

  • GitHub アドレス:

いわゆる逆アセンブリ結合では、最初に画像をカラー マッチング、スケッチ、レイアウト、スタイル、セマンティクス、マテリアルなどのさまざまなデザイン要素に分解します。これらのデザイン要素は、AI モデルを使用して新しい画像に再結合されます。ここで、分解して組み立てるプロセスにより、使用する要素を自由に変更および編集できるため、制御性が大幅に向上します。

*分解 - 結合された画像生成プロセス。 *

それだけでなく、Composer は分解と組み合わせの可能性を「絞り出す」ことで、より広い創造空間を実現することもできます。 8つの要素に分かれた絵が100枚あるとすると、すべての要素の組み合わせは100の8乗通りあります。この数値の指数関数的な増加は組み合わせ爆発現象として知られており、間違いなく AI モデルの巨大な生成スペースを生み出します。同時に、人間のデザイナーにも、カスタマイズされた画像を生成する際に大きな自由とカスタマイズ機能が与えられます。

※画像の組み換え処理。 *

Tongyi Wanxiang は Composer フレームワークに基づいており、類似度グラフの生成とスタイル転送の 2 つの機能を体験できます。画像理解モデルを使って画像をさまざまな要素に分解しながら、拡散モデルを使ってそれらの要素を新たな画像に再結合するという二方向からのアプローチで画像を生成するのは当然のことです。

このうち、類似画像の生成については、画像の意味内容を変えずに、画像内の局所的なディテールを変更するだけで、類似画像を生成することができる。この過程で、元の画像本体の一貫性がより良く維持され、生成される画像の多様性と品質も向上します。

スタイルの転送では、元の画像の基本的な形状と構造が保持される一方で、ターゲットのスタイル画像のスタイル、色、ブラシ ストローク、その他の個人情報が転送されて、最終的にスタイルが実現されます。移行。

大規模モデルをコアとして使用して、生成 AI の統合基盤を作成

Tonyi Wanxiang の予期せぬ効果は、Ali 独自のコア技術から来ているようです。

実際、中国では、Ali が生成 AI の探求を早くから始めた大企業の 1 つであり、2018 年に大規模モデル技術の研究開発を開始しました。 2019 年、Dharma Institute が提案した大規模言語トレーニング モデル StructBERT は、Google、Microsoft、Facebook の研究を上回り、当時 NLP の権威ベンチマーク リスト GLUE のトップに上り詰めました。

2021年に、アリは中国初の数百億パラメータを備えたマルチモーダル大規模モデルM6と、「中国語版GPT-3」と呼ばれる大規模言語モデルPLUGをリリースする予定だ。その中で、M6 は複数回の反復を経て 10 兆レベルのパラメータスケールを達成し、M6 は Alipay と Taobao のビジネスニーズと組み合わされています。

昨年のWAICで、アリ氏は業界初の「基本モデル」を構築したTongyi大規模モデルシリーズを発表し、統一されたモーダル表現、タスク表現、モデル構造を実現した。さらに、関連するコア モデルは世界中の開発者にオープンソース化されています。

生成 AI の実装に関しては、高いコンピューティング能力、複雑な構築プロセス、限られた汎用性など、いくつかの課題に直面しています。 Tongyi は、業界初の AI 統合基盤を構築し、大小のモデルを調整した階層型人工知能システムを構築し、その課題に直面し、AI を知覚から認知へ移行させることを目標としています。

アリは、超大型モデル、言語およびマルチモーダル機能、低炭素トレーニング、プラットフォームサービス、および着陸アプリケーションの点で、中国の大規模モデルの開発に最先端かつ主導的な貢献を果たしたと言えるでしょう。 。

Tongyi Wanxiang の前に、Ali は自然言語処理の「Tongyi Thousandquestions」とオーディオとビデオの生産性に特化した「Tongyi Listening」を連続してリリースしました。これまでのところ、AI の 3 つの主要な方向性はすべて明らかにされています。 大規模モデルと生成 AI に対する潜在的な膨大な需要に直面して、Alibaba Cloud には独自の利点があります

大規模モデル技術の蓄積に加えて、強力なクラウド インフラストラクチャ機能が重要です。コンピューティング能力の点では、Alibaba Cloud はアジアでナンバー 1、世界で 3 位のクラウド コンピューティング サービス プロバイダーであり、その大規模モデルには堅牢なコンピューティング パワー システム サポートが備わっています。たとえば、Alibaba Cloud は中国で最も強力なインテリジェント コンピューティング能力を備えており、Alibaba Cloud のインテリジェント コンピューティング クラスターは最大 100,000 枚のカードの GPU スケールをサポートできます。

また、アリ氏は中国で初めて「Model as a Service」の概念を提案し、中国最大のAIモデルサービスコミュニティ「Magic Build」の構築を主導し、オープンソースとオープン性を主張し、AIの包括性を推進した。 Alibaba Cloud の「MaaS: モデル中心の AI 開発のための新しいパラダイム」のテーマ フォーラムで、Zhou Jingren 氏は、MaaS に対するビジョンと、製品とパートナーをさらに強化する方法を共有しました。

*Alibaba Cloud CTO、Jingren Zhou氏。 *

AI 2.0の競争は新たな段階に入り、100モデルの競争の後、必ず大きな波が来るだろうが、Alibaba Cloudの準備は整っている。

原文表示
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)