超大型カップ安定拡散が無料で登場! 「最強のヴィンセントグラフオープンモデル」、プロンプトの文言もシンプルに

出典: 量子ビット

Stable Diffusionの最強バージョンが登場!

ちょうど現在、SDXL 1.0 が正式にリリースされており、オンラインで無料で試すことができます。

効果という観点から見ると、それが現実の大ヒット作であるかどうかは次のとおりです。

ビールを飲むシュールなパンダ:

もしくはサイバーパンク漫画、どちらもとても良いですよ~

Stability AI によると、SDXL 1.0 はコントラスト、光、影の強化により より鮮明で正確な色を生成し、1 メガピクセル 画像 (1024×1024) を生成できます。

また、生成された画像を Web ページ上で直接後編集することもできます。

(ミッドジャーニーとファイアフライの喧嘩の匂いがする)

ネチズンは試しずにはいられないよ~

基本的な安定拡散と比較して、SDXL 1.0 はより正確で現実的な結果を生成します。

そして当局者は、プロンプトの言葉は以前よりも単純になる可能性があると述べた。

これは、SDXL 1.0 の基本モデル パラメータが **35 億 ** に達し、理解力が強化されたためです。

Stable Diffusion の基本バージョンと比較すると、パラメータの数はわずか約 10 億個です。

その結果、SDXL 1.0 は、現在最大のオープン イメージ モデルの 1 つになりました。関係者はこれが世界最高のオープンイメージモデルであると直接述べました。

あまり言うことはありません、始めましょう~

青と白の磁器にムスクをプリント

SDXL 1.0は操作が非常に便利で、直接入力でき、下からスタイルやサイズのパラメータを確認することもできます。

デフォルトでは、一度に 4 つの画像が生成されます。満足できない場合は、下の「プラス記号」をクリックして描画を続けることができます。

公式の紹介によると、SDXL 1.0 で傑作を生成できるようになったので、「傑作」というプロンプトの単語を追加する必要はなくなりました。

和風のイメージを生成し、画風が非常に適しており、光と影の処理がより自然です。

1990 年代のアニメの低解像度スクリーンキャプチャ カップルが夜道を歩き去る

それとも風景写真でしょうか?虚偽である可能性もあります。

マスク氏を中国の中庭に立って空を見上げさせても…。

イーロン・マスク、古代中国の宮殿に

それともアップルを買いましたか?

「WWDC」では記者やファン(ドージェ)に囲まれながら、新型iPhoneを掲げて人々に見せた。

イーロン・マスク氏、WWDCで新型iPhoneを発表

こうした古馬のタマネギニュースに加えて、絵画風作品の効果も良い。

左は斉白石の水墨画、右は風刺画です。

左:スピーチをするイーロン・マスク、水墨画、斉白石風 右:Elon Musk comic

絵を描くだけでなく、袁清華に老馬を入れることもできます。

元代の青と白の磁器の形をしたイーロン・ムスク

上に示した「老馬の物語」は比較的簡単に使用できます。

しかし、その効果から、単純なプロンプトの言葉のために股間が伸びることはなく、それは公式声明によっても確認されています。

しかし、さらに複雑で洗練されたものを使用したらどうなるか見てみたいと思います。

ミッドジャーニーが作成した、ソ連で自動車修理作業員として働く老馬の貴重な写真を見つけ、それをMJに再供給して新しい写真に仕上げた。

MJ は以下を生成し、SDXL のテストに使用しました。

イーロン・マスク(这里MJ生成的は男性)、産業機械美学のスタイルで作業室に立つ、ドイツ工作連盟、均一に演出されたイメージ、ソビエト、ライトインディゴとダークブロンズ、新しいアメリカのカラー写真、詳細な顔の特徴

スタイルは予想通りで、細部の作りも悪くありません。

エンディングには別の複雑な映像があり、これも過去の作品に基づいて MJ によって生成され、SDXL に供給されます。

ピーター・コールソン風に箸で食べ物を食べるイーロン・マスク、クロスプロセス/加工済み、ピンホール写真、ハーブ・トリンペ、ジェームズ・ティソ、トランスアヴァンガルディア、スポット測光

左がSDXLの作品、右がMJのオリジナル版で、見比べていただけます。

プロンプトワードは中国語にも対応していますが、結果はお国柄に偏り、精度にも影響が出てくる可能性があります。

たとえば、「虎が海辺にいる」と入力すると、偶然国民風の女の子が表示されます。

誰もがその効果を目にしたことがありますが、SDXL はどれくらいの速さで写真を生成するのでしょうか?

無料ユーザーの場合、時間は主に行列に費やされますが、それほど長く待つことはありません。

5.5 秒で、キューは 160 から 99 に減りました。

画像の生成に加えて、SDXL は多くの事後編集機能も提供します。

具体的には、背景除去、ディテール処理、フレーム拡大などです。

これらの機能は、SDXL が配置されている Clipdrop プラットフォームですでに利用可能であり、SDXL はワンクリックで生成された画像を対応するモジュールに転送できます。

ここでは背景除去機能を選択して表示していますが、エッジの細部にほとんど欠陥がないことがわかります。

現時点では、SDXL の無料使用枠はまだ比較的高く、ログイン後、各アカウントは 1 日あたり 400 枚のカードを生成できます (キューに入れる必要があります)。

月額支払いは月額 9 ドル、年間支払いは 1 日あたり 1,500 個の SDXL 割り当てを含む月額 7 ドル (約 50 RMB) に相当し、並ぶ必要はありません。

ただし、地域によって物価は異なるようで、例えばアルゼンチンの年間支払い額は月額742ペソ(約19.4元、約2.7米ドル)となっている。

また、有料版は実際には Clipdrop プラットフォームの Pro サブスクリプションであるため、プラットフォームの他の機能も含まれています。

Pro アカウントに加えて、開発者が利用できる API バージョンもあります (Stability AI、Amazon などにアクセスできる)。

オープンイメージモデルの「最大カップ」

最新のブログでは、Stability AI が SDXL 1.0 の技術的な詳細を紹介しています。

まず、このモデルは規模とアーキテクチャの両方で新境地を開拓します。

ベースモデル + リファイナーモデルを革新的に使用します。

2 つのパラメータのサイズは、それぞれ 35 億66 億 です。

これにより、SDXL 1.0 は現在利用可能な 最大のオープン グラフィックス モデル の 1 つになります。

Stability AI の創設者である Emad Mostaque 氏は、パラメーターの数が増えると、モデルがより多くの概念を理解し、より深いことを教えることができるようになると述べました。

同時に、SDXL 0.9 バージョンでは RLHF の強化も行われました。

SDXL 1.0 が短いプロンプト ワードをサポートし、赤の広場と赤の広場を区別できるようになったのはこのためです。

具体的な合成プロセスでは、最初のステップでベース モデルがノイズを含む潜在を生成し、次にリファインされたモデルがノイズ除去を実行します。

基本モデルは独立したモジュールとしても使用できます。

これら 2 つのモデルを組み合わせることで、より多くのコンピューティング リソースを消費することなく、より高品質の画像を生成できます。

公式の紹介によると、SDXL 1.0 は 8GB VRAM を備えたコンシューマーグレードの GPU またはクラウド上で実行できます。

さらに、SDXL 1.0 では微調整も改善されており、カスタム LoRA やチェックポイントを生成できるようになりました。

また、Stability AI チームは現在、SDXL 専用の T2I/ControlNet を使用して、タスク固有の構造化、スタイル設定、および組み合わせた新世代のコントロールを構築しています。

ただし、これらの機能はまだベータテストの段階であり、今後の正式アップデートに注目してほしい。

要約すると、Vincent 図は段階的な反復プロセスであり、SDXL 1.0 の目標はこのプロセスを容易にすることです。

モスタク氏は、モデルを迅速に微調整するために必要な写真は 5 ~ 10 枚だけであると述べました。

ユーザーのフィードバックからも、SDXL 1.0 の方が Stable Diffusion よりも満足度が高いことがわかります。

実際、今年 4 月以降、Stability AI は SDXL の最も初期のベータ版をリリースしました。

6月に社内テストが始まり、少し前にバージョン0.9がリリースされましたが、その際、オープン版の最新バージョン1.0が7月にリリースされることが発表されました。現在、関連するコードウェイトは GitHub で公開されています。

そして、Stability AI 機械学習の担当者は、SDXL 0.9 と比較して、バージョン 1.0 では計算能力の需要が軽減されていると述べました。

子供靴に興味がある方はぜひ試してみてくださいね〜

トライアルエントリー:

GitHub:

参考リンク: [1] [2] [3]

原文表示
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)