DALL・E 3 がテスト用に発売されます。乗馬宇宙飛行士の問題が解決、1枚の絵に50の物体が特定、マイクロソフトもこれまでにないほど研究に深く関与

巴比特_

2023-09-24 06:19:46

出典: 量子ビット

DALL・E 3 限定テストが Microsoft Bing によって最初に開かれました。あなたがヨーロッパの皇帝の一人であるかどうか見てみましょう?

△ Windows最新版より

資格を取得していなくても大丈夫、サードパーティのリサーチプレビューやOpenAI社員による社内トライアルと合わせて、さまざまなテストケースが次々と出てきて楽しめること間違いなしです。

最も大げさなものは「指定された絵の中に50種類のオブジェクトが現れる」というもので、何百ものオブジェクトが描かれていました。

シンプルなタイル配置に加えて、これらのオブジェクトをより創造的に組み合わせることができます。

乗馬宇宙飛行士という反事実的なコンセプトについては、過去の OpenAI と Google のさまざまなモデルでは、馬に乗った宇宙飛行士**しか描くことができませんでした。

この論文は一般に失敗例とみなされ、当時AI悲観論者だったマーカスから嘲笑された。

DALL・E 3 は、ChatGPT のサポートにより、これを簡単に処理できるようになりました。

今回の DALL・E 3 の大きな進歩は、OpenAI 自身の努力の成果だけではなく、** と Microsoft** の共同協力の結果でもあります。

明記されていないが、貢献リストの研究部分には少なくとも3人のMicrosoftエンジニアと研究者が関与しており、推論最適化部分のメンバーのほとんどはMicrosoft DeepSpeedチームの出身である。

GPT-4 を振り返ると、GPT-4 はまだ主に OpenAI によって内部開発され、その後テストのために Microsoft やその他の研究機関にオープンアクセスが与えられていました。

この協力モデルの変更は、両社の関係がさらに深まることを意味します。

1 つのペイントでは 50 個のオブジェクトが指定されます

Microsoft Bing CEO Mikhail Parakhin によって確認されたところによると、幸運な数パーセントのユーザーはすでにテストを受ける資格を持っています。

場所の数は非常に限られているため、待ちきれないネチズンはオンラインでアイデアを提案し、アカウントを持つ人々にテストを手伝ってくれるように依頼しました。

50 個の異なるオブジェクトを描画することを提案したネチズンは、大規模言語モデルの 「コンテキストウィンドウ」 と同様に、DALL·E 3 が 1 つの画像にどれだけのオブジェクトを収めることができるかをテストしたかっただけです。

研究のプレビュー版を受け取ったサードパーティのデザイナー、ネイサン・シプリー氏がこの課題に挑戦しました。

まず、ChatGPT に毎日 50 個のオブジェクトをランダムにリストするよう依頼し、次にこれらのオブジェクトを絵に描くように直接依頼しました。完全なプロンプトワードは ChatGPT が自動的に完成し、その後 DALL·E 3 がそれを描画します。

次にネイサンは、「サーファーが一生懸命サーフィンをしながらこれらの物体を積み上げているイメージを作れますか?」と尋ねました。

ChatGPT はプロンプトの単語にいくつかの詳細を追加しました。

日焼けした肌を持つ中年のポリネシア人男性サーファーが、ティーカップ、自転車、傘など、50 ものアイテムを抱えて懸命にサーフィンをしており、波が彼の周りに打ち寄せるたびに決意と軽いパニックの表情を浮かべています。これらの物体とサーフボードのバランスをとろうとしています。

その結果、キャラクターの表情が軽いパニックというより極度のパニックに近いことを除いて、基本的に要件を一度で満たすイメージが得られました。

その後、Nathan がより低い視点を要求したため、今度は ChatGPT がプロンプトワード内の人物の説明を「年配のスペイン人女性」に変更しました。

見物人は非常に驚くべきことだと思ったが、鉛筆の大きさが他の物体と比べて不釣り合いである理由も指摘した。

特にペンの宣伝写真ではクローズアップショットが使用されることが多いため、モデルはオブジェクトがどのように見えるかだけを知っていて、相対的なサイズは知らないのではないかと推測する人もいます。

さらに、Nathan は、ユーザーが制御できる画面のパラメータを ChatGPT から尋ねました。

ChatGPT は次のように応答しました。

説明する：

希望する画像の詳細な説明を入力できます。より具体的で詳細であればあるほど、結果として得られるイメージはあなたの希望に近づきます。

スタイルと媒体:

「絵画」「写真」「イラスト」「漫画」「水彩」「3Dレンダリング」など、画像のスタイルや媒体を指定できます。

解決：

デフォルトでは、画像は 1729x1024 の解像度で生成されます。ただし、説明で全身ポートレート、または高アスペクト比に適したものが示唆されている場合、画像は 1024x1792 で生成されます。必要に応じて、正方形の解像度 (1024x1024) をリクエストすることもできます。

※写真の枚数

: ご指定がない場合は、通常、説明に基づいて 4 つの異なる画像を作成します。ただし、特定の数 (最大 4 つ) をリクエストすることができます。

改訂

: 最初の結果に満足できない場合は、フィードバックを提供して変更をリクエストできます。既存の画像を直接変更することはできませんが、フィードバックを使用して、お客様のビジョンにより適した新しい画像を生成することはできます。

*ランダムシード

: 以前の画像を変更したい場合は、その画像のメタデータ内のシードを使用して新しいバージョンを生成できます。これにより、元のイメージと変更されたイメージの間で一定の一貫性が保証されます。

ご注意ください、

いくつかの制限が適用されます。たとえば、過去 100 年間の著名人のイメージやアーティストのスタイルを直接作成することはできません。

焦点は背面にあります。

**ただし、特定のスタイルを直接引用せずに、代替案を提供したり、形容詞を使用して特定のスタイルの本質を捉えることはできます。 **

乗馬宇宙飛行士のパズルが解けました

OpenAI の社内従業員の中で、Will DePue は DALL·E 3 試験の結果の開示に最も積極的です。

乗馬宇宙飛行士試験では100％成功しなかったとのこと。

GPT-4 と連携して、正しく理解できるまでプロンプトの単語を調整できるため、2 ～ 3 回の試行で正しく理解することができます。

ある程度の努力をすれば、欲しいものはほとんど何でも手に入れることができます。

一部のネチズンはMidJourneyを使用して同じ結果を得ようとしましたが、完全に不可能ではないとしか言えませんが、多大な労力が必要です。

ほぼ不可能であり、多くのヒントエンジニアリングが必要であり、再現するのは困難です。

経験豊富な MidJourney ユーザーであれば、それが機能するかどうかを試してみるとよいでしょう。

ネチズンが提案した「8頭のキリンが水を飲む」チャレンジで、DALL・E 3は正確に数を数えるのが難しいという弱点を再び見せた。

△ 絵の中にキリンが何匹いるかを数えてください

さらに誤った試みもあり、双頭のキリンが生まれました。

AI に正確にカウントさせることは今回の解決にはなりませんが、少なくとも空間関係を理解するという問題は解決します。

ネチズンが提案した「草原を走る 4 頭のシマウマ、後ろを追うライオン、そして頭上のワシ、写真には他の動物はいません」という課題では、空間関係は基本的に正しいですが、追加の条件がありますシマウマ。

比較すると、DALL・E 2 と安定拡散はどちらも空間関係の理解が劣っています。

OpenAI で ChatGPT のエンタープライズ版を担当する Adam Goldberg 氏も、多くの質の高い結果を投稿しましたが、その内容については共有しませんでした。

AI コードの作成とツールの呼び出しを担当する Jerry Tworek は、「機械細胞の分裂」 など、多くの抽象的な概念図を作成しました。

および 「銀河系全体のコンピュータープログラムツリー」。

Microsoft OpenAI が協力

今回のDALL・E 3では大幅な改良が加えられていますが、ChatGPTの統合に加えて、画像生成部分は具体的にどのように行われているのでしょうか？

残念ながら、OpenAI のトレンドがますます近づいていることを考えると、過去 2 世代のような論文は出版されない可能性が高く、寄稿リストからいくつかの推測をすることしかできません。

DALL・E 2 論文には 5 人の著者がいます。

DALL・E 3 に関しては、プロダクト、セキュリティ、広報、法務チームを問わず、リサーチ部分だけで 18 名が参加しました。

その中には、一貫性モデルを提案した清華大学の卒業生、楊松氏もいる。

一貫性モデルは最も一般的な拡散モデルよりも高速で、3.5 秒で 64 256*256 の画像を生成できます。

しかし、今回の Song Yang の研究貢献はわずかであり、DALL・E 3 が一貫性モデルを使用したかどうかは不明であり、改善された拡散モデルに彼の手法を借用した可能性が高いです。

さらに、DALL・E 2 の作者と ChatGPT チームの Ouyang Long に加えて、少なくとも 3 人の研究者が Microsoft から参加しています。

Jianfeng Wang 博士は、中国科学技術大学を卒業し、マイクロソフトの主任研究員を務めています。

Lijuan Wang 博士 は清華大学を卒業し、マイクロソフトでディレクターリサーチマネージャーとして働いています。

二人は無限のキャンバス画像生成であるNUWA-Ininityの研究に参加している。

Lindsey Li (リンゼイリー) は北京工業大学の卒業生です。パデュー大学とカリフォルニア大学サンディエゴ校で 2 つの修士号を取得しています。彼女はマイクロソフトの上級研究員であり、この分野で多くのトップカンファレンス論文を発表しています。マルチモダリティ。

研究に加えて、DALL・E 3 の 推論最適化には Microsoft DeepSpeed チームが深く参加しています。

Deepspeed は、コンピューティングの消費電力とメモリ使用量を削減し、既存のハードウェアでのより優れた並列処理を通じて大規模な分散モデルをトレーニングおよび推論するオープンソースの深層学習最適化ライブラリです。

多くの方が本作に参加できることを嬉しく思い、DALL・E 3のリリースを楽しみにしていました。

最後に、特別寄稿者の中には、Microsoft の Bing CEO、Mikhail Parakhin と Azure Cloud 最高副社長、Misha Bilenko も含まれます。

Microsoft はまた、以前のリリース活動で、Bing が DALL·E 3 を直接統合することを確認しました。

現在のルールによれば、Bing 上の DALL·E 2 は無料です。 99 個のアクセラレーショントークンが発行されますが、トークンがないとキューに時間がかかるだけです。

ただし、DALL・E 3 は 10 月に ChatGPT Plus で月額 20 ドルかかります。

ただし、GPT-4 は Bing で無料で提供されているため、将来的にはDALL・E 3 の無料プレイが増えることにも期待できます~

参考リンク:

[1]

[2]

[3]

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
共有

0/400

コメントなし

トピック
1/3
1Simple Earn Annual Rate 24.4%
34k 人気度
2Gate Launchpad List IKA
37k 人気度
3ETH Trading Volume Surges
36k 人気度
4Gate ETH 10th Anniversary Celebration
22k 人気度
5Trump’s AI Strategy
18k 人気度

ピン

サイトマップ