This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
無修正で「クレイジー」: OpenAI の秘密の画像ジェネレーターの内部を見る
この未リリースの生成イメージング ツールはヌードやゴア表現を躊躇せず、MidJourney の注目を集めました。
AIで作った画像
OpenAIは過去数カ月間、自社の生成人工知能(AI)イメージングモデルの新バージョンを非公開でテストしており、YouTubeユーザーMattVidProによって流出した初期のサンプルでは、このモデルが以前の画像ジェネレーターを上回るパフォーマンスを示していることが示されている。
マットはYouTubeに投稿されたプレビューで「非常にエキサイティングだ。これまでに見たものを圧倒する、クレイジーだ。ミッドジャーニーはこのレベルでは太刀打ちできない。ミッドジャーニー第6版がこのレベルで太刀打ちできるとも思えない」と語った。レベル。"
ただし、すぐに試してみようとは思わないでください。アクセスは非常に制限されています。
未リリースのモデルはおそらく DALL-E 2 のアップグレード バージョンであり、ChatGPT-4 内の招待されたプレビューを通じてテストされています。 Matt 氏によると、この新しい OpenAI 画像ジェネレーターにアクセスできるのは世界中で約 400 人だけです。
画像サンプルは限られていますが、人工知能の高度なスキルが実証されています。実際の写真の照明や反射を模倣することで鮮明な画像を生成し、モデルは目に見える筆運びに至るまで絵画的な細部を再現します。また、生成された製品上で「Snickers」などのブランド名や Subway などの有名ブランドのロゴも完全に再現され、レンダリングされたテキストではかなり正確なスペルが得られます。
OpenAI の text-to-image によって生成された画像の例。出典: マット・ヴィッドプロ
現在の画像ジェネレーターは一貫性のある手を実現するのに苦労していますが、これらの例は、競合する AI システムよりも説得力のある背景を備えた、現実的で適切な比率の手を示しています。
OpenAI は、モデルの可能性を最大限にテストするために安全フィルターを削除したようです。ユーザーらは、暴力やヌードを躊躇なく表現していると述べている。ただし、NSFW コンテンツに対する OpenAI のスタンスを考慮すると、そのような標準に従って正式な公開バージョンがリリースされる可能性は非常に低いです。
Matt 氏は、「これは OpenAI なので、リリース前にすべてのものと同じように、彼らがそれをシャットダウンするのは間違いありません。」と述べました。
一部の専門家は、OpenAIが潜在的な論争を避けるためにモデルを「単純化」していると批判している。一部の研究では、OpenAI でトレーニングされた ChatGPT の出力には強い政治的バイアスが含まれていることさえ示されています。
それでも、サンプルで示された一貫した品質は飛躍的な進歩であり、生成 AI の機能を向上させるための OpenAI の継続的な取り組みを強調しています。同社は今年後半に、特に画像認識と生成の分野がそのスター製品である単一のプロンプトでテキスト、画像、下書きを理解できるマルチモーダル GPT の堅牢性に貢献する場合、さらに多くの進歩を明らかにする可能性があります。
今のところ、このテクノロジーはまだ非常に少数のユーザーによるクローズドベータ版に限定されています。
モデルが改良され続けるにつれて、人工物と本物の間の境界線はますます曖昧になっていきます。これは多くの人を興奮させますが、悪用に対する懸念は今後も続くでしょうし、責任を持ってこのテクノロジーを構築することは依然として差し迫った課題です。