لفترة طويلة، جلست Midjourney بثبات على عرش مخطط AIGC Vincent، مع القليل من التهديدات حتى ظهور هذه الشركة.
في 23 أغسطس، أعلنت شركة Ideogram AI، وهي شركة ناشئة في مجال الذكاء الاصطناعي، رسميًا: "نحن نعمل على تطوير أدوات الذكاء الاصطناعي الأكثر تقدمًا لجعل التعبير الإبداعي أسهل وأكثر متعة وأكثر كفاءة".
الأعضاء الأساسيون في الفريق هم أيضًا الأعضاء الرئيسيون في فريق Google Brain Imagen، ويعتبر Ideogram AI أيضًا أنه يحاول المضي قدمًا في Imagen:
محمد نوروزي (الرئيس التنفيذي)، وجوناثان هو (المؤسس المشارك)، وويليام تشان، وتشيتوان ساهاريا هم جميعهم مؤلفون أساسيون لنموذج Imagen للذكاء الاصطناعي لتحويل النص إلى صورة من Google، وقد تم إدراج الأوراق البحثية ذات الصلة في القائمة المختصرة لورقة NeurIPS 2022 المتميزة.
يستخدم Imagen نموذج لغة المحول لتحويل نص الإدخال إلى سلسلة من المتجهات المضمنة. بعد ذلك، ستقوم سلسلة من ثلاثة نماذج نشر (نموذج الانتشار) بتحويل هذه المتجهات المضمنة إلى صور بحجم 1024 × 1024 بكسل.
نظرًا لأنه بسيط من الناحية المفاهيمية وسهل التدريب، ويمكنه أيضًا إنتاج تأثيرات قوية بشكل مدهش، فإن Imagen لا يعيد تشكيل فهم الجميع لنماذج الانتشار فحسب، بل يفتح أيضًا نموذجًا جديدًا للرسوم البيانية فينسنت يتجاوز DALL-E 2.
لاحقًا، بعد أن أعلنت Meta عن نموذج الفيديو النصي AI Make-A-Video، أصدرت Google نموذج الفيديو Imagen Video (انظر، الأسماء متشابهة)، والذي يعتمد على نموذج نشر الفيديو المتتالي لإنشاء مقاطع فيديو عالية الوضوح.
يرث برنامج Imagen Video وظيفة تصوير النص بدقة من نظام الصور السابق لتوليد النصوص من Imagen، وبناءً على ذلك، يمكنه إنشاء رسوم متحركة إبداعية متنوعة فقط عن طريق الوصف البسيط.
يظهر أعضاء الفريق الحاليون على الموقع الرسمي.
"لقد قاد فريقنا المؤسس مشاريع الذكاء الاصطناعي التحويلية في Google Brain، وجامعة كاليفورنيا في بيركلي، وجامعة كارنيجي ميلون، وجامعة تورنتو." ويظهر الموقع الرسمي.
عمل محمد نوروزي في Google Brain لمدة 7 سنوات قبل أن يبدأ مشروعه الخاص، وكان المستوى الأخير في Google عالم أبحاث كبير، مع التركيز على النماذج التوليدية. يتمتع Ideogram AI بأكبر مجموعة من الأعمال التأسيسية في مجال الذكاء الاصطناعي، بما في ذلك Imagen وImagen Video وWaveGrad لتركيب الكلام والترجمة الآلية العصبية وتعلم التمثيلات المرئية والدراسة التقابلية وما إلى ذلك. أعضاء الفريق التعاوني هم أيضًا الأكثر.
لقد قام المؤسس المشارك جوناثان هو، الحاصل على درجة الدكتوراه من جامعة كاليفورنيا في بيركلي، بالكثير من العمل المهم في نموذج الانتشار لدرجة أن المطلعين على الصناعة اعتبروا رحيله بمثابة خسارة كبيرة لجوجل.
في أبريل 2022، اقترحت جوجل نماذج نشر الفيديو (Video Diffusion Models)، وأبلغت لأول مرة عن نتائج نموذج الانتشار الذي يولد مقاطع فيديو من النص (بنتائج جيدة). محمد نوروزي وجوناثان هو المؤلفان الرئيسيان للمقال.
يعد جوناثان هو أيضًا أحد مؤسسي نموذج الانتشار، واقترح نموذج انتشار تقليل الضوضاء، والنماذج الاحتمالية للانتشار. (ومن المثير للاهتمام أن أحد المؤلفين المشاركين بيتر أبيل هو أيضًا مستثمر في هذه الشركة).
قاد شيتوان ساهاريا العمل على نماذج نشر الصور من صورة إلى صورة في Google. بالإضافة إلى عمله في نماذج الانتشار، عمل ويليان تشان على التعرف على الكلام العصبي أثناء عمله في Google، حيث عمل مع محمد نوروزي على WaveGrad لتركيب الكلام.
وربما بسبب مخاوف جوجل بشأن السلامة والأخلاق، يتعين عليها أن تضع المزيد من القواعد التنظيمية لاختيار ما إذا كانت ستفتح مصدري Imagen وImagen Video أم لا. وقد قررت هاتان الشركتان ترك العمل.
"نحن ندفع حدود الذكاء الاصطناعي، مع التركيز على الإبداع ومعايير عالية من الثقة والأمان." واختتم الإعلان الرسمي.
لقطة شاشة للموقع الرسمي
وفي اليوم نفسه، أعلنت الشركة أيضًا أنها جمعت إجمالي 16.5 مليون دولار أمريكي من التمويل الأولي بقيادة a16z وIndex Ventures. كما شاركت العديد من الركائز الأساسية للصناعة المعروفة في هذه الجولة من الاستثمار.
على سبيل المثال، رايان دال، والد Node.js، وراكيل أورتاسون، كبير العلماء في أوبر، وجيف دين، وأندريه كارباثي، وبيتر أبيل، وتوم بريستون-ويرنر، مؤسس GitHub.
وفي الوقت نفسه، أعلنت الشركة أيضًا عن إطلاق الإصدار التجريبي العام من الإصدار v0.1. لقد جربناها أيضًا ببساطة. في الوقت الحاضر، يتم توفير خدمة إنشاء الصور من النص فقط، العملية بسيطة للغاية، فقط أدخل متطلباتك، ثم حدد نمط ونسبة الصورة التي تم إنشاؤها.
القدرة على فهم النظام لا تزال جيدة، وخاصة فهم النص الذي يجب توليده في الصورة. العيب هو أن سرعة الاستجابة بطيئة نسبيًا، ولا يمكن فهم التعليمات الصينية، ويحتاج الفهم المكاني للتكوين إلى تحسين.
صفحة العملية
"بونيو يغوص في الحليب مع الدرفين"، يبدو أن الذكاء الاصطناعي غير قادر على فهم "الحليب" في الأمر، لكنه أعطى الصورة حسب فهمه الخاص (البحر).
قمنا بتغيير الإدخال: "إيلون ماسك يمسك بيد ليزا (بلاك بينك) في سيارة تيسلا، (سينمائية)"
صحيح في الأساس. الأمر فقط أن كلاهما لديه مشكلة في وجوههما، هذه ليزا؟
اسمح لـ " ماسك " بالسفر وتجربة أسلوب هانفو، والنتيجة هي حقًا بطل إلى حد ما.
「صورة إيلون ماسك بشعره الطويل بالملابس الصينية التقليدية」
"صورة جيني من بلاك بينك ولكنها سمينة جدًا." نعم، تبدو هكذا بعد زيادة الوزن.
دعونا نلقي نظرة على نتائج بعض مستخدمي تويتر. حتى إذا كانت هناك حاجة إلى إنشاء بعض النص في الصورة التي تم إنشاؤها، فيمكن للنظام القيام بذلك.
على سبيل المثال، 「عميل رائع يحمل لافتة مكتوب عليها 『لقد انتهى الأمر، MidJourney』، مكتوبة بدقة، عرض ثلاثي الأبعاد، طباعة」
قال أصدقاء تويتر إنه على الرغم من أن النظام لم يكن قادرًا دائمًا على التهجئة بشكل صحيح، إلا أن معدل النجاح كان جيدًا.
「بيكاتشو لطيف ورقيق يقف على قمر كبير ورقيق، ويحمل لافتة نيون تقول 『إلى القمر』، عرض ثلاثي الأبعاد」
ومن بين الأفلام التي صدرت مؤخرا، حظي كل من "باربي" و"أوبنهايمر" بمزيد من الاهتمام، حيث طلب مستخدمو تويتر إنشاء تصميم ملصق لفيلم حول "باربنهايمر (باربنهايمر)"، في إشارة إلى باربي والأسلحة النووية في الأسلوب. التأثير على النحو التالي.
على الرغم من احتمال ظهور معلومات الفيلم بعد الموعد النهائي للتدريب، إلا أن النظام لا يزال يتعامل مع هذه الكلمة المركبة بشكل جيد. وأيضا المشكلة القديمة وجوه الشخصيات ليست جيدة بما فيه الكفاية.
「كلمة 『سريالية』 مكتوبة ومقدمة في لوحة سريالية على طراز دالي، الطباعة」
「رجل ثلج يذوب في بركان」
「Word 『NVIDIA』 تم تقديمه في طباعة دائرة رقاقة GPU، سايبربانك، خيال علمي」
「فتاة جميلة في لوحة دالي، مع تسمية توضيحية 『ستانفورد』، الطباعة」
قطة دوول أنيقة ترتدي نظارة شمسية من Gucci وتحمل لافتة مكتوب عليها Happy Sunday، خلفية سوداء، وملصق
هناك 4 كائنات في المشهد. يوجد هرم أحمر فوق مكعب أزرق. توجد كرة صفراء أسفل المكعب الأزرق. ويوجد على يسار الهرم شكل سداسي من الرخام، وفي أعلاه المكعب الأزرق.
يبدو أن الفهم الحالي للنظام للتركيب والفضاء ليس في مكانه الصحيح.
عرض العمل على الصفحات الرئيسية الأخرى.
رابط صالح للأكل:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 2
أعجبني
2
1
مشاركة
تعليق
0/400
GateUser-bcf7bb63
· 2023-12-19 01:44
كيفية تسجيل هذا ، رأيت أنه لا توجد رموز ، هل تحتاج إلى التسجيل للحصول على نقاط؟
لقد بشرت "ميدجورني" بأقوى خصم، وتجمع عمالقة التمويل الأولي، وسمحت النسخة التجريبية لـ " ماسك " بالمرور "بمفتاح" واحد.
** المصدر: ** قوة الآلة
في 23 أغسطس، أعلنت شركة Ideogram AI، وهي شركة ناشئة في مجال الذكاء الاصطناعي، رسميًا: "نحن نعمل على تطوير أدوات الذكاء الاصطناعي الأكثر تقدمًا لجعل التعبير الإبداعي أسهل وأكثر متعة وأكثر كفاءة".
الأعضاء الأساسيون في الفريق هم أيضًا الأعضاء الرئيسيون في فريق Google Brain Imagen، ويعتبر Ideogram AI أيضًا أنه يحاول المضي قدمًا في Imagen:
محمد نوروزي (الرئيس التنفيذي)، وجوناثان هو (المؤسس المشارك)، وويليام تشان، وتشيتوان ساهاريا هم جميعهم مؤلفون أساسيون لنموذج Imagen للذكاء الاصطناعي لتحويل النص إلى صورة من Google، وقد تم إدراج الأوراق البحثية ذات الصلة في القائمة المختصرة لورقة NeurIPS 2022 المتميزة.
يستخدم Imagen نموذج لغة المحول لتحويل نص الإدخال إلى سلسلة من المتجهات المضمنة. بعد ذلك، ستقوم سلسلة من ثلاثة نماذج نشر (نموذج الانتشار) بتحويل هذه المتجهات المضمنة إلى صور بحجم 1024 × 1024 بكسل.
نظرًا لأنه بسيط من الناحية المفاهيمية وسهل التدريب، ويمكنه أيضًا إنتاج تأثيرات قوية بشكل مدهش، فإن Imagen لا يعيد تشكيل فهم الجميع لنماذج الانتشار فحسب، بل يفتح أيضًا نموذجًا جديدًا للرسوم البيانية فينسنت يتجاوز DALL-E 2.
لاحقًا، بعد أن أعلنت Meta عن نموذج الفيديو النصي AI Make-A-Video، أصدرت Google نموذج الفيديو Imagen Video (انظر، الأسماء متشابهة)، والذي يعتمد على نموذج نشر الفيديو المتتالي لإنشاء مقاطع فيديو عالية الوضوح.
يرث برنامج Imagen Video وظيفة تصوير النص بدقة من نظام الصور السابق لتوليد النصوص من Imagen، وبناءً على ذلك، يمكنه إنشاء رسوم متحركة إبداعية متنوعة فقط عن طريق الوصف البسيط.
"لقد قاد فريقنا المؤسس مشاريع الذكاء الاصطناعي التحويلية في Google Brain، وجامعة كاليفورنيا في بيركلي، وجامعة كارنيجي ميلون، وجامعة تورنتو." ويظهر الموقع الرسمي.
عمل محمد نوروزي في Google Brain لمدة 7 سنوات قبل أن يبدأ مشروعه الخاص، وكان المستوى الأخير في Google عالم أبحاث كبير، مع التركيز على النماذج التوليدية. يتمتع Ideogram AI بأكبر مجموعة من الأعمال التأسيسية في مجال الذكاء الاصطناعي، بما في ذلك Imagen وImagen Video وWaveGrad لتركيب الكلام والترجمة الآلية العصبية وتعلم التمثيلات المرئية والدراسة التقابلية وما إلى ذلك. أعضاء الفريق التعاوني هم أيضًا الأكثر.
لقد قام المؤسس المشارك جوناثان هو، الحاصل على درجة الدكتوراه من جامعة كاليفورنيا في بيركلي، بالكثير من العمل المهم في نموذج الانتشار لدرجة أن المطلعين على الصناعة اعتبروا رحيله بمثابة خسارة كبيرة لجوجل.
يعد جوناثان هو أيضًا أحد مؤسسي نموذج الانتشار، واقترح نموذج انتشار تقليل الضوضاء، والنماذج الاحتمالية للانتشار. (ومن المثير للاهتمام أن أحد المؤلفين المشاركين بيتر أبيل هو أيضًا مستثمر في هذه الشركة).
قاد شيتوان ساهاريا العمل على نماذج نشر الصور من صورة إلى صورة في Google. بالإضافة إلى عمله في نماذج الانتشار، عمل ويليان تشان على التعرف على الكلام العصبي أثناء عمله في Google، حيث عمل مع محمد نوروزي على WaveGrad لتركيب الكلام.
وربما بسبب مخاوف جوجل بشأن السلامة والأخلاق، يتعين عليها أن تضع المزيد من القواعد التنظيمية لاختيار ما إذا كانت ستفتح مصدري Imagen وImagen Video أم لا. وقد قررت هاتان الشركتان ترك العمل.
"نحن ندفع حدود الذكاء الاصطناعي، مع التركيز على الإبداع ومعايير عالية من الثقة والأمان." واختتم الإعلان الرسمي.
وفي اليوم نفسه، أعلنت الشركة أيضًا أنها جمعت إجمالي 16.5 مليون دولار أمريكي من التمويل الأولي بقيادة a16z وIndex Ventures. كما شاركت العديد من الركائز الأساسية للصناعة المعروفة في هذه الجولة من الاستثمار.
على سبيل المثال، رايان دال، والد Node.js، وراكيل أورتاسون، كبير العلماء في أوبر، وجيف دين، وأندريه كارباثي، وبيتر أبيل، وتوم بريستون-ويرنر، مؤسس GitHub.
وفي الوقت نفسه، أعلنت الشركة أيضًا عن إطلاق الإصدار التجريبي العام من الإصدار v0.1. لقد جربناها أيضًا ببساطة. في الوقت الحاضر، يتم توفير خدمة إنشاء الصور من النص فقط، العملية بسيطة للغاية، فقط أدخل متطلباتك، ثم حدد نمط ونسبة الصورة التي تم إنشاؤها.
القدرة على فهم النظام لا تزال جيدة، وخاصة فهم النص الذي يجب توليده في الصورة. العيب هو أن سرعة الاستجابة بطيئة نسبيًا، ولا يمكن فهم التعليمات الصينية، ويحتاج الفهم المكاني للتكوين إلى تحسين.
"بونيو يغوص في الحليب مع الدرفين"، يبدو أن الذكاء الاصطناعي غير قادر على فهم "الحليب" في الأمر، لكنه أعطى الصورة حسب فهمه الخاص (البحر).
صحيح في الأساس. الأمر فقط أن كلاهما لديه مشكلة في وجوههما، هذه ليزا؟
「صورة إيلون ماسك بشعره الطويل بالملابس الصينية التقليدية」
على سبيل المثال، 「عميل رائع يحمل لافتة مكتوب عليها 『لقد انتهى الأمر، MidJourney』، مكتوبة بدقة، عرض ثلاثي الأبعاد، طباعة」
قال أصدقاء تويتر إنه على الرغم من أن النظام لم يكن قادرًا دائمًا على التهجئة بشكل صحيح، إلا أن معدل النجاح كان جيدًا.
على الرغم من احتمال ظهور معلومات الفيلم بعد الموعد النهائي للتدريب، إلا أن النظام لا يزال يتعامل مع هذه الكلمة المركبة بشكل جيد. وأيضا المشكلة القديمة وجوه الشخصيات ليست جيدة بما فيه الكفاية.
يبدو أن الفهم الحالي للنظام للتركيب والفضاء ليس في مكانه الصحيح.