مع استمرار الارتفاع في تطوير النماذج الكبيرة للذكاء الاصطناعي وتطبيقها ، لاحظ المراسل أن اللاعبين على المسار بدأوا في تحويل تركيزهم من نماذج اللغات الكبيرة إلى النماذج المرئية الكبيرة. في الآونة الأخيرة ، قامت Adobe و Meta و 360 و Meitu والعديد من شركات الإنترنت الكبرى الأخرى في الداخل والخارج بنشر نتائج نماذج على نطاق واسع ، مما زاد من حدة سوق الذكاء الاصطناعي شديد الحرارة بالفعل.
"إن تطبيق الذكاء الاصطناعي في مجال الفيديو يحظى باهتمام متزايد." وقال وو غاوبين ، نائب رئيس لجنة تكامل التصنيع والتصنيع برابطة صناعة الاتصالات الصينية ، لمراسل "تشاينا تايمز" إن إطلاق هذه الأجهزة الكبيرة - جلبت نماذج الذكاء الاصطناعي ذات الحجم الكبير منافسة جديدة للمؤسسات. ستعمل المنافسة بين الشركات على تعزيز الابتكار التكنولوجي والتقدم ، كما ستجلب منتجات وخدمات أفضل. ستعمل المنافسة أيضًا على تعزيز التعاون وتقاسم الموارد بين الشركات ، من أجل تلبية طلب السوق بشكل أفضل.
** نموذج مرئي واسع النطاق في الداخل والخارج "Fairy Fighting" **
بعد ظهور صفوف متتالية من النماذج اللغوية واسعة النطاق والنماذج واسعة النطاق متعددة الوسائط ، أصبحت "النماذج المرئية واسعة النطاق" ساحة معركة أخرى للاستراتيجيين العسكريين. قبل أيام قليلة ، أصدرت Meitu MiracleVision ، وهو نموذج رؤية AI واسع النطاق ، إلى جانب 7 منتجات بما في ذلك أداة إنشاء رؤية AI WHEE ، وأداة إنشاء الإنسان الرقمية AI DreamAvatar ، ومساعد Meitu AI RoboNeo.
وفقًا للتقارير ، تتمتع MiracleVision بتعبير وإبداع بصري قويين ، ويمكنها عكس التطور التكنولوجي من مشاهد الإبداع المرئي مثل الرسم والتصميم والأفلام والتلفزيون والتصوير الفوتوغرافي والألعاب والألعاب ثلاثية الأبعاد والرسوم المتحركة. تختلف عن الموديلات الكبيرة الأخرى الموجودة في السوق ، فهي جيدة بشكل خاص في إنشاء اتجاهات مثل التصوير الفوتوغرافي الآسيوي والأسلوب والأزياء الوطنيين والتصميم التجاري.
قال Wu Xinhong ، المؤسس والرئيس والمدير التنفيذي لشركة Meitu ، في مقابلة مع مراسل من صحيفة China Times: "الميزة الأساسية لنموذج Meitu الكبير هو فهم الجماليات. قاعدة المستخدمين C-end كبيرة بما يكفي. تكلفة اكتساب العملاء منخفض.يضم Meitu حاليًا 243 مليون مستخدم نشط شهريًا و 7.19 مليون عضو VIP عالمي ، يمكنهم التحقق من نجاح المنتج في وقت قصير. على عكس الشركات المصنعة الأخرى ، يركز نموذج Meitu الكبير على الجماليات (رسم الشاشة تصميم الجودة ، إلخ. .) ، في المستقبل ، إذا كان علينا التنافس ، فسنقوم "بالتدحرج" على الجماليات. "
من قبيل الصدفة ، أصدرت 360 رسميًا أيضًا "360 Smart Brain-Vision Large Model" منذ بضعة أيام. قال Zhou Hongyi ، مؤسس 360 ، إن نموذج اللغة الكبير هو الأساس لبناء نموذج مرئي كبير ، وأن جوهر تعزيز القدرة متعددة الوسائط هو قدرات الإدراك والاستدلال واتخاذ القرار لنموذج اللغة الكبير. في الوقت نفسه ، يعد النموذج المرئي الكبير أيضًا مكونًا هامًا من مكونات "360 Smart Brain" ، والتي يمكنها فهم الصور ومقاطع الفيديو والأصوات في المستقبل.
بدأت الشركات الخارجية أيضًا في وضع نماذج مرئية. قبل أيام قليلة ، أعلنت شركة Meta العملاقة لوسائل التواصل الاجتماعي أنها ستفتح للباحثين بعض مكونات نموذج الذكاء الاصطناعي "البشري" المسمى I-JEPA ، والذي يمكنه تحليل واستكمال الصور غير المكتملة بشكل أكثر دقة من النماذج الحالية ، بينما بدلاً من مجرد صنع الاستدلالات القائمة على وحدات البكسل القريبة مثل نماذج الذكاء الاصطناعي التوليدية الأخرى.
أشار Yang Likun ، كبير علماء الذكاء الاصطناعي في Meta ، إلى أن نموذج الانحدار الذاتي GPT يفتقر إلى القدرة على التخطيط والاستدلال ، وقد يتم التخلي عن نظام GPT المستقبلي ، وقدم ما يعتقد أنه الإجابة الصحيحة - العالم نموذج. يقال إن I-JEPA هو أول نموذج للذكاء الاصطناعي يعتمد على المكونات الرئيسية لرؤيته لتحليل واستكمال الصور غير المكتملة بشكل أكثر دقة من النماذج الحالية.
بالإضافة إلى ذلك ، أصدرت Meta أيضًا نموذج AI لتوليد الكلام "Voicebox" ، والذي يدعم إنشاء الكلام من النص ، ويمكنه مطابقة أنماط الصوت بناءً على عينات لا يتجاوز طولها ثانيتين ، وتحويل عينات النص إلى لغة أخرى. في حالة الفرد عينات الصوت ، والقدرة على قراءة محتوى النص المترجم بصوت المتحدث الأصلي ، ست لغات مدعومة حاليًا: الإنجليزية والفرنسية والألمانية والإسبانية والبولندية والبرتغالية.
في وقت مبكر من أبريل من هذا العام ، قامت Adobe بدمج وظيفة Adobe Firefly (منتجات تشبه ChatGPT) في مصفوفة منتجات الصوت والفيديو مثل Premiere Pro و After Effects و Audition و Remix وما إلى ذلك ، مما يوفر للمستخدمين إنشاء محتوى بنقرة واحدة والتحرير ومطابقة الألوان وتغيير الموسيقى وغيرها من الوظائف.
** من "نموذج اللغة" إلى "نموذج الرؤية" **
يُظهر "تقرير أبحاث خرائط النموذج واسع النطاق للذكاء الاصطناعي الصيني" أنه من حيث عدد وتوزيع النماذج واسعة النطاق التي تم إصدارها عالميًا ، فإن الصين والولايات المتحدة تتصدران بهامش كبير ، حيث تمثلان أكثر من 80٪ من العالم. المجموع. في الوقت نفسه ، المزيد والمزيد من فرق البحث والتطوير في أوروبا وروسيا وإسرائيل وغيرها تستثمر أيضًا في تطوير نماذج كبيرة. لكن الجدير بالذكر أنه لا يزال هناك القليل من النماذج الكبيرة في مجالات الرؤية الحاسوبية وغيرها من المجالات في بلدي.
عند التحقيق في السبب ، قال يان شويتشنغ ، كبير العلماء الزائرين في معهد بكين تشيوان للأبحاث ، لمراسل "تشاينا تايمز": "السبب الرئيسي وراء تأخر تطوير النماذج المرئية قليلاً هو أن النماذج المرئية الكبيرة تستهلك قدرًا أكبر من القوة الحاسوبية من النص ، لذلك نتطلع أيضًا إلى تطوير أسرع للرقائق ، ومن الممكن أيضًا دمج شرائح أخرى غير GPU معًا. النماذج التي تراها الآن هي عمومًا على مستوى كيلوكال ، ولكن قد يستخدم بعض الأشخاص مستوى بطاقة 10000 لجعلها العام المقبل ".
وفقًا لهوانغ تيجون ، رئيس معهد بكين تشيوان لأبحاث الذكاء الاصطناعي ، فإن المجال البصري هو محور الموجة التالية في مجال النماذج الكبيرة. وأشار إلى أن طرق التفكير والمسارات الأساسية وراء النموذج البصري الكبير ونموذج اللغة الكبير هي نفسها ، لكن البيانات المدخلة أصبحت صورًا وفيديوهات ، والنموذج المدرب لديه قدرة لغة بصرية عامة معينة ، أحدها هو الفرضية يمكن لـ AIGC (المحتوى الذي يتم إنشاؤه تلقائيًا بواسطة الذكاء الاصطناعي) إنشاء صور وأعمال فنية. "هناك أيضًا قدرة أساسية أكثر ، أي بعد رؤية العالم ، يجب أولاً أن تكون قادرًا على تمييز العالم (كل شيء)."
لتطوير نماذج بصرية واسعة النطاق ، أعربت العديد من المنظمات أيضًا عن مواقف متفائلة. وفقًا لتقرير البحث الصادر عن CICC Research ، من المتوقع أن تحقق رؤية الكمبيوتر درجة أعلى من الأتمتة والدقة العالية واستهلاك منخفض للطاقة في المستقبل ، مما يزيد من إثراء بيئة محتوى Metaverse وتقليل الحواجز أمام الدخول. أدى تقدم رؤية الكمبيوتر إلى النضج السريع لتقنية إعادة الإعمار ثلاثية الأبعاد والتقاط الحركة ، والتقدم التكنولوجي المتراكم تدريجياً في مجالات تخصصهم. في المستقبل ، من المتوقع أن تؤدي رؤية الكمبيوتر إلى درجة أعلى من الأتمتة ، ودقة أعلى ، واستهلاك أقل للطاقة. وستحقق تدريجياً تأثيرات بصرية أفضل على المحطة الطرفية المتنقلة ، وسيتم تطبيقها في عدد كبير من الصناعات النهائية ، وتتحرك تدريجياً نحو ربط العالم المادي والعالم الرقمي رؤية طويلة المدى للعالم.
ذكرت CITIC Securities Research أيضًا أنه في مجال التصميم ، تقود النماذج الكبيرة التصميم الرقمي إلى التصميم الذكي ، ويمكن تطبيق برامج التصميم الصناعي ذات الصلة جنبًا إلى جنب مع GPT وغيرها من التقنيات على سيناريوهات مثل تخطيط التصميم وتحسين التخطيط ومساعدي المكونات الإضافية ، في ظل الاتجاه العام لترقية الذكاء الاصطناعي ، بدأت جولة جديدة من ثورة الإنتاجية.
شاهد النسخة الأصلية
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
هل تغير اتجاه "حرب المائة موديل" للذكاء الاصطناعي؟ 360 ، أطلقت Meitu حركات متتالية ، ونفذ النموذج المرئي واسع النطاق "معركة خرافية"
المصدر الأصلي: تشاينا تايمز
مع استمرار الارتفاع في تطوير النماذج الكبيرة للذكاء الاصطناعي وتطبيقها ، لاحظ المراسل أن اللاعبين على المسار بدأوا في تحويل تركيزهم من نماذج اللغات الكبيرة إلى النماذج المرئية الكبيرة. في الآونة الأخيرة ، قامت Adobe و Meta و 360 و Meitu والعديد من شركات الإنترنت الكبرى الأخرى في الداخل والخارج بنشر نتائج نماذج على نطاق واسع ، مما زاد من حدة سوق الذكاء الاصطناعي شديد الحرارة بالفعل.
"إن تطبيق الذكاء الاصطناعي في مجال الفيديو يحظى باهتمام متزايد." وقال وو غاوبين ، نائب رئيس لجنة تكامل التصنيع والتصنيع برابطة صناعة الاتصالات الصينية ، لمراسل "تشاينا تايمز" إن إطلاق هذه الأجهزة الكبيرة - جلبت نماذج الذكاء الاصطناعي ذات الحجم الكبير منافسة جديدة للمؤسسات. ستعمل المنافسة بين الشركات على تعزيز الابتكار التكنولوجي والتقدم ، كما ستجلب منتجات وخدمات أفضل. ستعمل المنافسة أيضًا على تعزيز التعاون وتقاسم الموارد بين الشركات ، من أجل تلبية طلب السوق بشكل أفضل.
** نموذج مرئي واسع النطاق في الداخل والخارج "Fairy Fighting" **
بعد ظهور صفوف متتالية من النماذج اللغوية واسعة النطاق والنماذج واسعة النطاق متعددة الوسائط ، أصبحت "النماذج المرئية واسعة النطاق" ساحة معركة أخرى للاستراتيجيين العسكريين. قبل أيام قليلة ، أصدرت Meitu MiracleVision ، وهو نموذج رؤية AI واسع النطاق ، إلى جانب 7 منتجات بما في ذلك أداة إنشاء رؤية AI WHEE ، وأداة إنشاء الإنسان الرقمية AI DreamAvatar ، ومساعد Meitu AI RoboNeo.
وفقًا للتقارير ، تتمتع MiracleVision بتعبير وإبداع بصري قويين ، ويمكنها عكس التطور التكنولوجي من مشاهد الإبداع المرئي مثل الرسم والتصميم والأفلام والتلفزيون والتصوير الفوتوغرافي والألعاب والألعاب ثلاثية الأبعاد والرسوم المتحركة. تختلف عن الموديلات الكبيرة الأخرى الموجودة في السوق ، فهي جيدة بشكل خاص في إنشاء اتجاهات مثل التصوير الفوتوغرافي الآسيوي والأسلوب والأزياء الوطنيين والتصميم التجاري.
قال Wu Xinhong ، المؤسس والرئيس والمدير التنفيذي لشركة Meitu ، في مقابلة مع مراسل من صحيفة China Times: "الميزة الأساسية لنموذج Meitu الكبير هو فهم الجماليات. قاعدة المستخدمين C-end كبيرة بما يكفي. تكلفة اكتساب العملاء منخفض.يضم Meitu حاليًا 243 مليون مستخدم نشط شهريًا و 7.19 مليون عضو VIP عالمي ، يمكنهم التحقق من نجاح المنتج في وقت قصير. على عكس الشركات المصنعة الأخرى ، يركز نموذج Meitu الكبير على الجماليات (رسم الشاشة تصميم الجودة ، إلخ. .) ، في المستقبل ، إذا كان علينا التنافس ، فسنقوم "بالتدحرج" على الجماليات. "
من قبيل الصدفة ، أصدرت 360 رسميًا أيضًا "360 Smart Brain-Vision Large Model" منذ بضعة أيام. قال Zhou Hongyi ، مؤسس 360 ، إن نموذج اللغة الكبير هو الأساس لبناء نموذج مرئي كبير ، وأن جوهر تعزيز القدرة متعددة الوسائط هو قدرات الإدراك والاستدلال واتخاذ القرار لنموذج اللغة الكبير. في الوقت نفسه ، يعد النموذج المرئي الكبير أيضًا مكونًا هامًا من مكونات "360 Smart Brain" ، والتي يمكنها فهم الصور ومقاطع الفيديو والأصوات في المستقبل.
بدأت الشركات الخارجية أيضًا في وضع نماذج مرئية. قبل أيام قليلة ، أعلنت شركة Meta العملاقة لوسائل التواصل الاجتماعي أنها ستفتح للباحثين بعض مكونات نموذج الذكاء الاصطناعي "البشري" المسمى I-JEPA ، والذي يمكنه تحليل واستكمال الصور غير المكتملة بشكل أكثر دقة من النماذج الحالية ، بينما بدلاً من مجرد صنع الاستدلالات القائمة على وحدات البكسل القريبة مثل نماذج الذكاء الاصطناعي التوليدية الأخرى.
أشار Yang Likun ، كبير علماء الذكاء الاصطناعي في Meta ، إلى أن نموذج الانحدار الذاتي GPT يفتقر إلى القدرة على التخطيط والاستدلال ، وقد يتم التخلي عن نظام GPT المستقبلي ، وقدم ما يعتقد أنه الإجابة الصحيحة - العالم نموذج. يقال إن I-JEPA هو أول نموذج للذكاء الاصطناعي يعتمد على المكونات الرئيسية لرؤيته لتحليل واستكمال الصور غير المكتملة بشكل أكثر دقة من النماذج الحالية.
بالإضافة إلى ذلك ، أصدرت Meta أيضًا نموذج AI لتوليد الكلام "Voicebox" ، والذي يدعم إنشاء الكلام من النص ، ويمكنه مطابقة أنماط الصوت بناءً على عينات لا يتجاوز طولها ثانيتين ، وتحويل عينات النص إلى لغة أخرى. في حالة الفرد عينات الصوت ، والقدرة على قراءة محتوى النص المترجم بصوت المتحدث الأصلي ، ست لغات مدعومة حاليًا: الإنجليزية والفرنسية والألمانية والإسبانية والبولندية والبرتغالية.
في وقت مبكر من أبريل من هذا العام ، قامت Adobe بدمج وظيفة Adobe Firefly (منتجات تشبه ChatGPT) في مصفوفة منتجات الصوت والفيديو مثل Premiere Pro و After Effects و Audition و Remix وما إلى ذلك ، مما يوفر للمستخدمين إنشاء محتوى بنقرة واحدة والتحرير ومطابقة الألوان وتغيير الموسيقى وغيرها من الوظائف.
** من "نموذج اللغة" إلى "نموذج الرؤية" **
يُظهر "تقرير أبحاث خرائط النموذج واسع النطاق للذكاء الاصطناعي الصيني" أنه من حيث عدد وتوزيع النماذج واسعة النطاق التي تم إصدارها عالميًا ، فإن الصين والولايات المتحدة تتصدران بهامش كبير ، حيث تمثلان أكثر من 80٪ من العالم. المجموع. في الوقت نفسه ، المزيد والمزيد من فرق البحث والتطوير في أوروبا وروسيا وإسرائيل وغيرها تستثمر أيضًا في تطوير نماذج كبيرة. لكن الجدير بالذكر أنه لا يزال هناك القليل من النماذج الكبيرة في مجالات الرؤية الحاسوبية وغيرها من المجالات في بلدي.
عند التحقيق في السبب ، قال يان شويتشنغ ، كبير العلماء الزائرين في معهد بكين تشيوان للأبحاث ، لمراسل "تشاينا تايمز": "السبب الرئيسي وراء تأخر تطوير النماذج المرئية قليلاً هو أن النماذج المرئية الكبيرة تستهلك قدرًا أكبر من القوة الحاسوبية من النص ، لذلك نتطلع أيضًا إلى تطوير أسرع للرقائق ، ومن الممكن أيضًا دمج شرائح أخرى غير GPU معًا. النماذج التي تراها الآن هي عمومًا على مستوى كيلوكال ، ولكن قد يستخدم بعض الأشخاص مستوى بطاقة 10000 لجعلها العام المقبل ".
وفقًا لهوانغ تيجون ، رئيس معهد بكين تشيوان لأبحاث الذكاء الاصطناعي ، فإن المجال البصري هو محور الموجة التالية في مجال النماذج الكبيرة. وأشار إلى أن طرق التفكير والمسارات الأساسية وراء النموذج البصري الكبير ونموذج اللغة الكبير هي نفسها ، لكن البيانات المدخلة أصبحت صورًا وفيديوهات ، والنموذج المدرب لديه قدرة لغة بصرية عامة معينة ، أحدها هو الفرضية يمكن لـ AIGC (المحتوى الذي يتم إنشاؤه تلقائيًا بواسطة الذكاء الاصطناعي) إنشاء صور وأعمال فنية. "هناك أيضًا قدرة أساسية أكثر ، أي بعد رؤية العالم ، يجب أولاً أن تكون قادرًا على تمييز العالم (كل شيء)."
لتطوير نماذج بصرية واسعة النطاق ، أعربت العديد من المنظمات أيضًا عن مواقف متفائلة. وفقًا لتقرير البحث الصادر عن CICC Research ، من المتوقع أن تحقق رؤية الكمبيوتر درجة أعلى من الأتمتة والدقة العالية واستهلاك منخفض للطاقة في المستقبل ، مما يزيد من إثراء بيئة محتوى Metaverse وتقليل الحواجز أمام الدخول. أدى تقدم رؤية الكمبيوتر إلى النضج السريع لتقنية إعادة الإعمار ثلاثية الأبعاد والتقاط الحركة ، والتقدم التكنولوجي المتراكم تدريجياً في مجالات تخصصهم. في المستقبل ، من المتوقع أن تؤدي رؤية الكمبيوتر إلى درجة أعلى من الأتمتة ، ودقة أعلى ، واستهلاك أقل للطاقة. وستحقق تدريجياً تأثيرات بصرية أفضل على المحطة الطرفية المتنقلة ، وسيتم تطبيقها في عدد كبير من الصناعات النهائية ، وتتحرك تدريجياً نحو ربط العالم المادي والعالم الرقمي رؤية طويلة المدى للعالم.
ذكرت CITIC Securities Research أيضًا أنه في مجال التصميم ، تقود النماذج الكبيرة التصميم الرقمي إلى التصميم الذكي ، ويمكن تطبيق برامج التصميم الصناعي ذات الصلة جنبًا إلى جنب مع GPT وغيرها من التقنيات على سيناريوهات مثل تخطيط التصميم وتحسين التخطيط ومساعدي المكونات الإضافية ، في ظل الاتجاه العام لترقية الذكاء الاصطناعي ، بدأت جولة جديدة من ثورة الإنتاجية.