* مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود *
في الشهر الماضي ، أصدرت Open الذكاء الاصطناعي أحدث إصدار من GPT-4V ، والذي يمكن المستخدمين من توجيه GPT-4 لتحليل أحدث إمكانات مدخلات الصور المقدمة من المستخدم ، وقد لفتت الأخبار انتباه الصناعة إلى أن دمج طرائق أخرى ، مثل مدخلات الصور ، في نماذج اللغة الكبيرة (LLMs) ينظر إليه على أنه حدود رئيسية في البحث والتطوير الذكاء الاصطناعي ، وتوفر LLMs متعددة الوسائط إمكانية توسيع تأثير أنظمة اللغة البحتة.
من الذكاء الاصطناعي chatbot ChatGPT الذي تم إصداره في أواخر العام الماضي إلى GPT-4V الحالي ، يوسع Open الذكاء الاصطناعي نماذج اللغة الكبيرة (LLMs) بمهارات متعددة الحواس (مثل الفهم البصري) في النماذج الكبيرة متعددة الوسائط (LMMs) لتحقيق ذكاء عام أقوى.
بعد وقت قصير من إصدار GPT-4V ، قدمت Microsoft دليل مستخدم مفصل للغاية من 166 صفحة ل GPT-4V ، من أوضاع الإدخال البسيطة إلى القدرة اللغوية المرئية ، والمطالبات التفاعلية مع البشر ، إلى فهم الفيديو الزمني ، والتفكير البصري المجرد واختبار حاصل الذكاء العاطفي ، لا يمكن ل GPT-4V تغطية التجربة التفاعلية في الحياة اليومية فحسب ، بل حتى تحقيق التقييم التشخيصي المهني في الصناعة والطب وغيرها من المجالات.
المصدر: مايكروسوفت (ترجمة الويب كمرجع فقط)
في الوقت الحالي ، تتحد قدرة GPT-4V غير المسبوقة على التعامل مع المدخلات متعددة الوسائط المتشابكة التعسفية وتعدد استخدامات وظائفها لجعل GPT-4V نظاما عاما متعدد الوسائط قويا. بالإضافة إلى ذلك ، يمكن أن تؤدي قدرة GPT-4V الفريدة على فهم العلامات المرئية المرسومة على الصور المدخلة إلى طرق تفاعل جديدة بين الإنسان والحاسوب ، مثل الإشارات المرجعية المرئية.
تجدر الإشارة إلى أن الاستكشاف الأولي ل GPT-4V قد يحفز البحث المستقبلي حول الجيل التالي من صيغ المهام متعددة الوسائط ** ، واستخدام وتعزيز الأساليب الجديدة ل LMM لحل مشاكل العالم الحقيقي ، وفهم النماذج الأساسية متعددة الوسائط بشكل أفضل ، وتصبح أيضا استكشافا جديدا لاتجاه تطوير رؤية الكمبيوتر.
** نموذج كبير يمكن من تطوير جديد لرؤية الكمبيوتر **
ربما عندما يتعلق الأمر بالقدرات متعددة الوسائط ، فإن الكثير من الناس ليسوا غرباء ، وهناك العديد من النماذج الكبيرة في الصين التي لديها بالفعل قدرات متعددة الوسائط عند إطلاقها ، ويمكنها إجراء التعرف على الصور وتوليدها ، ولكن يجب الاعتراف بذلك مقارنة ب LLM (نموذج اللغة الكبيرة) ، لا يزال تطوير LMM (نموذج كبير متعدد الوسائط) لديه العديد من الثغرات التي يتعين حلها. **
في السابق ، شهدت Big Model Home عددا من الطرز الكبيرة ذات القدرات متعددة الوسائط ، مع الأخذ في الاعتبار الإطار الذكاء الاصطناعي MindSpore "Zidong Taichu" الإصدار 2.0 من منصة الطراز الكبير و iFLYTEK Spark كأمثلة ، والتي تحتاج إلى تحسين في قدرات التحليل والتفكير والتعبير.
** في الصورة: زيدونغ تايتشو **
في الصورة: آي فلاي تيك سبارك
** تجدر الإشارة إلى أنه في أبريل من هذا العام ، اقترحت Meta نموذج SAM (نموذج Segment Anything) ** لتقسيم كل شيء ، SAM هو نموذج سريع ، قام بتدريب أكثر من مليار قناع على 11 مليون صورة ، وتحقيق تعميم قوي للعينة الصفرية ، قال بعض المطلعين على الصناعة إن SAM اخترقت حدود التجزئة وعززت بشكل كبير تطوير النماذج الأساسية لرؤية الكمبيوتر.
المصدر: ميتا **
SAM نفسه عبارة عن تجزئة دلالية للصور ، ويستوعب النموذج مفهوم "الكائنات" التي يمكنها إنشاء أقنعة لأي كائن في أي صورة أو مقطع فيديو ، حتى لو لم يره في التدريب.
يمكن لظهور نماذج SAM و GPT-4V تثبيت نماذج لغوية كبيرة على "العيون" ، تماما كما تم إعداد Open الذكاء الاصطناعي لنشر جيل GPT-4V ** ، بما في ذلك Be My Eyes ، وهي منظمة تبني أدوات للمستخدمين ضعاف البصر ، عشية إنشاء النموذج ، يمكن تخيل أن النموذج الكبير هو "أعمى" يتحدث ، ولكن بعد إضافة الرؤية ، يمكن للنماذج الكبيرة ذات القدرات متعددة الوسائط فهم الأشكال ومقاطع الفيديو وما إلى ذلك. تدفع قوة هذه الوظيفة أيضا تطوير الذكاء الاصطناعي في اتجاه جديد.
تحت موجة النماذج الكبيرة طريق رؤية الكمبيوتر المحلي
بعد استخدام وظائف إدخال الصور والتعرف وتحليل الاستدلال ، يمكن للنموذج الكبير تحقيق ازدهار متعدد المجالات والتحرك نحو "GPT لرؤية الكمبيوتر".
** المصدر: هواوي **
في الجانب الصناعي ، من خلال تطبيق نماذج كبيرة مرئية للكشف عن العيوب والخطوات المهمة الأخرى لضمان جودة المنتج في عملية التصنيع ، من الضروري أن تكون قادرا على اكتشاف الأخطاء أو العيوب في الوقت المناسب واتخاذ التدابير المناسبة لتقليل التكاليف التشغيلية والمتعلقة بالجودة. **
** المصدر: سينس تايم **
فيما يتعلق بتشخيص التصوير الطبي ، جنبا إلى جنب مع معرفة المجال المهني للنماذج المعرفية الكبيرة ، بعد إضافة القدرات البصرية ، لا يمكنه التحليل في الصور الطبية المختلفة فحسب ، بل يمكنه أيضا إنشاء تقارير أشعة كاملة بسرعة ، مع إمكانية أن يكون مساعدا الذكاء الاصطناعي لإنشاء تقرير الأشعة ، طورت SenseTime حاليا نموذجا لغويا طبيا صينيا "Big Doctor" يعتمد على المعرفة الطبية والبيانات السريرية ، مع القدرة على توفير محادثة متعددة السيناريوهات متعددة الجولات مثل التوجيه والتشاور والاستشارات الصحية واتخاذ القرار.
فيما يتعلق بالقيادة التلقائية، يمكن دمج معلومات الصورة التي حصل عليها النموذج المعرفي الكبير أثناء القيادة، وأهداف القيادة الديناميكية، وما إلى ذلك، لإعطاء قرارات القيادة المقابلة وتفسيرات القيادة، ومن ثم يمكن للنموذج الكبير تحويلها إلى لغة القيادة الآلية، والتفاعل مع نظام القيادة الأوتوماتيكية من خلال القيادة لتحقيق القيادة الذكية.
** المصدر: بايدو**
** إذا أخذنا بايدو كمثال ، في مؤتمر بايدو العالمي لعام 2023 الذي عقد للتو ، من حيث القيادة الذكية ، تمت إعادة بناء مجموعة تكنولوجيا القيادة الذاتية بالكامل من خلال تقنيات جديدة مثل Transformer و BEV ، وتم تحسين القدرة على الإدراك عبر الأجيال ، مما أدى إلى تسريع نضج وتعميم حلول الرؤية النقية. ** في الوقت الحاضر ، يمكن تطبيق حل القيادة الذكية الراقية للرؤية النقية من بايدو أبولو على السيناريوهات عالية السرعة والمدينة ومواقف السيارات وغيرها من السيناريوهات العالمية ، وسيحقق الإنتاج الضخم في الربع الرابع من هذا العام ، وهو أيضا أول حل رؤية نقية في الصين للهبوط في المشاهد الحضرية. تجدر الإشارة إلى أن إزالة الليدار يجعل تكلفة السيارة بأكملها أقل ويعزز القدرة التنافسية في السوق.
** يعتقد Big Model House أنه بمباركة المعرفة العامة لنماذج اللغة الكبيرة ، بشرت رؤية الكمبيوتر في اتجاه تطوير أوضح ** ، من رؤية الكمبيوتر المبكرة التي تعتمد على الذاكرة المتكررة للتطبيقات العملية (مثل التعرف على الوجوه والتعرف على الأشياء) ، أصبح استكشاف تكامل الرؤية واللغة اتجاها جديدا للنماذج الكبيرة ورؤية الكمبيوتر ، من التطوير المستقل إلى التكامل المتبادل ، كما يستكشف الذكاء الاصطناعي باستمرار القدرات الحسية الأقرب إلى البشر ، ويمكنه التقاط التفاصيل والميزات بشكل أفضل في الصور ، وتم تحسين دقة النماذج الكبيرة. يمكنه التكيف مع المزيد من المشاهد وتوزيع البيانات ، والاعتماد على القدرة على كتابة وفهم النموذج الكبير ، ودمج القدرات المرئية ، ويصبح صورة رمزية أكثر ذكاء.
وبطبيعة الحال، يجب أن يكون تطور العلم والتكنولوجيا محدودا بعوامل كثيرة. تتطلب النماذج الكبيرة المزيد من موارد الحوسبة والوقت للتدريب ، مما قد يحد من قابليتها للتوسع وفي الوقت الفعلي ، ويجب أن تكون بيانات التدريب الضخمة محدودة بقوة الحوسبة ، وخاصة وحدات معالجة الرسومات عالية الأداء ، والذاكرة عالية السرعة والتخزين ، وتكنولوجيا التدريب الموزعة ، ** ويحتل سوق GPU العالمي عالي الأداء الحالي NVIDIA ما يقرب من 90٪ من الحصة ، وتريد الصين احتلال أرض عالية في هذه المنافسة الذكاء الاصطناعي ، وتعزيز التطوير عالي الجودة لقوة الحوسبة الذكية الصينية أصبح أولوية قصوى. **
** بشكل عام ، تتمتع النماذج الكبيرة بالعديد من المزايا بعد دمج القدرات المرئية ، ولكن هناك أيضا بعض قيود التطوير في هذه المرحلة. ** مع التطوير المستمر لموارد التعلم العميق والحوسبة ، يمكننا أن نتوقع ظهور نماذج كبيرة أكثر تقدما والتقنيات ذات الصلة لزيادة تعزيز تطبيق واختراق رؤية الكمبيوتر في مهام الصور عالية الدقة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
بعد نموذج اللغة الكبيرة ، هل رؤية الكمبيوتر هي المنفذ التالي؟
الكاتب:تشاو شياومان
في الشهر الماضي ، أصدرت Open الذكاء الاصطناعي أحدث إصدار من GPT-4V ، والذي يمكن المستخدمين من توجيه GPT-4 لتحليل أحدث إمكانات مدخلات الصور المقدمة من المستخدم ، وقد لفتت الأخبار انتباه الصناعة إلى أن دمج طرائق أخرى ، مثل مدخلات الصور ، في نماذج اللغة الكبيرة (LLMs) ينظر إليه على أنه حدود رئيسية في البحث والتطوير الذكاء الاصطناعي ، وتوفر LLMs متعددة الوسائط إمكانية توسيع تأثير أنظمة اللغة البحتة.
من الذكاء الاصطناعي chatbot ChatGPT الذي تم إصداره في أواخر العام الماضي إلى GPT-4V الحالي ، يوسع Open الذكاء الاصطناعي نماذج اللغة الكبيرة (LLMs) بمهارات متعددة الحواس (مثل الفهم البصري) في النماذج الكبيرة متعددة الوسائط (LMMs) لتحقيق ذكاء عام أقوى.
بعد وقت قصير من إصدار GPT-4V ، قدمت Microsoft دليل مستخدم مفصل للغاية من 166 صفحة ل GPT-4V ، من أوضاع الإدخال البسيطة إلى القدرة اللغوية المرئية ، والمطالبات التفاعلية مع البشر ، إلى فهم الفيديو الزمني ، والتفكير البصري المجرد واختبار حاصل الذكاء العاطفي ، لا يمكن ل GPT-4V تغطية التجربة التفاعلية في الحياة اليومية فحسب ، بل حتى تحقيق التقييم التشخيصي المهني في الصناعة والطب وغيرها من المجالات.
في الوقت الحالي ، تتحد قدرة GPT-4V غير المسبوقة على التعامل مع المدخلات متعددة الوسائط المتشابكة التعسفية وتعدد استخدامات وظائفها لجعل GPT-4V نظاما عاما متعدد الوسائط قويا. بالإضافة إلى ذلك ، يمكن أن تؤدي قدرة GPT-4V الفريدة على فهم العلامات المرئية المرسومة على الصور المدخلة إلى طرق تفاعل جديدة بين الإنسان والحاسوب ، مثل الإشارات المرجعية المرئية.
تجدر الإشارة إلى أن الاستكشاف الأولي ل GPT-4V قد يحفز البحث المستقبلي حول الجيل التالي من صيغ المهام متعددة الوسائط ** ، واستخدام وتعزيز الأساليب الجديدة ل LMM لحل مشاكل العالم الحقيقي ، وفهم النماذج الأساسية متعددة الوسائط بشكل أفضل ، وتصبح أيضا استكشافا جديدا لاتجاه تطوير رؤية الكمبيوتر.
** نموذج كبير يمكن من تطوير جديد لرؤية الكمبيوتر **
ربما عندما يتعلق الأمر بالقدرات متعددة الوسائط ، فإن الكثير من الناس ليسوا غرباء ، وهناك العديد من النماذج الكبيرة في الصين التي لديها بالفعل قدرات متعددة الوسائط عند إطلاقها ، ويمكنها إجراء التعرف على الصور وتوليدها ، ولكن يجب الاعتراف بذلك مقارنة ب LLM (نموذج اللغة الكبيرة) ، لا يزال تطوير LMM (نموذج كبير متعدد الوسائط) لديه العديد من الثغرات التي يتعين حلها. **
في السابق ، شهدت Big Model Home عددا من الطرز الكبيرة ذات القدرات متعددة الوسائط ، مع الأخذ في الاعتبار الإطار الذكاء الاصطناعي MindSpore "Zidong Taichu" الإصدار 2.0 من منصة الطراز الكبير و iFLYTEK Spark كأمثلة ، والتي تحتاج إلى تحسين في قدرات التحليل والتفكير والتعبير.
** تجدر الإشارة إلى أنه في أبريل من هذا العام ، اقترحت Meta نموذج SAM (نموذج Segment Anything) ** لتقسيم كل شيء ، SAM هو نموذج سريع ، قام بتدريب أكثر من مليار قناع على 11 مليون صورة ، وتحقيق تعميم قوي للعينة الصفرية ، قال بعض المطلعين على الصناعة إن SAM اخترقت حدود التجزئة وعززت بشكل كبير تطوير النماذج الأساسية لرؤية الكمبيوتر.
SAM نفسه عبارة عن تجزئة دلالية للصور ، ويستوعب النموذج مفهوم "الكائنات" التي يمكنها إنشاء أقنعة لأي كائن في أي صورة أو مقطع فيديو ، حتى لو لم يره في التدريب.
يمكن لظهور نماذج SAM و GPT-4V تثبيت نماذج لغوية كبيرة على "العيون" ، تماما كما تم إعداد Open الذكاء الاصطناعي لنشر جيل GPT-4V ** ، بما في ذلك Be My Eyes ، وهي منظمة تبني أدوات للمستخدمين ضعاف البصر ، عشية إنشاء النموذج ، يمكن تخيل أن النموذج الكبير هو "أعمى" يتحدث ، ولكن بعد إضافة الرؤية ، يمكن للنماذج الكبيرة ذات القدرات متعددة الوسائط فهم الأشكال ومقاطع الفيديو وما إلى ذلك. تدفع قوة هذه الوظيفة أيضا تطوير الذكاء الاصطناعي في اتجاه جديد.
تحت موجة النماذج الكبيرة طريق رؤية الكمبيوتر المحلي
بعد استخدام وظائف إدخال الصور والتعرف وتحليل الاستدلال ، يمكن للنموذج الكبير تحقيق ازدهار متعدد المجالات والتحرك نحو "GPT لرؤية الكمبيوتر".
في الجانب الصناعي ، من خلال تطبيق نماذج كبيرة مرئية للكشف عن العيوب والخطوات المهمة الأخرى لضمان جودة المنتج في عملية التصنيع ، من الضروري أن تكون قادرا على اكتشاف الأخطاء أو العيوب في الوقت المناسب واتخاذ التدابير المناسبة لتقليل التكاليف التشغيلية والمتعلقة بالجودة. **
فيما يتعلق بتشخيص التصوير الطبي ، جنبا إلى جنب مع معرفة المجال المهني للنماذج المعرفية الكبيرة ، بعد إضافة القدرات البصرية ، لا يمكنه التحليل في الصور الطبية المختلفة فحسب ، بل يمكنه أيضا إنشاء تقارير أشعة كاملة بسرعة ، مع إمكانية أن يكون مساعدا الذكاء الاصطناعي لإنشاء تقرير الأشعة ، طورت SenseTime حاليا نموذجا لغويا طبيا صينيا "Big Doctor" يعتمد على المعرفة الطبية والبيانات السريرية ، مع القدرة على توفير محادثة متعددة السيناريوهات متعددة الجولات مثل التوجيه والتشاور والاستشارات الصحية واتخاذ القرار.
فيما يتعلق بالقيادة التلقائية، يمكن دمج معلومات الصورة التي حصل عليها النموذج المعرفي الكبير أثناء القيادة، وأهداف القيادة الديناميكية، وما إلى ذلك، لإعطاء قرارات القيادة المقابلة وتفسيرات القيادة، ومن ثم يمكن للنموذج الكبير تحويلها إلى لغة القيادة الآلية، والتفاعل مع نظام القيادة الأوتوماتيكية من خلال القيادة لتحقيق القيادة الذكية.
** إذا أخذنا بايدو كمثال ، في مؤتمر بايدو العالمي لعام 2023 الذي عقد للتو ، من حيث القيادة الذكية ، تمت إعادة بناء مجموعة تكنولوجيا القيادة الذاتية بالكامل من خلال تقنيات جديدة مثل Transformer و BEV ، وتم تحسين القدرة على الإدراك عبر الأجيال ، مما أدى إلى تسريع نضج وتعميم حلول الرؤية النقية. ** في الوقت الحاضر ، يمكن تطبيق حل القيادة الذكية الراقية للرؤية النقية من بايدو أبولو على السيناريوهات عالية السرعة والمدينة ومواقف السيارات وغيرها من السيناريوهات العالمية ، وسيحقق الإنتاج الضخم في الربع الرابع من هذا العام ، وهو أيضا أول حل رؤية نقية في الصين للهبوط في المشاهد الحضرية. تجدر الإشارة إلى أن إزالة الليدار يجعل تكلفة السيارة بأكملها أقل ويعزز القدرة التنافسية في السوق.
** يعتقد Big Model House أنه بمباركة المعرفة العامة لنماذج اللغة الكبيرة ، بشرت رؤية الكمبيوتر في اتجاه تطوير أوضح ** ، من رؤية الكمبيوتر المبكرة التي تعتمد على الذاكرة المتكررة للتطبيقات العملية (مثل التعرف على الوجوه والتعرف على الأشياء) ، أصبح استكشاف تكامل الرؤية واللغة اتجاها جديدا للنماذج الكبيرة ورؤية الكمبيوتر ، من التطوير المستقل إلى التكامل المتبادل ، كما يستكشف الذكاء الاصطناعي باستمرار القدرات الحسية الأقرب إلى البشر ، ويمكنه التقاط التفاصيل والميزات بشكل أفضل في الصور ، وتم تحسين دقة النماذج الكبيرة. يمكنه التكيف مع المزيد من المشاهد وتوزيع البيانات ، والاعتماد على القدرة على كتابة وفهم النموذج الكبير ، ودمج القدرات المرئية ، ويصبح صورة رمزية أكثر ذكاء.
وبطبيعة الحال، يجب أن يكون تطور العلم والتكنولوجيا محدودا بعوامل كثيرة. تتطلب النماذج الكبيرة المزيد من موارد الحوسبة والوقت للتدريب ، مما قد يحد من قابليتها للتوسع وفي الوقت الفعلي ، ويجب أن تكون بيانات التدريب الضخمة محدودة بقوة الحوسبة ، وخاصة وحدات معالجة الرسومات عالية الأداء ، والذاكرة عالية السرعة والتخزين ، وتكنولوجيا التدريب الموزعة ، ** ويحتل سوق GPU العالمي عالي الأداء الحالي NVIDIA ما يقرب من 90٪ من الحصة ، وتريد الصين احتلال أرض عالية في هذه المنافسة الذكاء الاصطناعي ، وتعزيز التطوير عالي الجودة لقوة الحوسبة الذكية الصينية أصبح أولوية قصوى. **
** بشكل عام ، تتمتع النماذج الكبيرة بالعديد من المزايا بعد دمج القدرات المرئية ، ولكن هناك أيضا بعض قيود التطوير في هذه المرحلة. ** مع التطوير المستمر لموارد التعلم العميق والحوسبة ، يمكننا أن نتوقع ظهور نماذج كبيرة أكثر تقدما والتقنيات ذات الصلة لزيادة تعزيز تطبيق واختراق رؤية الكمبيوتر في مهام الصور عالية الدقة.