* مصدر الصورة: تم إنشاؤه بواسطة أداة Unbounded AI *
** توجد احتمالات وتدمير في نفس الوقت ، ولم يكن ممارسو وسم البيانات متناقضين أبدًا. **
بدأ داي يان ، وهو منغولي داخلي يبلغ من العمر 30 عامًا ، عمله في وقت سابق من هذا العام وشكل فريقًا لوضع العلامات على الإنترنت يضم ما يقرب من 30 شخصًا. في السابق ، عمل Daiyan على منصة التعهيد الجماعي لتعليقات البيانات التوضيحية لمدة عامين. إنه ، الذي يمكن أن يطلق عليه "العامل الماهر" ، يتطلع إلى الوضع الحالي ويتوتر بشأنه.
لقد كان ينتبه إلى ChatGPT منذ بداية العام. من النمو السريع لعدد التسجيلات لشركات الذكاء الاصطناعي ، شهد داي يان انفجار صناعة الذكاء الاصطناعي وفرص ريادة الأعمال في وسم البيانات. ** تُظهر بيانات Tianyancha أنه في الربع الأول من هذا العام وحده ، تم تسجيل 170 ألف شركة مرتبطة بالذكاء الاصطناعي حديثًا ، ويبلغ العدد الإجمالي الآن 2.67 مليون. **
يتخيل أنه يمكنه متابعة الصناعة وستنمو الشركة إلى نطاق 100 شخص في المستقبل. ** لكن من الصعب دعم الوضع الراهن لتوقعاته: سيتم قريبًا كسر دائرة تصنيف البيانات - سيتدفق عدد كبير من احتياجات وضع العلامات ، ووضع العلامات على العمال والوسطاء معًا ، وسيكون سعر الوحدة أقل. **
تمامًا مثل الفريق الهندسي الذي لا يمكنه الاتصال بالطرف "أ" الذي لديه احتياجات بناء ، ولا يمكنه تولي المشروع إلا من المقاول ، فإن الأجور التي اتصلت بها ** Daiyan تنخفض مع تغير المشروع. ** رفض القيام بمشروع الملصقات حيث يمكنه الحصول على 30 يوان فقط في اليوم.
في الوقت نفسه ، تواجه ** Daiyan أيضًا الإحراج المتمثل في عدم الترقية المهنية في صناعة الملصقات ، وعدم وجود ضمان للعقد ، وعدم وجود وسيلة للشكوى من التأخير. ** ضحك على نفسه: "نحن معطيات العمال المهاجرين للعصر الجديد".
لكن هذه ليست القصة الكاملة. ** المشكلة الأكبر هي أن الملصقات الآلية تلتهم أيضًا المشاريع الوحيدة التي لديهم. ** الذكاء الاصطناعي المدرب من قبل واضعي البيانات مثل داي يان يتعلم ويصنف نفسه تحت إشراف بشري.
ستؤدي عملية وضع الملصقات الآلية إلى تقليل تكاليف المؤسسة بشكل كبير ، وقد أصبحت الاتجاه الواعد في سوق تصنيف البيانات.
كان على دايان الاستعداد لـ "قد يحل الذكاء الاصطناعي محل الأشخاص تمامًا". قاد الفريق للقيام بتعليق توضيحي للمساعدة في التدريس ومشاريع التعليقات السحابية ثلاثية الأبعاد في فئة التعليقات التوضيحية النصية في نفس الوقت. أحدهما نص والآخر صورة فيديو. وضع داي يان خطة مفادها أنه في حالة إلغاء مشروع بواسطة الذكاء الاصطناعي ، فإنه سيقود الفريق على الفور للتحول إلى مجال آخر.
بالإضافة إلى ذلك ، يجب تقليل حجم الفريق. شطب داي يان مقياس الشركة المكونة من 100 شخص الذي تخيله في ذهنه. إنه يعتقد أنه في النهاية ، قد يتم الاحتفاظ بالفريق ذو الخبرة المكون من 20 شخصًا فقط.
** إن أنظمة الذكاء الاصطناعي المدربة من قبل واضعي البيانات تجعلهم يحلمون بكسب المزيد مع إجبارهم على التخطيط للتخريب. **
** 1. وضع العلامات ، دع الذكاء الاصطناعي يفتح أعينه ليرى العالم **
من أجل أن تفهم الآلات النص والصوت والصور مثل البشر ، أنشأ البشر سلسلة تعلم الآلة: جمع الصور المادية والأصوات في العالم المادي ، ووضع العلامات على البيانات وتنظيفها ، وتحويل البيانات إلى سلسلة من الرموز وإرسالها للجهاز.
يعتقد علماء الذكاء الاصطناعي أن الأطفال البالغين من العمر ثلاث سنوات "يلتقطون" مئات الملايين من الصور من خلال عيونهم ، ويفهمون العالم بشكل متكرر. وطالما يتم ضخ بيانات كافية في الجهاز ، يمكن للآلة أيضًا تعلم قراءة الجمل والتعرف عليها ، وفي النهاية فهم المعنى العميق وراء اللغة.
هناك 15 مليون صورة في أطلس ImageNet. ساعدت مجموعة البيانات هذه عددًا لا يحصى من شركات الذكاء الاصطناعي على تحقيق اختراقات في رؤية الكمبيوتر ، مثل التعرف على الوجوه والبحث عن الصور.
من أجل بناء ImageNet ، عمل ما يقرب من 50000 واسم بيانات من 167 دولة حول العالم معًا لمدة عامين ونصف ، وقد أتوا جميعًا من منصة التعهيد الجماعي الميكانيكية Turk.
متطلبات وضع العلامات بسيطة للغاية. تتمثل مهمة MTurk الشائعة في تمييز لون الصورة ، أو تصنيف الحيوانات التي تظهر في الصورة ، أو استخدام الصناديق لتأطير الكائنات المحددة وتسمية أسمائها: هذه كعكة ، هذه سيارة ، إنها سحابة وما إلى ذلك.
الرسم البياني / الذكاء الصحيح
يتم توزيع 200000 عامل بدوام جزئي على المنصة في إفريقيا وجنوب شرق آسيا ، حيث تكون تكاليف العمالة منخفضة ، وحتى أنهم شكلوا "قرية شرح البيانات" المميزة. البيانات التي يميزونها تدعم استكشاف شركات التكنولوجيا في الذكاء الاصطناعي.
في الصين ، يتم توزيع الملايين من المعلقين في مدن الدرجة الثانية والثالثة في قويتشو وشانشي وشاندونغ وخنان ومقاطعات أخرى ، ويتغلغلون تدريجيًا في المقاطعات ذات تكاليف العمالة المنخفضة. يعتمدون إما على منصات التعهيد الجماعي عبر الإنترنت ، أو ينضمون إلى شركات وضع العلامات على البيانات غير المتصلة بالإنترنت وقواعد وضع العلامات. **
ينقسم محتوى التعليق التوضيحي إلى نص وصورة وصوت وفقًا للمشهد ، بما يتوافق مع وظائف مساعدة الجهاز في معرفة القراءة والكتابة والتعرف على الصور والاستماع إلى الصوت.
ركزت مشاريع التعليقات التوضيحية المبكرة على شركات الإنترنت ، وبشكل أساسي كتابة التعليقات التوضيحية الصوتية والنصية. يتجه الآن إلى الشركات ذاتية القيادة لتسمية المشاهد ثلاثية الأبعاد التي تم الحصول عليها عن طريق مسح الليدار ، مثل وضع العلامات السحابية للنقاط ؛ أو المزيد من توجيهات النص الرأسي والتسمية الصوتية: لمساعدة شركات التعليم على توفير تعليم بيانات العلامات المساعدة للنماذج الكبيرة ؛ أو للمؤسسات الطبية يوفر النموذج الكبير بيانات طبية مجمعة.
عندما يدخل الذكاء الاصطناعي عصر 2.0 ، أذهل ChatGPT المستثمرين ورجال الأعمال ورجال الأعمال ، فكل ما يتوقعه الجميع من الذكاء الاصطناعي لا يقتصر فقط على التعرف على المعلومات النصية والصوتية والصورة بشكل صارم. يأمل الناس أيضًا في أن يتمكن الذكاء الاصطناعي من فهم العلاقة بين أشياء مثل البشر ، والتعرف على الفروق الدقيقة والعواطف الكامنة وراء الأفعال ، وتمييز المعلومات وجمعها بفاعلية.
على سبيل المثال ، دع السيارة ذاتية القيادة تميز كيسًا بلاستيكيًا فارغًا أمامها ، بدلاً من حجر من نفس اللون والحجم ؛ دع الكاميرا المجاورة لحمام السباحة لم تعد تسجل فقط ما حدث بجوار حمام السباحة ، ولكن افهم ماذا حدث ، وعندما يغرق شخص ما تنبيه.
هذه لا تزال بحاجة إلى الاعتماد على التعليقات التوضيحية للبيانات ، وطرح متطلبات أعلى للتعليقات التوضيحية - أكثر عمودية ، وأكثر دقة ، وأكثر اقتصادا.
بدأ صعود سوق الملصقات من هذا أيضًا.
** 2. "هناك عدد كبير جدًا من الطلبات لمواكبة" **
من الصعب الحصول على بيانات تشرح مباشرة الزيادة الكبيرة في الطلب على التعليقات التوضيحية الجديدة ، ولكن ليس من الصعب الحكم. لأنه في الربع الأول من عام 2023 وحده ، أضافت الصين 170 ألف شركة ذكاء اصطناعي ، وطالما أنها شركة تستخدم الذكاء الاصطناعي ، فلا بد أن يكون لديها طلب على تصنيف البيانات.
انتشر الطلب بسرعة إلى سوق تصنيف البيانات. في شريط النشر حيث يجتمع ممارسو التعليقات التوضيحية للبيانات ، يمكن تحديث أكثر من اثني عشر مشروعًا لتجنيد المنشورات يوميًا ، بما في ذلك على سبيل المثال لا الحصر التعليقات التوضيحية النصية ومراجعة الموضوع والتعليقات التوضيحية لفيديو مبيعات الطائرات بدون طيار وقضيب الكشف ثنائي الأبعاد وسحابة النقاط ثلاثية الأبعاد وما إلى ذلك. عناصر لمقاطع الفيديو من نص إلى صورة.
لاحظ مُصنِّف البيانات الذي كان يعمل في الصناعة منذ سنوات عديدة أن مشاريع وضع العلامات على المركبات غير المأهولة قد ازدادت ، وأن ريادة الأعمال النموذجية واسعة النطاق في المجال الرأسي الذي ولّده طفرة AI2.0 سمحت بمشروعات وضع العلامات النصية المتراجعة أصلاً ليتم تقسيمها إلى مسارات مختلفة. ، يزيد أيضًا من الطلب على تسمية البيانات المتخصصة.
بدافع من الطلب ، Daiyan ليس الوحيد الذي شكل فريقًا جديدًا للتحقيق في الذهب. بدأ Zhang Wei من Dongying بمقاطعة Shandong أيضًا في تكريس نفسه لملصقات البيانات في نهاية العام الماضي ، وتطور إلى فريق صغير يضم أكثر من عشرة أشخاص في نصف عام. بالاعتماد على الإعانات والدعم من الحكومة المحلية ، لم تحصل شركة Zhang Wei على مكتب مجاني فحسب ، بل ساعدت الحكومة أيضًا في توجيه الموارد من الحزب A.
هناك الكثير من أوامر المشروع ، من المشروع الأولي الذي يزيد عن 100000 يوان إلى آخر طلب بقيمة 400000 يوان ، جعلت مهمة التسليم العاجلة Zhang Wei تبحث بنشاط أكبر عن العمال: قبل بضعة أيام ، اشترى Zhang Wei 6 أجهزة كمبيوتر أخرى في يوم واحد فقط.
في Zhengzhou ، Henan ، تنتقل منصة التعهيد الجماعي للتعليقات التوضيحية للبيانات إلى مبنى مكاتب من طابقين يمكن أن يستوعب 100 شخص. يكتبون موقع الشركة على اللافتة عند الباب وفي المكتب: "قاعدة بيانات البحث والتطوير الضخمة للذكاء الاصطناعي AI" "تنظيف البيانات المتكرر للذكاء الاصطناعي ليكون أكثر ذكاءً".
قال المسؤول: "هناك عدد كبير جدًا من الطلبات لتنفيذ مشروع الملصقات".
حفل نقل شركة لصق البيانات
مصدر الصورة / مقدم من الأشخاص الذين تمت مقابلتهم
دخلت الأموال الساخنة أيضًا جيوب شركات الوسم لفترة طويلة. وبحسب البيانات ، ارتفع سعر سهم شركة هاييتي إيه إيه سي ، الشركة الرائدة ، بما يصل إلى 4 مرات من مارس إلى مايو من هذا العام.
وفقًا لـ 36 Krypton news ، منذ بداية هذا العام ، أدخلت أكثر من اثنتي عشرة منصة لتوسيم البيانات في الجولة B وقبلها بشكل جماعي تقييمات عالية مع زيادة تقارب 100٪. منذ النصف الثاني من العام الماضي ، حصلت شركات الملصقات التلقائية على تمويل جديد على التوالي.
في سبتمبر 2022 ، تلقت شركة Borden Intelligence تمويلًا بقيمة 10 ملايين يوان ؛ وفي ديسمبر ، أكملت Stardust Data تمويلها من الدرجة الأولى بقيمة 50 مليون يوان.كانت أربع سنوات ونصف السنة منذ آخر تمويل في يونيو 2018.
في أبريل 2023 ، تلقت شركة حلول وضع العلامات على البيانات "Kaiwang Data" جولة جديدة من التمويل الاستراتيجي ؛ وفي يونيو ، تلقت شركة بيانات الذكاء الاصطناعي "Integer Intelligence" عشرات الملايين من جولات التمويل التمهيدية.
إنهم مليئون بالحماس لتشغيل شعارات لتحل محل الملصقات اليدوية: "إعادة بناء إنتاج ملصق البيانات" ، "خط الإنتاج الآلي + القوى العاملة على نطاق واسع" ، "كسر الوضع اليدوي لملصقات القيادة التلقائية".
من الواضح أن سوق رأس المال يهتم أيضًا بهذا المجال الناشئ مرة أخرى.
** 3. حجم أكبر وأكثر صرامة **
تتكون سلسلة تصنيف البيانات من ثلاثة أجزاء.
المنبع: شركات وضع العلامات على البيانات التي يعمل بها 1 ~ 150 موظفًا ومتطرفون عبر الإنترنت وورش عمل صغيرة.
منتصف الطريق: مقدمو خدمات البيانات ، أحدهم هو منصة التعهيد الجماعي الوسيطة التي تتولى المنبع والمصب ، والآخر هو أن تختار الشركات بناء قواعد وضع العلامات الخاصة بها للاستثمار المستقر في الصناعة.
المصب: شركات التكنولوجيا والشركات الصناعية وشركات الذكاء الاصطناعي ووحدات البحث العلمي.هيمنت شركات الإنترنت على حوالي عام 2018 ، والآن يتم نقلها إلى شركات السيارات وشركات القيادة الذاتية.
تعتمد الصناعة بشكل عام نموذج تعاقد من الباطن ، أي أن شركة الطرف الأول تصدر العطاء ، ويشارك مزود الخدمة من الطرف الثالث في العطاء. بعد نجاح العطاء ، يدخل في مرتبة المورد للشركة ، والموردين الأساسيين يمكن التمتع بالحق في اختيار المهام ذات الأولوية والمزيد من الطلبات.
متطلبات المؤسسة للموردين الأساسيين هي أن يكون لديها فريق تسليم مكون من 30 شخصًا على الأقل ، وتجربة ناضجة في تسليم الطلبات ، وإنشاء نظام تدريب ، والقدرة على التحكم في جودة وكمية التسليم. يؤدي فريق الإنتاج المستقر في النهاية إلى عرض أسعار منخفض يجعل الشركة أكثر قدرة على المنافسة.
ومع ذلك ، فإن ميزة السعر المنخفض التي قدمها فريق الإدارة والمراقبة قد تعطلت. وقال أحد مقدمي الخدمة لـ "جيازي جوانجنيان": "العطاء هذا العام شرس! قدمنا 200 يوان لمشروع ، وبعض الناس قدموا 80 يوانًا في اليوم".
في النهاية ، فاز الفريق صاحب أقل عرض بالمشروع ، ولكن انتهى الأمر بالعودة إلى الفريق الأكثر نضجًا. "تم إعادتهم إلينا من قبل الطرف أ عندما لم يتمكنوا من إنهاء ذلك ، لكن السعر لم يعد يرتفع بعد الآن."
نظرًا لأن فريق Daiyan عبر الإنترنت لا يتصل مباشرة بالطرف أ. لذلك ، فإن الوضع الفوضوي للكسوة متعددة المستويات وأسعار الرقائق في السوق تجعلهم يشعرون بالضغط.
وسم البيانات صناعة قائمة على الموارد ، وأي شخص يمكنه الحصول على التعاون مع الطرف "أ" سيكون له ميزة. وكشف داي يان أنه بعد تسجيل شركة ، ادعى بعض الأفراد خطأً أن لديهم فريقًا محترفًا من 40-50 شخصًا وشاركوا في المزايدة بسعر منخفض جدًا ، وبعد الفوز بالمشروع قاموا بتقسيمه إلى 4-5 أسهم وتوزيعه. إلى فرق مختلفة ، ينقسم الفريق إلى أسفل ، ويتم جمع العمولة طبقة تلو الأخرى ، ويكسب الوسيط الفرق ، وسعر القطعة الموزعة على عمال وضع العلامات على البيانات آخذ في الانخفاض. **
طالما أن شخصًا ما يلتقط اللوحة ، فسوف تستمر في التصاعد إلى أسفل.
تُظهر قائمة الأسعار التي حصل عليها "Jiazi Guangnian" أنه بدءًا من وضع العلامات ثنائية الأبعاد وحتى وضع العلامات السحابية لنقاط الليزر ثلاثية الأبعاد ، فإن سعر الوحدة لعناصر الوسم يتراوح عمومًا من 0.5 إلى 1.5 يوان لكل إطار. تلقى داي يان مرة واحدة سعر الإطار الفردي بخصم 50٪ ، "تم نقل ما لا يقل عن أربعة أو خمسة توزيعات ورق."
** الانقلاب على سعر الوحدة يؤدي بشكل مباشر إلى تقلص رواتب موظفي الوسم. ** يعمل فريق Daiyanhe بدوام جزئي. معظم أعضاء الفريق هم من الأمهات وطلاب الجامعات والعاملين لحسابهم الخاص وطلاب المدارس الثانوية المهنية ، ويعملون 6 ساعات في اليوم. للحفاظ على هذه الحالة ، ستحصل Daiyan على دخل شهري يتراوح من 4 إلى 5 آلاف يوان خلال الوباء في عام 2022.
"إذا كان لديك جهاز كمبيوتر وكهرباء ، فيمكنك تشغيله". هذه عبارة جذابة شائعة في ملصقات البيانات الخاصة بالتوظيف. في الماضي ، كان هذا في يوم من الأيام أهم ميزة لصناعة تصنيف البيانات. لكن هذه الميزة اليوم تسببت في وقوع الصناعة بأكملها في الانقلاب. الآن دخل Daiyan الشهري هو فقط 2-3 آلاف يوان.
بينما انخفضت الدخول ، لم تنخفض أعباء العمل. على العكس من ذلك ، فإن عمل تصنيف البيانات أكثر تعقيدًا وتفصيلاً.
يفتقد كبار ممارسو التعليقات التوضيحية للبيانات سوق التعليقات التوضيحية في عصر الإنترنت: سعر إطار واحد أعلى بثلاث مرات ، وعدد العناصر كبير. يمكن لفريق من 60-70 شخصًا كسب دخل شهري قدره 300000 يوان. قال أحد الممارسين: "السوق الآن مليء بالمشروعات ذات قيمة الإنتاج (القيمة التي يولدها شخص واحد في اليوم) أقل من 100 يوان ، والتي كانت تصل في العادة إلى مئات الدولارات في اليوم".
في ذلك الوقت ، كانت عملية المشروع بسيطة ولم تكن هناك متطلبات ، مثل وضع علامة على المشهد ثنائي الأبعاد للمركبة غير المأهولة ، وعند رسم الإطار على السيارة في الصورة ، طالما أنه يمكن تأطيرها ، لم يكن هناك شرط .
** لكن الأمر مختلف الآن. "اللياقة" هي أهم معيار قبول للحزب "أ". ** قال داي يان: "في العام الماضي ، كان الخطأ مطلوبًا أن يكون من 5 إلى 7 ملم ، وهذا العام سيكون من 3-5 ملم. متطلبات الخطأ أصبحت أصغر وأصغر".
شدد عالم الذكاء الاصطناعي وو إندا مرارًا وتكرارًا على أن قيمة الذكاء الاصطناعي لا يمكن إطلاقها إلا من خلال بيانات ذات تصنيف عالي الجودة.كلما زادت البيانات عالية الجودة ، كان تطوير الذكاء الاصطناعي أسرع.
في البيانات المصنفة للمركبات غير المأهولة ، يتم التعبير عنها على أنها درجة الملاءمة بين الإطار المستطيل والجسم المحدد. وكلما زادت درجة الملاءمة ، زادت دقة الخوارزمية ، وزادت دقة الخوارزمية في التحكم في السيارة .
تنعكس عناصر التعليقات التوضيحية النصية عالية الجودة في صحة الفهم الدلالي والمعدل الصحيح للإجابة على الأسئلة. كلما ارتفع المعدل الصحيح ، كان تدريب النموذج الكبير أذكى.
يمكن أن تضمن الأيدي الماهرة تسليم البيانات بشكل سريع وجيد. طلب Daiyan ذات مرة من مبتدئ المشاركة في التحقق مما إذا كانت مسائل الرياضيات التي أكملها ChatGPT كاملة ، وما إذا كان المنطق صحيحًا ، وما إذا كان يمكن فهم اللغة من قبل طلاب المدارس الابتدائية. وقد طلب الطرف "أ" إعادة صياغة البيانات البالغ عددها 7500 والتي تم وضع علامة عليها بواسطة المبتدئ لأن معدل الدقة كان منخفضًا للغاية ، وقد استغرق الأمر من داي يان وزملائه أكثر من عشرة أيام لتصحيحها.
تصنيف البيانات ليس على نحو متزايد وظيفة بدون عتبة. يتطلب إنتاج التعليقات التوضيحية الصوتية المعقدة والطبية والقانونية والمالية وغيرها من مجموعات البيانات المهنية المتخصصين الذين لديهم احتياطيات معرفة بالموضوع القيام بالتعليقات التوضيحية المهنية.
يعتقد Dai Yan أنه ، بأخذ مشروع المركبات غير المأهولة كمثال ، يستغرق الوافدون الجدد 3 أشهر ليصبحوا بارعين في وضع العلامات ثنائية الأبعاد ، ومن 4 إلى 6 أشهر ليصبحوا بارعين في وضع العلامات ثلاثية الأبعاد.
يشير هذا النوع من التمرين إلى التدريب على دقة رسم الإطار ، باستخدام الماوس لرسم إطار مستطيل على صفحة ملصقات الكمبيوتر دفعة واحدة ، والذي يمكنه تغطية الكائن المحدد بدقة ، دون أن يخطو على الخط ، دون فقد النقاط ، و حتى بسلاسة.
يشير خبراء الشكل / البيانات التوضيحية إلى المشكلات الموجودة في التعليق التوضيحي
إنه فقط عندما تبدأ الآلة في التعلم من تلقاء نفسها وتحل محل الإنسان لتسمية الآلة ، فهل المهارة التي يقضيها الأشخاص في التدريب لا تزال ذات مغزى؟
** 4. أزمة بديلة **
أدرك داي يان أن الذكاء الاصطناعي يقترب ، وكان في مشروع التعليق التوضيحي بالصور الذي قام به منذ بعض الوقت.
هذا مشروع قديم كانت Daiyan تعمل عليه لمدة عامين - التعرف على الخريطة. يحتاج واضعو البيانات إلى التعرف على النص الموجود في الصورة وطباعته ، السعر 8 سنتات للقطعة الواحدة. يتم إدخال البيانات المميزة نيابة عن الامتداد في نموذج التعرف على الصور. أصبح النموذج الآن بارعًا في التعرف على النص في الصور. بدأ عمل وضع العلامات في Daiyan في المراجعة والمراجعة. انخفضت الصعوبة ، وانخفض أيضًا سعر الوحدة الملحوظ.
** الذكاء الاصطناعي الذي دربه البشر مع وضع العلامات يحل محل أعمال الملصقات البشرية. ** في تقرير الاستطلاع الذي أجرته جامعة زيورخ ، وجد الباحثون من خلال القياس الفعلي أن قدرة معالجة ChatGPT في 15 مهمة تصنيف أعلى من قدرة التعهيد الجماعي. ** تم أيضًا تسريع شريط التقدم الخاص بتضمين النموذج الكبير في منصة التعهيد الجماعي. ** وجدت الأبحاث اللاحقة التي أجراها المعهد الفيدرالي للتكنولوجيا في لوزان أن أكثر من 30٪ من أصحاب التعليقات التوضيحية الجماعية قد استخدموا نماذج كبيرة عند معالجة التعليقات التوضيحية النصية.
يعد الذكاء الاصطناعي بلا شك أكثر توفيرًا للوقت والعمالة من العمل اليدوي: قال الباحثون إن تكلفة الوحدة في ChatGPT تعادل 1/20 من MTurk فقط.
كما أن Daiyan على استعداد لاستبدال خط الأعمال هذا بـ "ذكاء اصطناعي أكثر مثالية" في أي وقت. يراهن على المستقبل على المزيد من ملصقات القيادة الذاتية التي تتطلب مهارات.
ولكن يتم غزو وضع العلامات للقيادة الذاتية بواسطة الذكاء الاصطناعي أيضًا. بالمقارنة مع طريقة الرسم اليدوي للإطار ، فإن الملصقات الأوتوماتيكية تتطلب فقط نموذجًا كبيرًا مدمجًا. بعد إعداد المعلمة ، سيتم إنشاء الإطار المستطيل الذي كان يتطلب في الأصل وضع العلامات اليدوية تلقائيًا. المشكلة الوحيدة في الوقت الحاضر هي أن الإطار المستطيل الذي تم إنشاؤه به مشاكل جودة مثل المشي على الخط والملاءمة المنخفضة ، الأمر الذي يتطلب فحصًا يدويًا واحدًا تلو الآخر.
لقد فاجأ التحسن في الكفاءة شركات السيارات. المثالي هو استخدام النموذج الكبير 2.0 للمعايرة التلقائية ، وهو أكثر كفاءة 1000 مرة من البشر ؛ تعمل Tesla بنشاط على تعزيز التقدم في وضع العلامات التلقائية ، مثل إلغاء 200 مقطع فيديو عن علامات Tesla في يونيو 2022 لتحسين نظام المساعدة للموظفين الأمريكيين ، لأن Tesla's تم تحسين قدرة الملصقات التلقائية بشكل كبير ، حيث تم تصنيف 10000 مقطع فيديو تقل مدتها عن 60 ثانية ، وتحتاج فقط إلى نموذج كبير للتشغيل لمدة أسبوع ، بدلاً من وضع العلامات اليدوية لعدة أشهر.
قال Lin Qunshu ، مؤسس شركة بيانات AI Integer Intelligence ، إن المزيد والمزيد من شركات السيارات وشركات AIGC تستخدم منتجات نموذجية واسعة النطاق لوضع العلامات التلقائية ، وتزداد إيراداتها بشكل كبير. وكانت آخر خطواتهم هي إنشاء فرع للبحث والتطوير في سنغافورة.
** ومع ذلك ، فإن موفري الخدمات من الأطراف الثالثة ليسوا متفائلين بشأن نمو الملصقات الآلية. ** قال مدير مشروع منصة التعهيد الجماعي في خنان إن الملصقات الآلية لا يمكن أن تحل محل أكثر من 60٪ من متطلبات وضع العلامات ، ولا يمكن استخدامها إلا كأداة تصنيف مساعدة لمعالجة بيانات فردية أو محددة وتحسين الكفاءة البشرية.
يعتقد مدير المنتج في شركة أخرى لوضع العلامات على البيانات أن الملصقات التلقائية يمكنها فقط تصفية البيانات الأساسية البسيطة ، ولا يمكنها تحديد الكائنات بدقة من المشاهد المعقدة والمثيرة للجدل مثل البشر. هذا أيضًا هو السبب في أن سوق تصنيف البيانات لا يزال يهيمن عليه بيانات تصنيف القيادة المستقلة.
ومع ذلك ، يتفق الجميع على أن تصنيف البيانات في المستقبل سوف يتحول من القوى العاملة إلى التكنولوجيا.
باختصار ، إما أن يتم "الضغط عليهم حتى الموت" من قبل الأقران ، أو "الضغط حتى الموت" بواسطة التكنولوجيا. لكن بالتأكيد ليس من الممكن أن تظل مكتوفي الأيدي ، والشركات الخارجية التي تضع علامة على البيانات تبحث عن مخرج في المستقبل.
تتمثل خطة Daiyan في مواكبة السوق ، والبقاء يقظًا ، وتسريح الموظفين في أي وقت ، وفي نفس الوقت التطوير في اتجاه أداة الملصقات الآلية. قال مؤسس منصة التعهيد الجماعي عند التواصل مع أقرانه أنه في المستقبل ، لا ينبغي علينا تكديس القوى العاملة ، ولكن يجب أن تكون لدينا قدرات بحث وتطوير.
ماذا عن الأفراد؟ المسار الوظيفي المتداول في الصناعة هو أن أصحاب العلامات المبتدئين من ذوي الخبرة ومديري مشاريع العلامات / مديري ومحللي بيانات الشركة التابعين للطرف أ ، ويحصلون أخيرًا على ترقية براتب شهري يصل إلى عشرات الآلاف.
لم يكن أي من مصنعي البيانات الذين عرفهم داي يان يسير في هذا الاتجاه. إما بقوا في مكانهم أو استقالوا. أفضل حالة هي بناء فريق وضع العلامات الخاص بهم مثل داي يان ، لكنه لم يشعر بأي سهولة.
من ناحية ، هناك زيادة في الطلب على المشروع بسبب اتجاه الذكاء الاصطناعي ، ومن ناحية أخرى ، هناك المزيد من العطاءات العشوائية ، وانخفاض قيمة الإنتاج للفرد ، والذكاء الاصطناعي سريع النمو. تتشابك المشاعران ، وسيوفر الذكاء الاصطناعي فرصًا لا حصر لها ، وسيؤدي الذكاء الاصطناعي أيضًا إلى القضاء على "نحن".
(بناء على طلب من أجريت معهم المقابلات ، الأسماء الواردة في المقال كلها أسماء مستعارة)
شاهد النسخة الأصلية
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
عمال وسم البيانات: تدريب الذكاء الاصطناعي ، واستبداله بالذكاء الاصطناعي
يحدث النمو والقضاء في وقت واحد.
المؤلف | ما هوي
تحرير | الكستناء
** توجد احتمالات وتدمير في نفس الوقت ، ولم يكن ممارسو وسم البيانات متناقضين أبدًا. **
بدأ داي يان ، وهو منغولي داخلي يبلغ من العمر 30 عامًا ، عمله في وقت سابق من هذا العام وشكل فريقًا لوضع العلامات على الإنترنت يضم ما يقرب من 30 شخصًا. في السابق ، عمل Daiyan على منصة التعهيد الجماعي لتعليقات البيانات التوضيحية لمدة عامين. إنه ، الذي يمكن أن يطلق عليه "العامل الماهر" ، يتطلع إلى الوضع الحالي ويتوتر بشأنه.
لقد كان ينتبه إلى ChatGPT منذ بداية العام. من النمو السريع لعدد التسجيلات لشركات الذكاء الاصطناعي ، شهد داي يان انفجار صناعة الذكاء الاصطناعي وفرص ريادة الأعمال في وسم البيانات. ** تُظهر بيانات Tianyancha أنه في الربع الأول من هذا العام وحده ، تم تسجيل 170 ألف شركة مرتبطة بالذكاء الاصطناعي حديثًا ، ويبلغ العدد الإجمالي الآن 2.67 مليون. **
يتخيل أنه يمكنه متابعة الصناعة وستنمو الشركة إلى نطاق 100 شخص في المستقبل. ** لكن من الصعب دعم الوضع الراهن لتوقعاته: سيتم قريبًا كسر دائرة تصنيف البيانات - سيتدفق عدد كبير من احتياجات وضع العلامات ، ووضع العلامات على العمال والوسطاء معًا ، وسيكون سعر الوحدة أقل. **
تمامًا مثل الفريق الهندسي الذي لا يمكنه الاتصال بالطرف "أ" الذي لديه احتياجات بناء ، ولا يمكنه تولي المشروع إلا من المقاول ، فإن الأجور التي اتصلت بها ** Daiyan تنخفض مع تغير المشروع. ** رفض القيام بمشروع الملصقات حيث يمكنه الحصول على 30 يوان فقط في اليوم.
في الوقت نفسه ، تواجه ** Daiyan أيضًا الإحراج المتمثل في عدم الترقية المهنية في صناعة الملصقات ، وعدم وجود ضمان للعقد ، وعدم وجود وسيلة للشكوى من التأخير. ** ضحك على نفسه: "نحن معطيات العمال المهاجرين للعصر الجديد".
لكن هذه ليست القصة الكاملة. ** المشكلة الأكبر هي أن الملصقات الآلية تلتهم أيضًا المشاريع الوحيدة التي لديهم. ** الذكاء الاصطناعي المدرب من قبل واضعي البيانات مثل داي يان يتعلم ويصنف نفسه تحت إشراف بشري.
ستؤدي عملية وضع الملصقات الآلية إلى تقليل تكاليف المؤسسة بشكل كبير ، وقد أصبحت الاتجاه الواعد في سوق تصنيف البيانات.
كان على دايان الاستعداد لـ "قد يحل الذكاء الاصطناعي محل الأشخاص تمامًا". قاد الفريق للقيام بتعليق توضيحي للمساعدة في التدريس ومشاريع التعليقات السحابية ثلاثية الأبعاد في فئة التعليقات التوضيحية النصية في نفس الوقت. أحدهما نص والآخر صورة فيديو. وضع داي يان خطة مفادها أنه في حالة إلغاء مشروع بواسطة الذكاء الاصطناعي ، فإنه سيقود الفريق على الفور للتحول إلى مجال آخر.
بالإضافة إلى ذلك ، يجب تقليل حجم الفريق. شطب داي يان مقياس الشركة المكونة من 100 شخص الذي تخيله في ذهنه. إنه يعتقد أنه في النهاية ، قد يتم الاحتفاظ بالفريق ذو الخبرة المكون من 20 شخصًا فقط.
** إن أنظمة الذكاء الاصطناعي المدربة من قبل واضعي البيانات تجعلهم يحلمون بكسب المزيد مع إجبارهم على التخطيط للتخريب. **
** 1. وضع العلامات ، دع الذكاء الاصطناعي يفتح أعينه ليرى العالم **
من أجل أن تفهم الآلات النص والصوت والصور مثل البشر ، أنشأ البشر سلسلة تعلم الآلة: جمع الصور المادية والأصوات في العالم المادي ، ووضع العلامات على البيانات وتنظيفها ، وتحويل البيانات إلى سلسلة من الرموز وإرسالها للجهاز.
يعتقد علماء الذكاء الاصطناعي أن الأطفال البالغين من العمر ثلاث سنوات "يلتقطون" مئات الملايين من الصور من خلال عيونهم ، ويفهمون العالم بشكل متكرر. وطالما يتم ضخ بيانات كافية في الجهاز ، يمكن للآلة أيضًا تعلم قراءة الجمل والتعرف عليها ، وفي النهاية فهم المعنى العميق وراء اللغة.
هناك 15 مليون صورة في أطلس ImageNet. ساعدت مجموعة البيانات هذه عددًا لا يحصى من شركات الذكاء الاصطناعي على تحقيق اختراقات في رؤية الكمبيوتر ، مثل التعرف على الوجوه والبحث عن الصور.
من أجل بناء ImageNet ، عمل ما يقرب من 50000 واسم بيانات من 167 دولة حول العالم معًا لمدة عامين ونصف ، وقد أتوا جميعًا من منصة التعهيد الجماعي الميكانيكية Turk.
متطلبات وضع العلامات بسيطة للغاية. تتمثل مهمة MTurk الشائعة في تمييز لون الصورة ، أو تصنيف الحيوانات التي تظهر في الصورة ، أو استخدام الصناديق لتأطير الكائنات المحددة وتسمية أسمائها: هذه كعكة ، هذه سيارة ، إنها سحابة وما إلى ذلك.
يتم توزيع 200000 عامل بدوام جزئي على المنصة في إفريقيا وجنوب شرق آسيا ، حيث تكون تكاليف العمالة منخفضة ، وحتى أنهم شكلوا "قرية شرح البيانات" المميزة. البيانات التي يميزونها تدعم استكشاف شركات التكنولوجيا في الذكاء الاصطناعي.
في الصين ، يتم توزيع الملايين من المعلقين في مدن الدرجة الثانية والثالثة في قويتشو وشانشي وشاندونغ وخنان ومقاطعات أخرى ، ويتغلغلون تدريجيًا في المقاطعات ذات تكاليف العمالة المنخفضة. يعتمدون إما على منصات التعهيد الجماعي عبر الإنترنت ، أو ينضمون إلى شركات وضع العلامات على البيانات غير المتصلة بالإنترنت وقواعد وضع العلامات. **
ينقسم محتوى التعليق التوضيحي إلى نص وصورة وصوت وفقًا للمشهد ، بما يتوافق مع وظائف مساعدة الجهاز في معرفة القراءة والكتابة والتعرف على الصور والاستماع إلى الصوت.
ركزت مشاريع التعليقات التوضيحية المبكرة على شركات الإنترنت ، وبشكل أساسي كتابة التعليقات التوضيحية الصوتية والنصية. يتجه الآن إلى الشركات ذاتية القيادة لتسمية المشاهد ثلاثية الأبعاد التي تم الحصول عليها عن طريق مسح الليدار ، مثل وضع العلامات السحابية للنقاط ؛ أو المزيد من توجيهات النص الرأسي والتسمية الصوتية: لمساعدة شركات التعليم على توفير تعليم بيانات العلامات المساعدة للنماذج الكبيرة ؛ أو للمؤسسات الطبية يوفر النموذج الكبير بيانات طبية مجمعة.
عندما يدخل الذكاء الاصطناعي عصر 2.0 ، أذهل ChatGPT المستثمرين ورجال الأعمال ورجال الأعمال ، فكل ما يتوقعه الجميع من الذكاء الاصطناعي لا يقتصر فقط على التعرف على المعلومات النصية والصوتية والصورة بشكل صارم. يأمل الناس أيضًا في أن يتمكن الذكاء الاصطناعي من فهم العلاقة بين أشياء مثل البشر ، والتعرف على الفروق الدقيقة والعواطف الكامنة وراء الأفعال ، وتمييز المعلومات وجمعها بفاعلية.
على سبيل المثال ، دع السيارة ذاتية القيادة تميز كيسًا بلاستيكيًا فارغًا أمامها ، بدلاً من حجر من نفس اللون والحجم ؛ دع الكاميرا المجاورة لحمام السباحة لم تعد تسجل فقط ما حدث بجوار حمام السباحة ، ولكن افهم ماذا حدث ، وعندما يغرق شخص ما تنبيه.
هذه لا تزال بحاجة إلى الاعتماد على التعليقات التوضيحية للبيانات ، وطرح متطلبات أعلى للتعليقات التوضيحية - أكثر عمودية ، وأكثر دقة ، وأكثر اقتصادا.
بدأ صعود سوق الملصقات من هذا أيضًا.
** 2. "هناك عدد كبير جدًا من الطلبات لمواكبة" **
من الصعب الحصول على بيانات تشرح مباشرة الزيادة الكبيرة في الطلب على التعليقات التوضيحية الجديدة ، ولكن ليس من الصعب الحكم. لأنه في الربع الأول من عام 2023 وحده ، أضافت الصين 170 ألف شركة ذكاء اصطناعي ، وطالما أنها شركة تستخدم الذكاء الاصطناعي ، فلا بد أن يكون لديها طلب على تصنيف البيانات.
انتشر الطلب بسرعة إلى سوق تصنيف البيانات. في شريط النشر حيث يجتمع ممارسو التعليقات التوضيحية للبيانات ، يمكن تحديث أكثر من اثني عشر مشروعًا لتجنيد المنشورات يوميًا ، بما في ذلك على سبيل المثال لا الحصر التعليقات التوضيحية النصية ومراجعة الموضوع والتعليقات التوضيحية لفيديو مبيعات الطائرات بدون طيار وقضيب الكشف ثنائي الأبعاد وسحابة النقاط ثلاثية الأبعاد وما إلى ذلك. عناصر لمقاطع الفيديو من نص إلى صورة.
لاحظ مُصنِّف البيانات الذي كان يعمل في الصناعة منذ سنوات عديدة أن مشاريع وضع العلامات على المركبات غير المأهولة قد ازدادت ، وأن ريادة الأعمال النموذجية واسعة النطاق في المجال الرأسي الذي ولّده طفرة AI2.0 سمحت بمشروعات وضع العلامات النصية المتراجعة أصلاً ليتم تقسيمها إلى مسارات مختلفة. ، يزيد أيضًا من الطلب على تسمية البيانات المتخصصة.
بدافع من الطلب ، Daiyan ليس الوحيد الذي شكل فريقًا جديدًا للتحقيق في الذهب. بدأ Zhang Wei من Dongying بمقاطعة Shandong أيضًا في تكريس نفسه لملصقات البيانات في نهاية العام الماضي ، وتطور إلى فريق صغير يضم أكثر من عشرة أشخاص في نصف عام. بالاعتماد على الإعانات والدعم من الحكومة المحلية ، لم تحصل شركة Zhang Wei على مكتب مجاني فحسب ، بل ساعدت الحكومة أيضًا في توجيه الموارد من الحزب A.
هناك الكثير من أوامر المشروع ، من المشروع الأولي الذي يزيد عن 100000 يوان إلى آخر طلب بقيمة 400000 يوان ، جعلت مهمة التسليم العاجلة Zhang Wei تبحث بنشاط أكبر عن العمال: قبل بضعة أيام ، اشترى Zhang Wei 6 أجهزة كمبيوتر أخرى في يوم واحد فقط.
في Zhengzhou ، Henan ، تنتقل منصة التعهيد الجماعي للتعليقات التوضيحية للبيانات إلى مبنى مكاتب من طابقين يمكن أن يستوعب 100 شخص. يكتبون موقع الشركة على اللافتة عند الباب وفي المكتب: "قاعدة بيانات البحث والتطوير الضخمة للذكاء الاصطناعي AI" "تنظيف البيانات المتكرر للذكاء الاصطناعي ليكون أكثر ذكاءً".
قال المسؤول: "هناك عدد كبير جدًا من الطلبات لتنفيذ مشروع الملصقات".
مصدر الصورة / مقدم من الأشخاص الذين تمت مقابلتهم
دخلت الأموال الساخنة أيضًا جيوب شركات الوسم لفترة طويلة. وبحسب البيانات ، ارتفع سعر سهم شركة هاييتي إيه إيه سي ، الشركة الرائدة ، بما يصل إلى 4 مرات من مارس إلى مايو من هذا العام.
وفقًا لـ 36 Krypton news ، منذ بداية هذا العام ، أدخلت أكثر من اثنتي عشرة منصة لتوسيم البيانات في الجولة B وقبلها بشكل جماعي تقييمات عالية مع زيادة تقارب 100٪. منذ النصف الثاني من العام الماضي ، حصلت شركات الملصقات التلقائية على تمويل جديد على التوالي.
في سبتمبر 2022 ، تلقت شركة Borden Intelligence تمويلًا بقيمة 10 ملايين يوان ؛ وفي ديسمبر ، أكملت Stardust Data تمويلها من الدرجة الأولى بقيمة 50 مليون يوان.كانت أربع سنوات ونصف السنة منذ آخر تمويل في يونيو 2018.
في أبريل 2023 ، تلقت شركة حلول وضع العلامات على البيانات "Kaiwang Data" جولة جديدة من التمويل الاستراتيجي ؛ وفي يونيو ، تلقت شركة بيانات الذكاء الاصطناعي "Integer Intelligence" عشرات الملايين من جولات التمويل التمهيدية.
إنهم مليئون بالحماس لتشغيل شعارات لتحل محل الملصقات اليدوية: "إعادة بناء إنتاج ملصق البيانات" ، "خط الإنتاج الآلي + القوى العاملة على نطاق واسع" ، "كسر الوضع اليدوي لملصقات القيادة التلقائية".
من الواضح أن سوق رأس المال يهتم أيضًا بهذا المجال الناشئ مرة أخرى.
** 3. حجم أكبر وأكثر صرامة **
تتكون سلسلة تصنيف البيانات من ثلاثة أجزاء.
المنبع: شركات وضع العلامات على البيانات التي يعمل بها 1 ~ 150 موظفًا ومتطرفون عبر الإنترنت وورش عمل صغيرة.
منتصف الطريق: مقدمو خدمات البيانات ، أحدهم هو منصة التعهيد الجماعي الوسيطة التي تتولى المنبع والمصب ، والآخر هو أن تختار الشركات بناء قواعد وضع العلامات الخاصة بها للاستثمار المستقر في الصناعة.
المصب: شركات التكنولوجيا والشركات الصناعية وشركات الذكاء الاصطناعي ووحدات البحث العلمي.هيمنت شركات الإنترنت على حوالي عام 2018 ، والآن يتم نقلها إلى شركات السيارات وشركات القيادة الذاتية.
تعتمد الصناعة بشكل عام نموذج تعاقد من الباطن ، أي أن شركة الطرف الأول تصدر العطاء ، ويشارك مزود الخدمة من الطرف الثالث في العطاء. بعد نجاح العطاء ، يدخل في مرتبة المورد للشركة ، والموردين الأساسيين يمكن التمتع بالحق في اختيار المهام ذات الأولوية والمزيد من الطلبات.
متطلبات المؤسسة للموردين الأساسيين هي أن يكون لديها فريق تسليم مكون من 30 شخصًا على الأقل ، وتجربة ناضجة في تسليم الطلبات ، وإنشاء نظام تدريب ، والقدرة على التحكم في جودة وكمية التسليم. يؤدي فريق الإنتاج المستقر في النهاية إلى عرض أسعار منخفض يجعل الشركة أكثر قدرة على المنافسة.
ومع ذلك ، فإن ميزة السعر المنخفض التي قدمها فريق الإدارة والمراقبة قد تعطلت. وقال أحد مقدمي الخدمة لـ "جيازي جوانجنيان": "العطاء هذا العام شرس! قدمنا 200 يوان لمشروع ، وبعض الناس قدموا 80 يوانًا في اليوم".
في النهاية ، فاز الفريق صاحب أقل عرض بالمشروع ، ولكن انتهى الأمر بالعودة إلى الفريق الأكثر نضجًا. "تم إعادتهم إلينا من قبل الطرف أ عندما لم يتمكنوا من إنهاء ذلك ، لكن السعر لم يعد يرتفع بعد الآن."
نظرًا لأن فريق Daiyan عبر الإنترنت لا يتصل مباشرة بالطرف أ. لذلك ، فإن الوضع الفوضوي للكسوة متعددة المستويات وأسعار الرقائق في السوق تجعلهم يشعرون بالضغط.
وسم البيانات صناعة قائمة على الموارد ، وأي شخص يمكنه الحصول على التعاون مع الطرف "أ" سيكون له ميزة. وكشف داي يان أنه بعد تسجيل شركة ، ادعى بعض الأفراد خطأً أن لديهم فريقًا محترفًا من 40-50 شخصًا وشاركوا في المزايدة بسعر منخفض جدًا ، وبعد الفوز بالمشروع قاموا بتقسيمه إلى 4-5 أسهم وتوزيعه. إلى فرق مختلفة ، ينقسم الفريق إلى أسفل ، ويتم جمع العمولة طبقة تلو الأخرى ، ويكسب الوسيط الفرق ، وسعر القطعة الموزعة على عمال وضع العلامات على البيانات آخذ في الانخفاض. **
طالما أن شخصًا ما يلتقط اللوحة ، فسوف تستمر في التصاعد إلى أسفل.
تُظهر قائمة الأسعار التي حصل عليها "Jiazi Guangnian" أنه بدءًا من وضع العلامات ثنائية الأبعاد وحتى وضع العلامات السحابية لنقاط الليزر ثلاثية الأبعاد ، فإن سعر الوحدة لعناصر الوسم يتراوح عمومًا من 0.5 إلى 1.5 يوان لكل إطار. تلقى داي يان مرة واحدة سعر الإطار الفردي بخصم 50٪ ، "تم نقل ما لا يقل عن أربعة أو خمسة توزيعات ورق."
** الانقلاب على سعر الوحدة يؤدي بشكل مباشر إلى تقلص رواتب موظفي الوسم. ** يعمل فريق Daiyanhe بدوام جزئي. معظم أعضاء الفريق هم من الأمهات وطلاب الجامعات والعاملين لحسابهم الخاص وطلاب المدارس الثانوية المهنية ، ويعملون 6 ساعات في اليوم. للحفاظ على هذه الحالة ، ستحصل Daiyan على دخل شهري يتراوح من 4 إلى 5 آلاف يوان خلال الوباء في عام 2022.
"إذا كان لديك جهاز كمبيوتر وكهرباء ، فيمكنك تشغيله". هذه عبارة جذابة شائعة في ملصقات البيانات الخاصة بالتوظيف. في الماضي ، كان هذا في يوم من الأيام أهم ميزة لصناعة تصنيف البيانات. لكن هذه الميزة اليوم تسببت في وقوع الصناعة بأكملها في الانقلاب. الآن دخل Daiyan الشهري هو فقط 2-3 آلاف يوان.
بينما انخفضت الدخول ، لم تنخفض أعباء العمل. على العكس من ذلك ، فإن عمل تصنيف البيانات أكثر تعقيدًا وتفصيلاً.
يفتقد كبار ممارسو التعليقات التوضيحية للبيانات سوق التعليقات التوضيحية في عصر الإنترنت: سعر إطار واحد أعلى بثلاث مرات ، وعدد العناصر كبير. يمكن لفريق من 60-70 شخصًا كسب دخل شهري قدره 300000 يوان. قال أحد الممارسين: "السوق الآن مليء بالمشروعات ذات قيمة الإنتاج (القيمة التي يولدها شخص واحد في اليوم) أقل من 100 يوان ، والتي كانت تصل في العادة إلى مئات الدولارات في اليوم".
في ذلك الوقت ، كانت عملية المشروع بسيطة ولم تكن هناك متطلبات ، مثل وضع علامة على المشهد ثنائي الأبعاد للمركبة غير المأهولة ، وعند رسم الإطار على السيارة في الصورة ، طالما أنه يمكن تأطيرها ، لم يكن هناك شرط .
** لكن الأمر مختلف الآن. "اللياقة" هي أهم معيار قبول للحزب "أ". ** قال داي يان: "في العام الماضي ، كان الخطأ مطلوبًا أن يكون من 5 إلى 7 ملم ، وهذا العام سيكون من 3-5 ملم. متطلبات الخطأ أصبحت أصغر وأصغر".
شدد عالم الذكاء الاصطناعي وو إندا مرارًا وتكرارًا على أن قيمة الذكاء الاصطناعي لا يمكن إطلاقها إلا من خلال بيانات ذات تصنيف عالي الجودة.كلما زادت البيانات عالية الجودة ، كان تطوير الذكاء الاصطناعي أسرع.
في البيانات المصنفة للمركبات غير المأهولة ، يتم التعبير عنها على أنها درجة الملاءمة بين الإطار المستطيل والجسم المحدد. وكلما زادت درجة الملاءمة ، زادت دقة الخوارزمية ، وزادت دقة الخوارزمية في التحكم في السيارة .
تنعكس عناصر التعليقات التوضيحية النصية عالية الجودة في صحة الفهم الدلالي والمعدل الصحيح للإجابة على الأسئلة. كلما ارتفع المعدل الصحيح ، كان تدريب النموذج الكبير أذكى.
يمكن أن تضمن الأيدي الماهرة تسليم البيانات بشكل سريع وجيد. طلب Daiyan ذات مرة من مبتدئ المشاركة في التحقق مما إذا كانت مسائل الرياضيات التي أكملها ChatGPT كاملة ، وما إذا كان المنطق صحيحًا ، وما إذا كان يمكن فهم اللغة من قبل طلاب المدارس الابتدائية. وقد طلب الطرف "أ" إعادة صياغة البيانات البالغ عددها 7500 والتي تم وضع علامة عليها بواسطة المبتدئ لأن معدل الدقة كان منخفضًا للغاية ، وقد استغرق الأمر من داي يان وزملائه أكثر من عشرة أيام لتصحيحها.
تصنيف البيانات ليس على نحو متزايد وظيفة بدون عتبة. يتطلب إنتاج التعليقات التوضيحية الصوتية المعقدة والطبية والقانونية والمالية وغيرها من مجموعات البيانات المهنية المتخصصين الذين لديهم احتياطيات معرفة بالموضوع القيام بالتعليقات التوضيحية المهنية.
يعتقد Dai Yan أنه ، بأخذ مشروع المركبات غير المأهولة كمثال ، يستغرق الوافدون الجدد 3 أشهر ليصبحوا بارعين في وضع العلامات ثنائية الأبعاد ، ومن 4 إلى 6 أشهر ليصبحوا بارعين في وضع العلامات ثلاثية الأبعاد.
يشير هذا النوع من التمرين إلى التدريب على دقة رسم الإطار ، باستخدام الماوس لرسم إطار مستطيل على صفحة ملصقات الكمبيوتر دفعة واحدة ، والذي يمكنه تغطية الكائن المحدد بدقة ، دون أن يخطو على الخط ، دون فقد النقاط ، و حتى بسلاسة.
إنه فقط عندما تبدأ الآلة في التعلم من تلقاء نفسها وتحل محل الإنسان لتسمية الآلة ، فهل المهارة التي يقضيها الأشخاص في التدريب لا تزال ذات مغزى؟
** 4. أزمة بديلة **
أدرك داي يان أن الذكاء الاصطناعي يقترب ، وكان في مشروع التعليق التوضيحي بالصور الذي قام به منذ بعض الوقت.
هذا مشروع قديم كانت Daiyan تعمل عليه لمدة عامين - التعرف على الخريطة. يحتاج واضعو البيانات إلى التعرف على النص الموجود في الصورة وطباعته ، السعر 8 سنتات للقطعة الواحدة. يتم إدخال البيانات المميزة نيابة عن الامتداد في نموذج التعرف على الصور. أصبح النموذج الآن بارعًا في التعرف على النص في الصور. بدأ عمل وضع العلامات في Daiyan في المراجعة والمراجعة. انخفضت الصعوبة ، وانخفض أيضًا سعر الوحدة الملحوظ.
** الذكاء الاصطناعي الذي دربه البشر مع وضع العلامات يحل محل أعمال الملصقات البشرية. ** في تقرير الاستطلاع الذي أجرته جامعة زيورخ ، وجد الباحثون من خلال القياس الفعلي أن قدرة معالجة ChatGPT في 15 مهمة تصنيف أعلى من قدرة التعهيد الجماعي. ** تم أيضًا تسريع شريط التقدم الخاص بتضمين النموذج الكبير في منصة التعهيد الجماعي. ** وجدت الأبحاث اللاحقة التي أجراها المعهد الفيدرالي للتكنولوجيا في لوزان أن أكثر من 30٪ من أصحاب التعليقات التوضيحية الجماعية قد استخدموا نماذج كبيرة عند معالجة التعليقات التوضيحية النصية.
يعد الذكاء الاصطناعي بلا شك أكثر توفيرًا للوقت والعمالة من العمل اليدوي: قال الباحثون إن تكلفة الوحدة في ChatGPT تعادل 1/20 من MTurk فقط.
كما أن Daiyan على استعداد لاستبدال خط الأعمال هذا بـ "ذكاء اصطناعي أكثر مثالية" في أي وقت. يراهن على المستقبل على المزيد من ملصقات القيادة الذاتية التي تتطلب مهارات.
ولكن يتم غزو وضع العلامات للقيادة الذاتية بواسطة الذكاء الاصطناعي أيضًا. بالمقارنة مع طريقة الرسم اليدوي للإطار ، فإن الملصقات الأوتوماتيكية تتطلب فقط نموذجًا كبيرًا مدمجًا. بعد إعداد المعلمة ، سيتم إنشاء الإطار المستطيل الذي كان يتطلب في الأصل وضع العلامات اليدوية تلقائيًا. المشكلة الوحيدة في الوقت الحاضر هي أن الإطار المستطيل الذي تم إنشاؤه به مشاكل جودة مثل المشي على الخط والملاءمة المنخفضة ، الأمر الذي يتطلب فحصًا يدويًا واحدًا تلو الآخر.
لقد فاجأ التحسن في الكفاءة شركات السيارات. المثالي هو استخدام النموذج الكبير 2.0 للمعايرة التلقائية ، وهو أكثر كفاءة 1000 مرة من البشر ؛ تعمل Tesla بنشاط على تعزيز التقدم في وضع العلامات التلقائية ، مثل إلغاء 200 مقطع فيديو عن علامات Tesla في يونيو 2022 لتحسين نظام المساعدة للموظفين الأمريكيين ، لأن Tesla's تم تحسين قدرة الملصقات التلقائية بشكل كبير ، حيث تم تصنيف 10000 مقطع فيديو تقل مدتها عن 60 ثانية ، وتحتاج فقط إلى نموذج كبير للتشغيل لمدة أسبوع ، بدلاً من وضع العلامات اليدوية لعدة أشهر.
قال Lin Qunshu ، مؤسس شركة بيانات AI Integer Intelligence ، إن المزيد والمزيد من شركات السيارات وشركات AIGC تستخدم منتجات نموذجية واسعة النطاق لوضع العلامات التلقائية ، وتزداد إيراداتها بشكل كبير. وكانت آخر خطواتهم هي إنشاء فرع للبحث والتطوير في سنغافورة.
** ومع ذلك ، فإن موفري الخدمات من الأطراف الثالثة ليسوا متفائلين بشأن نمو الملصقات الآلية. ** قال مدير مشروع منصة التعهيد الجماعي في خنان إن الملصقات الآلية لا يمكن أن تحل محل أكثر من 60٪ من متطلبات وضع العلامات ، ولا يمكن استخدامها إلا كأداة تصنيف مساعدة لمعالجة بيانات فردية أو محددة وتحسين الكفاءة البشرية.
يعتقد مدير المنتج في شركة أخرى لوضع العلامات على البيانات أن الملصقات التلقائية يمكنها فقط تصفية البيانات الأساسية البسيطة ، ولا يمكنها تحديد الكائنات بدقة من المشاهد المعقدة والمثيرة للجدل مثل البشر. هذا أيضًا هو السبب في أن سوق تصنيف البيانات لا يزال يهيمن عليه بيانات تصنيف القيادة المستقلة.
ومع ذلك ، يتفق الجميع على أن تصنيف البيانات في المستقبل سوف يتحول من القوى العاملة إلى التكنولوجيا.
باختصار ، إما أن يتم "الضغط عليهم حتى الموت" من قبل الأقران ، أو "الضغط حتى الموت" بواسطة التكنولوجيا. لكن بالتأكيد ليس من الممكن أن تظل مكتوفي الأيدي ، والشركات الخارجية التي تضع علامة على البيانات تبحث عن مخرج في المستقبل.
تتمثل خطة Daiyan في مواكبة السوق ، والبقاء يقظًا ، وتسريح الموظفين في أي وقت ، وفي نفس الوقت التطوير في اتجاه أداة الملصقات الآلية. قال مؤسس منصة التعهيد الجماعي عند التواصل مع أقرانه أنه في المستقبل ، لا ينبغي علينا تكديس القوى العاملة ، ولكن يجب أن تكون لدينا قدرات بحث وتطوير.
ماذا عن الأفراد؟ المسار الوظيفي المتداول في الصناعة هو أن أصحاب العلامات المبتدئين من ذوي الخبرة ومديري مشاريع العلامات / مديري ومحللي بيانات الشركة التابعين للطرف أ ، ويحصلون أخيرًا على ترقية براتب شهري يصل إلى عشرات الآلاف.
لم يكن أي من مصنعي البيانات الذين عرفهم داي يان يسير في هذا الاتجاه. إما بقوا في مكانهم أو استقالوا. أفضل حالة هي بناء فريق وضع العلامات الخاص بهم مثل داي يان ، لكنه لم يشعر بأي سهولة.
من ناحية ، هناك زيادة في الطلب على المشروع بسبب اتجاه الذكاء الاصطناعي ، ومن ناحية أخرى ، هناك المزيد من العطاءات العشوائية ، وانخفاض قيمة الإنتاج للفرد ، والذكاء الاصطناعي سريع النمو. تتشابك المشاعران ، وسيوفر الذكاء الاصطناعي فرصًا لا حصر لها ، وسيؤدي الذكاء الاصطناعي أيضًا إلى القضاء على "نحن".
(بناء على طلب من أجريت معهم المقابلات ، الأسماء الواردة في المقال كلها أسماء مستعارة)