نموذج كبير قابل للطي بالذكاء الاصطناعي: البيانات تشير إلى أن الدخل الشهري لـ«العمال المهاجرين» لا يزيد عن 5000، وسعر الوحدة ينخفض من 5 سنتات إلى 4 سنتات
لا تزال زينج وين تتذكر عصر ذلك اليوم قبل بضعة أشهر، ففي ذلك اليوم كانت تتقاضى 20 سنتًا في الساعة. تخرجت من كلية إعدادية في هونان وهي مُعلقة بيانات نموذجية كبيرة، وعملها اليومي ليس معقدًا - حيث تضيف تسميات إلى البيانات الأولية (مثل الصور ومقاطع الفيديو والنصوص وما إلى ذلك) التي تتلقاها.
ومع ذلك، فإن النماذج الكبيرة لديها متطلبات عالية جدًا لجودة البيانات، ففي ذلك اليوم تمت مراجعة الصورة ثماني مرات قبل الموافقة عليها، واستغرقت عملية المراجعة بأكملها ساعة واحدة. وبعبارة أخرى، كانت تجني سنتان فقط في الساعة، بينما في الظروف العادية كان يمكنها كسب 12 يوانًا وسحب 600 صندوق. وشددت مرارا وتكرارا على أن "كسب المال ليس بالأمر السهل".
هذا هو إجماع جميع ممارسي شرح البيانات تقريبًا. يحمل أحد طرفي البيانات التوضيحية الراتب الشهري للممارسين، الذين يقل دخلهم عن 5000 يوان، وهم يبنون حجر الزاوية للنموذج الكبير مثل جيش من النمل. وعلى الطرف الآخر، حلم الذكاء الاصطناعي لكبرى شركات الإنترنت، والذي تأمل في تجاوز Chat GPT 4.
يستخدم التعليق التوضيحي للبيانات نظام القطع الأكثر بدائية لحساب الأجور، ولا يوجد أي دسيسة في مكان العمل. المشكلة الوحيدة هي أن هذه الوظيفة المملة تجعل من الصعب على معظمهم الاستمرار لمدة ثلاثة أشهر. وقد أخبر الجميع تقريبًا شركة Planet Tech، أنه من الأفضل ألا تذهب.
لكن ما لا يعرفونه هو أن معظمهم قد يفقدون وظائفهم المملة قريبًا. لأنه سيتم استبدال هذه التعليقات التوضيحية للبيانات البسيطة بالذكاء الاصطناعي.
من 5 سنتات إلى 4 سنتات، انخفض السعر
حقق Lin Shuang الكثير من "الأموال السريعة" في عام 2017: أكثر من 6000 يوان في 15 يومًا. بالنسبة للين شوانغ، الذي تخرج من كلية إعدادية، فإن هذا الدخل كبير بالفعل. في ذلك الوقت، كانت توقعات الناس في مجال الذكاء الاصطناعي مرتفعة للغاية. ولم يشك أحد تقريبا في مستقبله. وكانت جميع المؤسسات الاستثمارية تؤمن إيمانا راسخا بأن الشركات التي يبلغ حجمها المليارات، أو عشرات المليارات، أو حتى مئات المليارات من الممكن أن تولد هنا.
وراء كل تقنيات الذكاء الاصطناعي تقريبا هناك منافسة بين الخوارزميات، والقدرة الحاسوبية، والعمليات الحسابية. وتشكل البيانات الضخمة الطبقة السفلية من التميز التقني. يجلس المبرمجون ذوو الخلفيات الساطعة في مكاتب في "بكين وشانغهاي وقوانغتشو" ويرسمون مخططات الذكاء الاصطناعي من خلال خوارزميات تكرار التعليمات البرمجية، في حين يقوم طلاب الجامعات والأمهات وما إلى ذلك بمعالجة الصور والنصوص والأصوات في حزم بيانات ضخمة في مقصورات في الثالث و الثالث. مدن الدرجة الرابعة انتظر.
ChatGPT ليس استثناءً. قال أحد الموظفين في فريق مشروع Baidu Wenxinyiyan إن النموذج الكبير نفسه لا يحتوي على أي تكنولوجيا جديدة، ولا توجد به حواجز تقنية عالية، والمشكلة الرئيسية هي حاجز المعلمة الذي يتكون من حاجز قوة الحوسبة.
لا يختلف شروح البيانات في عصر النماذج الكبيرة بشكل خاص عن تلك الموجودة في الماضي. قد تكون الاختلافات القليلة هي بيئة مكتبية أكثر راحة ومتطلبات أعلى لجودة الشروح. أخبر أحد ممارسي شرح البيانات موقع Tech Planet أنهم عندما يدخلون الصناعة لأول مرة، فإنهم عادة ما يشكلون فريقًا من حوالي 10 أشخاص، أحدهم مسؤول عن فحص الجودة. إذا لم يكن العمل على مستوى المعايير، فسيتم إرسال الموظف مرة أخرى إلى أعدها. تحدد جودة البيانات جودة النماذج الكبيرة.
لا يهتم عمال البيانات المهاجرون بأي فروع جديدة لتكنولوجيا الذكاء الاصطناعي، بل يهتمون أكثر بسعر الوحدة، لأن الأجور هنا تُحسب على أساس قطعة قطعة.
يتذكر لين شوانغ قائلاً: "في ذلك الوقت، عندما كان سعر الوحدة مرتفعاً، كان الإطار ثنائي الأبعاد يكلف أكثر من سنت واحد. وفي ذروة عملي، عملت لأكثر من 10 ساعات وأكسب أكثر من 600 يوان في اليوم". ومع ذلك، فإن هذا ليس هو الأعلى، حيث قال أحد المعلقين إن سعر الرسومات الإطارية ثنائية الأبعاد المبكرة يمكن أن يصل إلى 50 سنتًا.
يعد رسم الإطار عملية شائعة في التعليقات التوضيحية للبيانات، حيث يقوم المعلق بوضع علامات على الكائنات الموجودة في الصورة، مثل المركبات وأضواء الشوارع الحمراء والعقبات وما إلى ذلك، وفقًا للمتطلبات. يتم تقسيم الإطارات إلى ثنائية وثلاثية الأبعاد، وهذا الأخير سيكون أكثر تكلفة.
لكن هذه الشعبية لم تدم طويلاً، فمع تدفق المزيد والمزيد من الأشخاص وعدم سير التطور الشامل لصناعة الذكاء الاصطناعي بسلاسة، يتناقص سعر الوحدة للتعليق التوضيحي على الصورة أكثر فأكثر، وقال لين شوانغ إن أدنى سعر الآن هو 4 سنتات فقط.
"إذا كان إطار سحب، فإن متوسط سعر الوحدة في الصناعة يبلغ حوالي 0.15 يوان، لكنه لا يزال يعتمد على المشروع. إذا كان بإمكانك تلقي الطلبات، فيجب أن يكون الحد الأدنى لمتطلبات تلقي طلب مباشر هو 100 موظف. الحجم كبير جدًا، والإطار ثلاثي الأبعاد قد يكلف 30 سنتًا للقطعة الواحدة، ولكن من النادر أن يصل سعره إلى 50 سنتًا.
وبطبيعة الحال، إذا كان لديك معرفة مهنية في المجالات الطبية والمالية، فإن سعر الوحدة سيكون أعلى. على سبيل المثال، تتطلب العديد من النماذج الطبية الكبيرة أن يكون لدى المفسرين خبرة سريرية وخبرة ذات صلة.
الدخل الشهري لمعظم الممارسين لا يزيد عن 5000 يوان، وهناك أيضًا عدد قليل من المحظوظين بينهم. كان يانغ شو يدير في الأصل متجرًا لبيع الملابس في سيتشوان، لكن الوباء أثر على عمله. وانتقل إلى شرح البيانات النموذجية واسعة النطاق هذا العام. الآن، لديه دخل قدره 8000 يوان شهريًا. "لقد وقعت عقدًا مع الشركة و رسوم الامتياز المدفوعة هي 9500 يوان، وينص العقد على أن الحد الأدنى للدخل الشهري هو 7000 يوان."
من الذي جمع المال
يعد عمالقة الإنترنت مثل Alibaba وTencent وByte، بالإضافة إلى شركات السيارات مثل SAIC وLynk & Co، مصادر توزيع أعمال التعليقات التوضيحية للبيانات. إذا كنت ترغب في الحصول على الطلبات مباشرة من المصدر بأفضل الأسعار، فقم بتعليق البيانات التوضيحية تحتاج الشركات إلى نطاق معين.
أخبر أحد موظفي شركة التعليقات التوضيحية للبيانات Tech Planet أنهم يحصلون على الطلبات مباشرة من الشركات المصنعة الكبيرة، لكن الشركات المصنعة الكبيرة تطلب منهم أن يكون لديهم 500 شخص، لذلك سيختارون تلبية متطلبات الموظفين من خلال الامتياز أو الشركات التابعة.
الفرق بين الاثنين هو أن حق الامتياز مناسب للأشخاص الجدد في الصناعة لإنشاء استوديو، وإذا كنت ترغب في إنشاء شركة تابعة، فهناك بشكل عام واحدة فقط في المنطقة. يحتاج Xiaobai Studio إلى فرض رسوم امتياز، وهي 25000 أو 30000. الشركة التابعة هي الوكيل الحصري في المنطقة وتحتاج إلى دفع رسوم قدرها 50000. ومن الممكن أن يضمنوا الطلبيات الكافية في غضون ثلاث سنوات، ويكونوا مسؤولين عن التدريب الفني في غضون ثلاث سنوات. وتشكل هذه الاستوديوهات أو الشركات التابعة نقابة عمالية ضخمة تتراوح ما بين عدة مئات إلى عدة آلاف.
قال موظفو شركة التعليقات التوضيحية للبيانات المذكورة أعلاه إن شعبية النماذج الكبيرة دفعت مرة أخرى صناعة التعليقات التوضيحية للبيانات إلى حالة من الجنون، والآن يزور الناس شركتهم كل يوم تقريبًا.
ولكن في الواقع، فإن إدارة شركة لتصنيف البيانات ليس بالأمر السهل. ما تخبرك به شركة شرح البيانات هو أنه من الصعب القيام بهذه الصناعة في أول شهر أو شهرين لأن الموظفين يحتاجون إلى فترة تكثيف، في المرحلة المبكرة، يكفي 5-8 أشخاص فقط، وحتى عمة فيها الأربعينيات لن تواجه أي مشكلة.
الاستقرار هو العامل الأكثر أهمية لشركة أو استوديو التعليقات التوضيحية للبيانات. ومع ذلك، فإن معظم موظفي التعليقات التوضيحية الذين تتواصل معهم شركة Tech Planet غالبًا ما يتركون وظائفهم بسرعة الضوء خلال 3 أشهر بسبب الملل. ولا يتوفر الموظفون الجدد على الفور للعمليات العملية. ونتيجة ارتفاع معدل دوران الموظفين هي انخفاض الجودة ودورة شرح البيانات ليست مستقرة بما فيه الكفاية. . الأمهات اللاتي يعانين من نقص المال هم الأشخاص الأكثر شعبية في استوديوهات التعليقات التوضيحية للبيانات.
"بالتأكيد ليس من الممكن العثور على وظيفة بدوام جزئي. ستكون هناك فجوات. إذا استثمرت في الإيجار وأجهزة الكمبيوتر، فسوف تخسر المال. أفضل طريقة هي جعل جميع الموظفين يعملون،" كما قال وي مينغ، الذي أدار مركز بيانات. صرح استوديو التعليقات التوضيحية لموقع Tech Planet.
وتشير معظم البيانات إلى أن دورة السداد للشركة تبدأ عند 3 أشهر ويمكن أن تصل إلى نصف عام، لكنها تحتاج إلى دفع رواتب موظفيها شهريا، الأمر الذي يتطلب درجة معينة من احتياطيات رأس المال. "3500 للشخص الواحد، 100 شخص، 3 الأشهر 1.05 مليون."
انضم Zhang Jian ذات مرة إلى نقابة تضم أكثر من 200 موظف. في السنة الأولى، تمكنوا من اللحاق بالفترة المتفجرة في الصناعة، وكان سعر الوحدة لرسم الإطار ثنائي الأبعاد يصل إلى 5 سنتات، وفي ذلك العام، كسبت نقابته أكثر من 4 ملايين دولار.
لكن في العام التالي، أخذت الأمور منعطفاً نحو الأسوأ. أصبح سعر الوحدة المحدد أقل، وأصبح الموظفون أكثر تنقلاً، وزادت فترة الفجوة، بالإضافة إلى ذلك، لم تتم تسوية مشروعين كبيرين، وبعد عام كامل، خسروا أكثر من 3 ملايين يوان. قال تشانغ جيان: "قال الرؤساء إنهم لن يمسوا شرح البيانات على المدى القصير. إنهم حاليًا في دعوى قضائية مع المنبع".
هذا عمل منخفض الهامش. هايتي رويشينغ هي أول شركة رئيسية مدرجة في مجلس الإدارة في صناعة التعليقات التوضيحية للبيانات، وفي العام الماضي، حققت الشركة إيرادات بلغت 263 مليون يوان، وأرباحًا بلغت 29.45 مليون يوان فقط، وهامش صافي ربح يزيد قليلاً عن 10٪. لكن في النصف الأول من العام الجاري، تعرضت الشركة للخسائر بسبب تراجع عدد العملاء.
"المسامير" التي يمكن استبدالها في أي وقت
بالاعتماد على تراكم النمل الذي يتحرك في كينيا، برزت OpenAI أخيرًا بقدرات نموذج الحوار اللغوي واسع النطاق. هؤلاء الأشخاص العاديون، الذين يطلق عليهم عمال البيانات، يدعمون حلم الذكاء الاصطناعي لسام ألتمان (مؤسس OpenAI)، ولكن إذا لم يحدث شيء آخر، فسيتم استبدال معظم العمل الذي بين أيديهم قريبًا بالمنتجات الجديدة التي شاركوا في إنشائها. استبدال.
في الخارج، جمعت شركة Anthropic، التي تأسست في عام 2021 من قبل موظفين سابقين في Open AI، 5.15 مليار دولار هذا العام، أي أكثر من سبعة أضعاف إجمالي تمويلها في العامين الماضيين. تقدم الشركة طريقة جديدة لتدريب النماذج بمشاركة بشرية أقل.
هذا العام، أطلقت شركة التزود بالوقود الناشئة في مجال الذكاء الاصطناعي أداة مفتوحة المصدر تسمى Autolabel، والتي يمكنها استخدام النماذج الكبيرة السائدة في السوق لتصنيف مجموعات البيانات. ذكرت نتائج اختبار الشركة أن كفاءة وضع العلامات في Autolabel أعلى 100 مرة من وضع العلامات اليدوي، وأن التكلفة تبلغ 1/7 فقط من تكلفة العمالة.
وفي الصين، تقوم شركة تدعى Vision Future أيضًا ببناء نماذج توضيحية واسعة النطاق. وقالوا في إحدى المقابلات إن بعض المشاريع تم تسليمها باستخدام تقنية GPT، وقد وصلت الدقة إلى أكثر من 80%، وهي قريبة من العمل اليدوي.
ومع ذلك، يعتقد هايتي رويشينغ أن الذكاء الاصطناعي لن يحقق شرحًا آليًا بالكامل، لأنه إذا أرادت الآلة الاستمرار في التطور وجعلها أقرب إلى الحكم والفهم البشري، فستحتاج بالتأكيد إلى التوجيه البشري.
تقريبًا كل من شارك في شرح البيانات كشف عن نفس وجهة النظر لـ Tech Planet: التعليق التوضيحي للبيانات هو عمل ليس له حد أدنى ويتطلب منك فقط أن تكون ماهرًا في استخدام أجهزة الكمبيوتر.
ولكن في الواقع، إذا كان من الممكن إكمال التعليقات التوضيحية البسيطة باستخدام الذكاء الاصطناعي، فستكون المشاركة اليدوية أكثر صعوبة في فحص البيانات والعمل القياسي، مما يعني أيضًا أن عتبة الصناعة ستستمر في الزيادة، وخاصة ChatGPT وWen Xinyiyan نموذج لغة كبير لـ الطبقات.
على سبيل المقارنة، قبل وقت طويل من انتشار ChatGPT، نظمت OpenAI أكثر من عشرة طلاب دكتوراه "لتقييمهم". تضم قاعدة التعليقات التوضيحية لبيانات Baidu في هايكو المئات من المفسرين للبيانات النموذجية الكبيرة بدوام كامل، ويصل معدل المفسرين الجامعيين إلى 100%.
من سمات هذا النوع من نماذج اللغة الكبيرة أن المدون يحتاج إلى احتياطي معرفي معين وقدرة على التحليل المنطقي. ووفقا لتقرير "Financial Eleven"، يحتاج المفسرون إلى تحديد نوع السؤال، ثم تسجيل الإجابات الخمس وترتيبها على التوالي، ويكون نطاق النتيجة من 0 إلى 5 نقاط، وإذا كانت النتيجة أقل من 3 نقاط، فيجب ذكر الأسباب المحددة ملحوظة، مثل "الإجابة ليست ما تم طرحه (0 نقطة)"، "بجدية خارج الموضوع (نقطة واحدة)"، "هناك مشاكل منطقية وأخطاء في الواقع، والنسبة صغيرة ونقطتان" معين "، إلخ.
هناك مجال آخر شائع لتعليق البيانات وهو القيادة الذاتية. وفقًا لتقرير شركة ديلويت، سيشكل الطلب على العلامات في مجال القيادة الذاتية 38% من جميع تطبيقات الذكاء الاصطناعي النهائية في عام 2022، ومن المتوقع أن ترتفع هذه النسبة إلى 52% بحلول عام 2027. بالمقارنة مع النماذج اللغوية الكبيرة، بالنسبة للنماذج في مجال القيادة الذاتية، فإن عمليات سحب الصندوق البسيطة هذه لا تزال تتطلب متطلبات أكاديمية فضفاضة نسبيًا.
يعد المفسرون حجر الزاوية في البشرية من عصر الإنترنت عبر الهاتف المحمول إلى عصر الذكاء الاصطناعي، ومعظم الممارسين الذين تواصلت معهم شركة Tech Planet لا يعرفون التغييرات التي سيجلبها الذكاء الاصطناعي لهم، ولا المساهمات التي قدموها في تطوير الذكاء الاصطناعي، إنهم مجرد جيل جديد من البراغيث في عصر الإنترنت، ويمكن استبدالهم في أي وقت.
(ملاحظة: الشخصيات الواردة في المقال كلها أسماء مستعارة.)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
نموذج كبير قابل للطي بالذكاء الاصطناعي: البيانات تشير إلى أن الدخل الشهري لـ«العمال المهاجرين» لا يزيد عن 5000، وسعر الوحدة ينخفض من 5 سنتات إلى 4 سنتات
المصدر الأصلي: تك بلانيت
لا تزال زينج وين تتذكر عصر ذلك اليوم قبل بضعة أشهر، ففي ذلك اليوم كانت تتقاضى 20 سنتًا في الساعة. تخرجت من كلية إعدادية في هونان وهي مُعلقة بيانات نموذجية كبيرة، وعملها اليومي ليس معقدًا - حيث تضيف تسميات إلى البيانات الأولية (مثل الصور ومقاطع الفيديو والنصوص وما إلى ذلك) التي تتلقاها.
ومع ذلك، فإن النماذج الكبيرة لديها متطلبات عالية جدًا لجودة البيانات، ففي ذلك اليوم تمت مراجعة الصورة ثماني مرات قبل الموافقة عليها، واستغرقت عملية المراجعة بأكملها ساعة واحدة. وبعبارة أخرى، كانت تجني سنتان فقط في الساعة، بينما في الظروف العادية كان يمكنها كسب 12 يوانًا وسحب 600 صندوق. وشددت مرارا وتكرارا على أن "كسب المال ليس بالأمر السهل".
هذا هو إجماع جميع ممارسي شرح البيانات تقريبًا. يحمل أحد طرفي البيانات التوضيحية الراتب الشهري للممارسين، الذين يقل دخلهم عن 5000 يوان، وهم يبنون حجر الزاوية للنموذج الكبير مثل جيش من النمل. وعلى الطرف الآخر، حلم الذكاء الاصطناعي لكبرى شركات الإنترنت، والذي تأمل في تجاوز Chat GPT 4.
يستخدم التعليق التوضيحي للبيانات نظام القطع الأكثر بدائية لحساب الأجور، ولا يوجد أي دسيسة في مكان العمل. المشكلة الوحيدة هي أن هذه الوظيفة المملة تجعل من الصعب على معظمهم الاستمرار لمدة ثلاثة أشهر. وقد أخبر الجميع تقريبًا شركة Planet Tech، أنه من الأفضل ألا تذهب.
لكن ما لا يعرفونه هو أن معظمهم قد يفقدون وظائفهم المملة قريبًا. لأنه سيتم استبدال هذه التعليقات التوضيحية للبيانات البسيطة بالذكاء الاصطناعي.
من 5 سنتات إلى 4 سنتات، انخفض السعر
حقق Lin Shuang الكثير من "الأموال السريعة" في عام 2017: أكثر من 6000 يوان في 15 يومًا. بالنسبة للين شوانغ، الذي تخرج من كلية إعدادية، فإن هذا الدخل كبير بالفعل. في ذلك الوقت، كانت توقعات الناس في مجال الذكاء الاصطناعي مرتفعة للغاية. ولم يشك أحد تقريبا في مستقبله. وكانت جميع المؤسسات الاستثمارية تؤمن إيمانا راسخا بأن الشركات التي يبلغ حجمها المليارات، أو عشرات المليارات، أو حتى مئات المليارات من الممكن أن تولد هنا.
وراء كل تقنيات الذكاء الاصطناعي تقريبا هناك منافسة بين الخوارزميات، والقدرة الحاسوبية، والعمليات الحسابية. وتشكل البيانات الضخمة الطبقة السفلية من التميز التقني. يجلس المبرمجون ذوو الخلفيات الساطعة في مكاتب في "بكين وشانغهاي وقوانغتشو" ويرسمون مخططات الذكاء الاصطناعي من خلال خوارزميات تكرار التعليمات البرمجية، في حين يقوم طلاب الجامعات والأمهات وما إلى ذلك بمعالجة الصور والنصوص والأصوات في حزم بيانات ضخمة في مقصورات في الثالث و الثالث. مدن الدرجة الرابعة انتظر.
ChatGPT ليس استثناءً. قال أحد الموظفين في فريق مشروع Baidu Wenxinyiyan إن النموذج الكبير نفسه لا يحتوي على أي تكنولوجيا جديدة، ولا توجد به حواجز تقنية عالية، والمشكلة الرئيسية هي حاجز المعلمة الذي يتكون من حاجز قوة الحوسبة.
لا يختلف شروح البيانات في عصر النماذج الكبيرة بشكل خاص عن تلك الموجودة في الماضي. قد تكون الاختلافات القليلة هي بيئة مكتبية أكثر راحة ومتطلبات أعلى لجودة الشروح. أخبر أحد ممارسي شرح البيانات موقع Tech Planet أنهم عندما يدخلون الصناعة لأول مرة، فإنهم عادة ما يشكلون فريقًا من حوالي 10 أشخاص، أحدهم مسؤول عن فحص الجودة. إذا لم يكن العمل على مستوى المعايير، فسيتم إرسال الموظف مرة أخرى إلى أعدها. تحدد جودة البيانات جودة النماذج الكبيرة.
لا يهتم عمال البيانات المهاجرون بأي فروع جديدة لتكنولوجيا الذكاء الاصطناعي، بل يهتمون أكثر بسعر الوحدة، لأن الأجور هنا تُحسب على أساس قطعة قطعة.
يتذكر لين شوانغ قائلاً: "في ذلك الوقت، عندما كان سعر الوحدة مرتفعاً، كان الإطار ثنائي الأبعاد يكلف أكثر من سنت واحد. وفي ذروة عملي، عملت لأكثر من 10 ساعات وأكسب أكثر من 600 يوان في اليوم". ومع ذلك، فإن هذا ليس هو الأعلى، حيث قال أحد المعلقين إن سعر الرسومات الإطارية ثنائية الأبعاد المبكرة يمكن أن يصل إلى 50 سنتًا.
يعد رسم الإطار عملية شائعة في التعليقات التوضيحية للبيانات، حيث يقوم المعلق بوضع علامات على الكائنات الموجودة في الصورة، مثل المركبات وأضواء الشوارع الحمراء والعقبات وما إلى ذلك، وفقًا للمتطلبات. يتم تقسيم الإطارات إلى ثنائية وثلاثية الأبعاد، وهذا الأخير سيكون أكثر تكلفة.
لكن هذه الشعبية لم تدم طويلاً، فمع تدفق المزيد والمزيد من الأشخاص وعدم سير التطور الشامل لصناعة الذكاء الاصطناعي بسلاسة، يتناقص سعر الوحدة للتعليق التوضيحي على الصورة أكثر فأكثر، وقال لين شوانغ إن أدنى سعر الآن هو 4 سنتات فقط.
"إذا كان إطار سحب، فإن متوسط سعر الوحدة في الصناعة يبلغ حوالي 0.15 يوان، لكنه لا يزال يعتمد على المشروع. إذا كان بإمكانك تلقي الطلبات، فيجب أن يكون الحد الأدنى لمتطلبات تلقي طلب مباشر هو 100 موظف. الحجم كبير جدًا، والإطار ثلاثي الأبعاد قد يكلف 30 سنتًا للقطعة الواحدة، ولكن من النادر أن يصل سعره إلى 50 سنتًا.
وبطبيعة الحال، إذا كان لديك معرفة مهنية في المجالات الطبية والمالية، فإن سعر الوحدة سيكون أعلى. على سبيل المثال، تتطلب العديد من النماذج الطبية الكبيرة أن يكون لدى المفسرين خبرة سريرية وخبرة ذات صلة.
الدخل الشهري لمعظم الممارسين لا يزيد عن 5000 يوان، وهناك أيضًا عدد قليل من المحظوظين بينهم. كان يانغ شو يدير في الأصل متجرًا لبيع الملابس في سيتشوان، لكن الوباء أثر على عمله. وانتقل إلى شرح البيانات النموذجية واسعة النطاق هذا العام. الآن، لديه دخل قدره 8000 يوان شهريًا. "لقد وقعت عقدًا مع الشركة و رسوم الامتياز المدفوعة هي 9500 يوان، وينص العقد على أن الحد الأدنى للدخل الشهري هو 7000 يوان."
من الذي جمع المال
يعد عمالقة الإنترنت مثل Alibaba وTencent وByte، بالإضافة إلى شركات السيارات مثل SAIC وLynk & Co، مصادر توزيع أعمال التعليقات التوضيحية للبيانات. إذا كنت ترغب في الحصول على الطلبات مباشرة من المصدر بأفضل الأسعار، فقم بتعليق البيانات التوضيحية تحتاج الشركات إلى نطاق معين.
أخبر أحد موظفي شركة التعليقات التوضيحية للبيانات Tech Planet أنهم يحصلون على الطلبات مباشرة من الشركات المصنعة الكبيرة، لكن الشركات المصنعة الكبيرة تطلب منهم أن يكون لديهم 500 شخص، لذلك سيختارون تلبية متطلبات الموظفين من خلال الامتياز أو الشركات التابعة.
الفرق بين الاثنين هو أن حق الامتياز مناسب للأشخاص الجدد في الصناعة لإنشاء استوديو، وإذا كنت ترغب في إنشاء شركة تابعة، فهناك بشكل عام واحدة فقط في المنطقة. يحتاج Xiaobai Studio إلى فرض رسوم امتياز، وهي 25000 أو 30000. الشركة التابعة هي الوكيل الحصري في المنطقة وتحتاج إلى دفع رسوم قدرها 50000. ومن الممكن أن يضمنوا الطلبيات الكافية في غضون ثلاث سنوات، ويكونوا مسؤولين عن التدريب الفني في غضون ثلاث سنوات. وتشكل هذه الاستوديوهات أو الشركات التابعة نقابة عمالية ضخمة تتراوح ما بين عدة مئات إلى عدة آلاف.
قال موظفو شركة التعليقات التوضيحية للبيانات المذكورة أعلاه إن شعبية النماذج الكبيرة دفعت مرة أخرى صناعة التعليقات التوضيحية للبيانات إلى حالة من الجنون، والآن يزور الناس شركتهم كل يوم تقريبًا.
ولكن في الواقع، فإن إدارة شركة لتصنيف البيانات ليس بالأمر السهل. ما تخبرك به شركة شرح البيانات هو أنه من الصعب القيام بهذه الصناعة في أول شهر أو شهرين لأن الموظفين يحتاجون إلى فترة تكثيف، في المرحلة المبكرة، يكفي 5-8 أشخاص فقط، وحتى عمة فيها الأربعينيات لن تواجه أي مشكلة.
الاستقرار هو العامل الأكثر أهمية لشركة أو استوديو التعليقات التوضيحية للبيانات. ومع ذلك، فإن معظم موظفي التعليقات التوضيحية الذين تتواصل معهم شركة Tech Planet غالبًا ما يتركون وظائفهم بسرعة الضوء خلال 3 أشهر بسبب الملل. ولا يتوفر الموظفون الجدد على الفور للعمليات العملية. ونتيجة ارتفاع معدل دوران الموظفين هي انخفاض الجودة ودورة شرح البيانات ليست مستقرة بما فيه الكفاية. . الأمهات اللاتي يعانين من نقص المال هم الأشخاص الأكثر شعبية في استوديوهات التعليقات التوضيحية للبيانات.
"بالتأكيد ليس من الممكن العثور على وظيفة بدوام جزئي. ستكون هناك فجوات. إذا استثمرت في الإيجار وأجهزة الكمبيوتر، فسوف تخسر المال. أفضل طريقة هي جعل جميع الموظفين يعملون،" كما قال وي مينغ، الذي أدار مركز بيانات. صرح استوديو التعليقات التوضيحية لموقع Tech Planet.
وتشير معظم البيانات إلى أن دورة السداد للشركة تبدأ عند 3 أشهر ويمكن أن تصل إلى نصف عام، لكنها تحتاج إلى دفع رواتب موظفيها شهريا، الأمر الذي يتطلب درجة معينة من احتياطيات رأس المال. "3500 للشخص الواحد، 100 شخص، 3 الأشهر 1.05 مليون."
انضم Zhang Jian ذات مرة إلى نقابة تضم أكثر من 200 موظف. في السنة الأولى، تمكنوا من اللحاق بالفترة المتفجرة في الصناعة، وكان سعر الوحدة لرسم الإطار ثنائي الأبعاد يصل إلى 5 سنتات، وفي ذلك العام، كسبت نقابته أكثر من 4 ملايين دولار.
لكن في العام التالي، أخذت الأمور منعطفاً نحو الأسوأ. أصبح سعر الوحدة المحدد أقل، وأصبح الموظفون أكثر تنقلاً، وزادت فترة الفجوة، بالإضافة إلى ذلك، لم تتم تسوية مشروعين كبيرين، وبعد عام كامل، خسروا أكثر من 3 ملايين يوان. قال تشانغ جيان: "قال الرؤساء إنهم لن يمسوا شرح البيانات على المدى القصير. إنهم حاليًا في دعوى قضائية مع المنبع".
هذا عمل منخفض الهامش. هايتي رويشينغ هي أول شركة رئيسية مدرجة في مجلس الإدارة في صناعة التعليقات التوضيحية للبيانات، وفي العام الماضي، حققت الشركة إيرادات بلغت 263 مليون يوان، وأرباحًا بلغت 29.45 مليون يوان فقط، وهامش صافي ربح يزيد قليلاً عن 10٪. لكن في النصف الأول من العام الجاري، تعرضت الشركة للخسائر بسبب تراجع عدد العملاء.
"المسامير" التي يمكن استبدالها في أي وقت
بالاعتماد على تراكم النمل الذي يتحرك في كينيا، برزت OpenAI أخيرًا بقدرات نموذج الحوار اللغوي واسع النطاق. هؤلاء الأشخاص العاديون، الذين يطلق عليهم عمال البيانات، يدعمون حلم الذكاء الاصطناعي لسام ألتمان (مؤسس OpenAI)، ولكن إذا لم يحدث شيء آخر، فسيتم استبدال معظم العمل الذي بين أيديهم قريبًا بالمنتجات الجديدة التي شاركوا في إنشائها. استبدال.
في الخارج، جمعت شركة Anthropic، التي تأسست في عام 2021 من قبل موظفين سابقين في Open AI، 5.15 مليار دولار هذا العام، أي أكثر من سبعة أضعاف إجمالي تمويلها في العامين الماضيين. تقدم الشركة طريقة جديدة لتدريب النماذج بمشاركة بشرية أقل.
هذا العام، أطلقت شركة التزود بالوقود الناشئة في مجال الذكاء الاصطناعي أداة مفتوحة المصدر تسمى Autolabel، والتي يمكنها استخدام النماذج الكبيرة السائدة في السوق لتصنيف مجموعات البيانات. ذكرت نتائج اختبار الشركة أن كفاءة وضع العلامات في Autolabel أعلى 100 مرة من وضع العلامات اليدوي، وأن التكلفة تبلغ 1/7 فقط من تكلفة العمالة.
وفي الصين، تقوم شركة تدعى Vision Future أيضًا ببناء نماذج توضيحية واسعة النطاق. وقالوا في إحدى المقابلات إن بعض المشاريع تم تسليمها باستخدام تقنية GPT، وقد وصلت الدقة إلى أكثر من 80%، وهي قريبة من العمل اليدوي.
ومع ذلك، يعتقد هايتي رويشينغ أن الذكاء الاصطناعي لن يحقق شرحًا آليًا بالكامل، لأنه إذا أرادت الآلة الاستمرار في التطور وجعلها أقرب إلى الحكم والفهم البشري، فستحتاج بالتأكيد إلى التوجيه البشري.
تقريبًا كل من شارك في شرح البيانات كشف عن نفس وجهة النظر لـ Tech Planet: التعليق التوضيحي للبيانات هو عمل ليس له حد أدنى ويتطلب منك فقط أن تكون ماهرًا في استخدام أجهزة الكمبيوتر.
ولكن في الواقع، إذا كان من الممكن إكمال التعليقات التوضيحية البسيطة باستخدام الذكاء الاصطناعي، فستكون المشاركة اليدوية أكثر صعوبة في فحص البيانات والعمل القياسي، مما يعني أيضًا أن عتبة الصناعة ستستمر في الزيادة، وخاصة ChatGPT وWen Xinyiyan نموذج لغة كبير لـ الطبقات.
على سبيل المقارنة، قبل وقت طويل من انتشار ChatGPT، نظمت OpenAI أكثر من عشرة طلاب دكتوراه "لتقييمهم". تضم قاعدة التعليقات التوضيحية لبيانات Baidu في هايكو المئات من المفسرين للبيانات النموذجية الكبيرة بدوام كامل، ويصل معدل المفسرين الجامعيين إلى 100%.
من سمات هذا النوع من نماذج اللغة الكبيرة أن المدون يحتاج إلى احتياطي معرفي معين وقدرة على التحليل المنطقي. ووفقا لتقرير "Financial Eleven"، يحتاج المفسرون إلى تحديد نوع السؤال، ثم تسجيل الإجابات الخمس وترتيبها على التوالي، ويكون نطاق النتيجة من 0 إلى 5 نقاط، وإذا كانت النتيجة أقل من 3 نقاط، فيجب ذكر الأسباب المحددة ملحوظة، مثل "الإجابة ليست ما تم طرحه (0 نقطة)"، "بجدية خارج الموضوع (نقطة واحدة)"، "هناك مشاكل منطقية وأخطاء في الواقع، والنسبة صغيرة ونقطتان" معين "، إلخ.
هناك مجال آخر شائع لتعليق البيانات وهو القيادة الذاتية. وفقًا لتقرير شركة ديلويت، سيشكل الطلب على العلامات في مجال القيادة الذاتية 38% من جميع تطبيقات الذكاء الاصطناعي النهائية في عام 2022، ومن المتوقع أن ترتفع هذه النسبة إلى 52% بحلول عام 2027. بالمقارنة مع النماذج اللغوية الكبيرة، بالنسبة للنماذج في مجال القيادة الذاتية، فإن عمليات سحب الصندوق البسيطة هذه لا تزال تتطلب متطلبات أكاديمية فضفاضة نسبيًا.
يعد المفسرون حجر الزاوية في البشرية من عصر الإنترنت عبر الهاتف المحمول إلى عصر الذكاء الاصطناعي، ومعظم الممارسين الذين تواصلت معهم شركة Tech Planet لا يعرفون التغييرات التي سيجلبها الذكاء الاصطناعي لهم، ولا المساهمات التي قدموها في تطوير الذكاء الاصطناعي، إنهم مجرد جيل جديد من البراغيث في عصر الإنترنت، ويمكن استبدالهم في أي وقت.
(ملاحظة: الشخصيات الواردة في المقال كلها أسماء مستعارة.)