Працівники з маркування даних: навчання AI, замінено на AI

Ріст і елімінація відбуваються одночасно.

Автор|Ma Hui

Редагувати|Chestnuts

Джерело зображення: створено інструментом Unbounded AI

** Перспективи та знищення існують одночасно, і практики маркування даних ніколи не були такими суперечливими. **

Дай Ян, 30-річний житель Внутрішньої Монголії, розпочав свій бізнес на початку цього року та сформував онлайн-команду етикеток із майже 30 осіб. Раніше Даян два роки працював над платформою краудсорсингу для анотації даних. Він, якого можна назвати «кваліфікованим робітником», водночас і з нетерпінням чекає, і нервує з приводу поточної ситуації.

З початку року він звернув увагу на ChatGPT. Зі стрімкого зростання кількості реєстрацій підприємств зі штучним інтелектом Даян бачить процвітаючу індустрію штучного інтелекту та підприємницькі можливості маркування даних. **Дані Tianyancha показують, що тільки в першому кварталі цього року було зареєстровано 170 000 компаній, пов’язаних зі штучним інтелектом, і загальна кількість зараз становить 2,67 мільйона. **

Він уявляє, що може стежити за галуззю, і в майбутньому компанія зросте до 100 осіб. **Але поточний статус-кво важко підтвердити його очікування: коло маркування даних незабаром буде розірвано — велика кількість потреб у маркуваннях, працівників із маркування та посередників з’явиться разом, і ціна за одиницю буде нижчою. **

Подібно до того, як команда інженерів не може зв’язатися зі стороною А, яка має потреби в будівництві, і може лише взяти проект від підрядника, зарплата, з якою зв’язується **Daiyan, стає все нижчою та нижчою, оскільки проект переходить з рук в руки. **Він відмовився виконувати проект маркування, де міг отримувати лише 30 юанів на день.

У той же час ** Дайян також стикається з незручністю, пов’язаною з відсутністю кар’єрного просування в галузі маркування, відсутністю гарантії контракту та можливості поскаржитися на затримку. **Він посміявся над собою: «Ми — робочі дані-мігранти нової ери».

Але це ще не вся історія. **Найбільша проблема полягає в тому, що автоматичне маркування також з’їдає єдині проекти, які вони мають. ** Штучний інтелект, навчений розмічувачами даних, такими як Дай Янь, навчається та розміщує себе під наглядом людини.

Автоматизоване маркування значно скоротить витрати підприємства і стало найперспективнішим напрямком на ринку маркування даних.

Даян повинен був підготуватися до того, що «ШІ може повністю замінити людей». Він керував командою, яка одночасно створювала анотації до навчальної допомоги та анотації 3D хмари точок у категорії текстових анотацій. Один – це текст, а інший – відео із зображеннями. Дай Янь розробив план: якщо ШІ скасує проект, він негайно скерує команду на інше поле.

Крім того, слід зменшити розмір команди. Дай Янь перекреслив масштаб компанії зі 100 осіб, яку він уявляв у своїй уяві. Він вважає, що в підсумку вдасться зберегти лише досвідчену команду з 20 осіб.

**Ці штучні інтелекти, навчені мітками даних, змушують їх мріяти заробляти більше, водночас змушуючи їх планувати підрив. **

1. Розмічаючи, дозвольте ШІ відкрити очі, щоб побачити світ

Щоб машини могли розуміти текст, голос і зображення, як люди, люди створили ланцюжок машинного навчання: збір фізичних зображень і звуків у фізичному світі, позначення та очищення даних, перетворення даних у серію кодів і надсилання їх до машини.

Фахівці штучного інтелекту вважають, що трирічні немовлята «знімають» очима сотні мільйонів картинок, неодноразово розуміючи світ. Отже, якщо в машину введено достатньо даних, машина також може навчитися читати та розпізнавати речення та, нарешті, зрозуміти глибокий зміст мови.

В атласі ImageNet міститься 15 мільйонів зображень. Цей набір даних допоміг незліченним компаніям зі штучним інтелектом досягти прориву в області комп’ютерного зору, наприклад розпізнавання облич і пошуку зображень.

Щоб побудувати ImageNet, близько 50 000 розміщувачів даних із 167 країн світу працювали разом протягом двох з половиною років Усі вони прийшли з краудсорсингової платформи Mechanical Turk.

Вимоги до маркування дуже прості. Загальна робота MTurk полягає в тому, щоб розрізняти колір фотографії, або класифікувати тварин, які з’являються на зображенні, або використовувати коробки, щоб обрамити вибрані об’єкти та позначити їхні назви: це торт, це автомобіль, Це хмара і так далі.

Graph/Integer Intelligence

200 000 працівників платформи, які працюють неповний робочий день, розподілені в Африці та Південно-Східній Азії, де вартість робочої сили низька, і навіть утворили характерне «село анотації даних». Дані, які вони позначають, підтримують дослідження технологічних компаній у сфері ШІ.

У Китаї мільйони анотаторів розподілені в містах другого та третього рівня в Гуйчжоу, Шаньсі, Шаньдун, Хенань та інших провінціях і поступово проникають у округи з нижчими витратами на робочу силу. Вони або покладаються на онлайн-платформи краудсорсингу, або приєднуються до офлайн-компаній і баз маркування даних. **

Вміст анотації поділяється на текст, зображення та голос відповідно до сцени, що відповідає функціям допомоги машині в набутті грамотності, розпізнаванні зображення та прослуховуванні звуку.

Ранні проекти анотацій були зосереджені на інтернет-компаніях, головним чином анотуючи голос і текст. Тепер компанія звертається до компаній, що працюють без керування автомобілем, щоб позначати 3D-сцени, отримані за допомогою лідарного сканування, як-от позначення хмари точок; або більш вертикальні напрямки позначення тексту та голосу: щоб допомогти освітнім компаніям надавати навчальні допоміжні дані для маркування для великих моделей; або для медичних установ Велика модель надає зібрані медичні дані.

Коли штучний інтелект вступає в епоху 2.0, ChatGPT вразив інвесторів, підприємців і підприємців. Усі очікують від ШІ не просто жорсткого розпізнавання текстової, голосової та графічної інформації. Люди також сподіваються, що штучний інтелект зможе справді зрозуміти зв’язок між такими речами, як люди, розпізнавати тонкі відмінності та емоції, що стоять за діями, а також активно розрізняти та збирати інформацію.

Наприклад, нехай самокерований автомобіль розрізнить перед собою порожній поліетиленовий пакет, а не камінь такого ж кольору та розміру; нехай камера біля басейну більше не просто знімає те, що сталося біля басейну, а розуміє, що трапилося, і коли хтось тоне, насторожити.

Вони все ще повинні покладатися на анотацію даних і висувати вищі вимоги до анотації — більш вертикальної, точнішої та економічнішої.

З цього також почався підйом ринку маркування.

2. "Забагато замовлень, щоб їх не відставати"

Важко мати дані, які прямо пояснюють сплеск попиту на нові анотації, але судити про це неважко. Тому що тільки в першому кварталі 2023 року Китай додав 170 000 компаній штучного інтелекту, і поки це компанія, яка використовує ШІ, вона обов’язково матиме попит на маркування даних.

Попит швидко поширився на ринок маркування даних. На панелі дописів, де збираються спеціалісти з анотації даних, щодня можна оновлювати більше десятка публікацій про набір проектів, включаючи, але не обмежуючись, текстові анотації, огляд теми, відео анотації про продаж дронів, 2D-детекторний стержень, 3D-хмара точок тощо. Анотація елементів для відео з перетворенням тексту в зображення.

Маркувальник даних, який багато років працює в галузі, помітив, що цього року кількість проектів маркування безпілотних транспортних засобів зросла, а масштабне підприємництво моделей у вертикальному полі, породжене бумом AI2.0, дозволило спочатку занепасти проектам текстового маркування. бути розділеними на різні доріжки. , також збільшує попит на маркування нішевих даних.

Керуючись попитом, Дайян не єдиний, хто створив нову команду для пошуку золота. Наприкінці минулого року Чжан Вей із міста Дуньїн, провінція Шаньдун також почав присвятити себе маркуванню даних і за півроку перетворився на невелику команду з понад десятка людей. Спираючись на субсидії та підтримку місцевого уряду, компанія Чжан Вея не лише отримала безкоштовний офіс, але й уряд допоміг спрямувати ресурси від партії А.

Є багато проектних замовлень, від початкового проекту вартістю понад 100 000 юанів до останнього замовлення в 400 000 юанів, термінове завдання з доставки змусило Чжан Вея активніше шукати працівників для маркування: кілька днів тому Чжан Вей придбав ще 6 комп’ютерів. всього за один день.

У Чженчжоу, провінція Хенань, краудсорсингова платформа для анотації даних переїжджає до двоповерхової офісної будівлі, яка може вмістити 100 осіб. Вони пишуть позицію компанії на вивісці біля дверей і в офісі: «Штучний інтелект, база досліджень і розробок великих даних», «повторне очищення даних для того, щоб ваш ШІ був розумнішим».

«Занадто багато замовлень для проекту маркування», — сказав відповідальний.

Церемонія переїзду компанії з маркування даних

Джерело зображення/надано респондентами

Гарячі гроші також давно потрапили в кишені маркувальних компаній. Згідно з даними, ціна акцій Haitian AAC, провідної компанії, зросла майже в 4 рази з березня по травень цього року.

Згідно з новинами 36 Krypton, з початку цього року більше дюжини платформ маркування даних у раунді B і раніше разом започаткували високі оцінки зі збільшенням майже на 100%. Починаючи з другої половини минулого року, компанії, що займаються автоматичним маркуванням, поступово отримують нове фінансування.

У вересні 2022 року Borden Intelligence отримала фінансування в розмірі 10 мільйонів юанів; у грудні Stardust Data завершила фінансування A-раунду в розмірі 50 мільйонів юанів. З часу останнього фінансування в червні 2018 року минуло чотири з половиною роки.

У квітні 2023 року компанія Kaiwang Data, що розробляє рішення для маркування даних, отримала новий раунд стратегічного фінансування; у червні компанія Integer Intelligence, що розробляє дані AI, отримала десятки мільйонів раундів фінансування Pre A.

Вони з ентузіазмом розігрують гасла для заміни маркування вручну: «Реконструкція виробництва етикеток даних», «Автоматизована виробнича лінія + велика робоча сила», «Зламайте ручний режим автоматичного маркування водіння».

Очевидно, ринок капіталу також знову звертає увагу на цю сферу, що розвивається.

3. Більше гучності та суворіше

Ланцюжок маркування даних складається з трьох частин.

Верхній напрямок: компанії з маркування даних із 1~150 співробітниками, відсталі в Інтернеті та невеликі майстерні.

Midstream: Постачальники послуг даних, один є посередницькою краудсорсинговою платформою, яка бере участь у випередженні та низхідній течії, а інший полягає в тому, що підприємства вирішують створити власні бази маркування для стабільних інвестицій у галузь.

Нижче за течією: технологічні компанії, промислові компанії, компанії штучного інтелекту та науково-дослідні підрозділи Інтернет-компанії домінували приблизно у 2018 році, а тепер вони передані автомобільним компаніям і компаніям, що займаються автономним водінням.

Галузь, як правило, приймає модель субпідряду, тобто перша сторона дає заявку, а сторонній постачальник послуг бере участь у торгах. Після успішної пропозиції вона входить до ешелону постачальників компанії, а основні постачальники може користуватися правом вибору пріоритетних завдань і більшої кількості замовлень.

Вимоги підприємства до основних постачальників — наявність команди доставки щонайменше з 30 осіб, досвід доставки замовлень, налагоджена система навчання, можливість контролювати якість і кількість доставки. Стабільна виробнича команда зрештою призводить до низької ціни, що робить компанію більш конкурентоспроможною.

Однак низька цінова перевага, яку принесла команда управління та контролю, була порушена. «Цього року торги шалені!» Постачальник послуг сказав «Цзяцзи Гуаннянь», «Ми ставимо 200 юанів за проект, а деякі люди ставлять 80 юанів на день».

Зрештою проект виграла команда з найнижчою ставкою, але в підсумку він повернувся до більш зрілої команди. «Їх повернула нам сторона А, коли вони не змогли закінчити, але ціна більше не могла піднятися».

Оскільки онлайн-команда Дайяна не зв’язується безпосередньо зі стороною А. Тому хаотична ситуація цін на багаторівневу вагонку та ламінат на ринку створює на них тиск.

Маркування даних — це галузь, що базується на ресурсах, і той, хто зможе співпрацювати зі стороною А, матиме перевагу. Дай Ян розповів, що після реєстрації компанії деякі особи неправдиво стверджували, що у них є професійна команда з 40-50 осіб і брали участь у торгах за дуже низькою ціною. Після перемоги в проекті вони розділили його на 4-5 акцій і розподілили їх на різні команди. Команда ділиться далі, а комісія збирається шар за шаром. Посередник заробляє різницю, а ціна за штуку, розподілена між працівниками з маркування даних, стає все нижчою. **

Поки хтось візьме тарілку, вона продовжуватиме обертатися вниз.

Прайс-лист, отриманий "Jiazi Guangnian", показує, що від 2D маркування до 3D лазерного маркування хмари точок, ціна за одиницю елемента маркування зазвичай становить 0,5-1,5 юаня за кадр. Одного разу Дай Янь отримав ціну на один кадр зі знижкою 50%, «було передано принаймні чотири-п’ять рук».

**Інтроверсія ціни за одиницю напряму призводить до скорочення зарплати маркувального персоналу. **Команда Daiyanhe працює на неповний робочий день і працює повний робочий день. Більшість членів команди – матері, студенти коледжів, фрілансери та учні ПТНЗ. Вони працюють по 6 годин на день. Зберігаючи цей стан, Дайян матиме щомісячний дохід від 4 до 5 тисяч юанів під час епідемії у 2022 році.

«Якщо у вас є комп’ютер і електрика, ви можете ним керувати», — це поширена приваблива фраза на плакатах із написом даних. У минулому це було найбільшою перевагою індустрії маркування даних. Але сьогодні ця перевага призвела до інволюції всієї галузі. Зараз місячний дохід Дайян становить лише 2-3 тисячі юанів.

Хоча доходи впали, робоче навантаження ні. Навпаки, робота з маркування даних більш складна і детальна.

Досвідчені практики анотації даних сумують за ринком анотацій в епоху Інтернету: ціна одного кадру втричі вища, а кількість елементів велика. Команда з 60-70 осіб може отримувати місячний дохід у 300 000 юанів. «Зараз ринок переповнений проектами з вихідною вартістю (вартістю, створеною однією людиною на день) менше 100 юанів, що раніше становило сотні доларів на день», — сказав практик.

У той час робота над проектом була простою, і не було жодних вимог, як-от позначення 2D-сцени для безпілотного транспортного засобу, а коли малювали рамку на транспортному засобі на зображенні, поки її можна було обрамити, не було жодних вимог .

**Але тепер все по-іншому. «Придатність» є найважливішим критерієм прийняття для Сторони А. ** «Минулого року похибка повинна була становити 5-7 мм, а цього року вона становитиме 3-5 мм. Похибка стає все меншою і меншою», — сказав Дай Ян.

Дослідник штучного інтелекту Ву Енда неодноразово наголошував, що цінність штучного інтелекту може бути реалізована лише з позначеними високоякісними даними.Чим більше високоякісних даних, тим швидше розвивається штучний інтелект.

У маркованих даних безпілотних транспортних засобів це виражається як ступінь відповідності між прямокутною рамою та позначеним об’єктом. Чим вищий ступінь відповідності, тим вища точність алгоритму, і тим точніше алгоритм може керувати транспортним засобом. .

Якісне текстове анотування позначається на правильності смислового розуміння та правильному темпі відповідей на запитання. Чим вищий правильний показник, тим розумніша велика модель, що навчається.

Умілі руки можуть забезпечити швидку та якісну доставку даних. Одного разу Дайян попросив новачка взяти участь у перевірці завершеності математичних завдань, виконаних ChatGPT, чи правильна логіка та чи розуміють мову учні початкової школи. 7500 даних, позначених новачком, повинні були бути перероблені Стороною А, оскільки рівень точності був занадто низьким. Дай Яню та його колегам знадобилося більше десяти днів, щоб виправити це.

Маркування даних все більше не є роботою без порогу. Створення складних голосових анотацій, медичних, юридичних, фінансових та інших професійних анотацій набору даних потребує професіоналів із запасом предметних знань для створення професійних анотацій.

Дай Ян вважає, що, беручи як приклад проект безпілотного транспортного засобу, новачкам потрібно 3 місяці, щоб навчитися 2D-маркування, і 4-6 місяців, щоб навчитися 3D-маркування.

Ця вправа стосується тренування точності малювання рамки, за допомогою миші, щоб одним рухом намалювати прямокутну рамку на сторінці етикетки комп’ютера, яка може точно охопити позначений об’єкт, не наступаючи на лінію, не пропускаючи точки, і навіть безперешкодно.

Експерти з анотації малюнків/даних вказують на проблеми в анотації

Справа в тому, що коли машина починає навчатися сама і замінює людину, щоб позначити машину, чи все ще має значення навичка, на навчання якої люди витрачають час?

4. Альтернативна криза

Дай Янь зрозумів, що ШІ наближається, і це було в проекті анотації зображень, який він зробив деякий час тому.

Це старий проект, над яким Даян працював два роки – розпізнавання карт. Етикетувальникам даних потрібно розпізнати текст на картинці та роздрукувати його, ціна 8 центів за штуку. Дані, позначені від імені розширення, вводяться в модель розпізнавання зображень. Тепер модель навчилася розпізнавати текст на зображеннях. Робота Дайяна з маркування почала зводитися до перегляду та перегляду. Складність зменшилася, а позначена ціна за одиницю також зменшилася.

** Штучний інтелект, навчений людьми з маркуванням, замінює роботу з маркування людьми. **У звіті про опитування Цюрихського університету дослідники виявили за допомогою фактичних вимірювань, що здатність ChatGPT до обробки 15 завдань маркування вища, ніж у краудсорсерів. **Індикатор прогресу вбудовування великої моделі в платформу краудсорсингу також було прискорено. **Подальше дослідження Федерального технологічного інституту в Лозанні показало, що понад 30% краудсорсингових анотаторів використовували великі моделі під час обробки текстових анотацій.

ШІ, безсумнівно, економить більше часу та праці, ніж ручна праця: дослідники сказали, що вартість одиниці ChatGPT еквівалентна лише 1/20 MTurk.

Дайян також готовий до того, що цей бізнес-напрямок у будь-який момент буде замінений на «досконаліший ШІ». Він зробив ставку на майбутнє на лейблах безпілотного керування, які вимагають більше навичок.

Але маркування автономного водіння також зазнає вторгнення ШІ. Порівняно з методом малювання рамки вручну, для автоматичного маркування потрібна лише вбудована велика модель.Після налаштування параметрів буде автоматично згенеровано прямокутну рамку, яка спочатку потребувала ручного маркування. Єдина проблема на даний момент полягає в тому, що згенерований прямокутний каркас має проблеми з якістю, такі як наступання на лінію та низька посадка, що вимагає ручного огляду один за іншим.

Покращення ефективності здивувало автомобільні компанії. Ідеально використовувати велику модель 2.0 для автоматичного калібрування, яке в 1000 разів ефективніше, ніж люди; Tesla активно просуває прогрес автоматичного маркування, наприклад, скасувала 200 відео маркування Tesla в червні 2022 року, щоб покращити систему допомоги американським співробітникам, тому що Tesla Можливість автоматичного позначення міток була значно покращена, позначаючи 10 000 відео тривалістю менше 60 секунд, потрібна лише велика модель для роботи протягом тижня, замість ручного позначення міток протягом кількох місяців.

Лінь Цюньшу, засновник компанії Integer Intelligence, що займається обробкою даних штучного інтелекту, сказав, що все більше автомобільних компаній і компаній AIGC використовують великомасштабні моделі продуктів для автоматичного маркування, і їхній дохід значно зростає. Їх останнім кроком є створення відділення досліджень і розробок у Сінгапурі.

**Однак сторонні постачальники послуг не такі оптимістичні щодо зростання автоматизованого маркування. **Менеджер проекту краудсорсингової платформи в Хенані сказав, що автоматизоване маркування не може замінити більше ніж 60% вимог до маркування та може використовуватися лише як допоміжний інструмент маркування для обробки окремих або конкретних даних і підвищення ефективності роботи людей.

Менеджер продукту іншої компанії з маркування даних вважає, що автоматичне маркування може фільтрувати лише прості базові дані та не може точно ідентифікувати об’єкти зі складних і суперечливих сцен, як люди. Це також є причиною того, що на ринку маркування даних досі домінують дані маркування автономного керування.

Проте всі погоджуються з тим, що маркування даних майбутнього зміниться від людської сили до технологій.

Коротше кажучи, або бути «затиснутим до смерті» однолітками, або «затиснутим до смерті» технологіями. Але сидіти на місці точно не можна, і сторонні компанії, які маркують дані, шукають вихід у майбутньому.

План Дайяна полягає в тому, щоб йти в ногу з ринком, бути пильним, звільняти персонал у будь-який час і в той же час розвиватися в напрямку автоматизованого інструменту маркування. Засновник краудсорсингової платформи під час спілкування з колегами сказав, що в майбутньому ми не повинні накопичувати робочу силу, а повинні мати можливості для досліджень і розробок.

А як щодо фізичних осіб? Кар’єрний шлях, поширений у галузі, такий: початківці етикетувальники-досвідчені етикетувальники-маркувальники проектів/менеджери-аналітики даних компанії сторони А і, нарешті, досягають підвищення з місячною зарплатою в десятки тисяч.

Жоден із виробників даних, яких знав Дай Янь, не йшов у цьому напрямку. Вони або залишалися на місці, або пішли. Найкраще було створити власну команду з маркування, як це зробив Дай Янь, але йому від цього не стало легше.

З одного боку, є збільшення попиту на проекти, викликане тенденцією ШІ, а з іншого боку, є більш хаотичні пропозиції, нижча вартість продукції на душу населення та швидке зростання ШІ. Дві емоції переплітаються, штучний інтелект принесе безмежні можливості, а ШІ також усуне «нас».

(На прохання респондентів усі імена в статті є псевдонімами)

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити