Анотатори даних, зафіксовані у великих моделях

2023-09-26 06:15:08

Оригінальний текст: 36氪

Джерело зображення: створено Unbounded AI

Сяоянь, який працює анотатором даних у великій інтернет-компанії, часто почувається ізольованим у компанії.

Робоча станція Сяояня знаходиться поруч із робочою станцією менеджерів із продуктів і програмістів. Вони можуть користуватися тими ж перевагами: однаковий робочий бейдж, комп’ютери Apple, вони можуть у будь-який час піти в спортзал або спати в космічну капсулу.

Але Сяоянь розуміє, що як анотатор даних вона та інші колеги належать до «двох світів».

Незважаючи на те, що ми команда, ніхто не буде щодня дзвонити анотатору на ранкову зустріч, тому Сяоянь може лише таємно спостерігати за дверима. Одного разу хтось приніс візок з настільними лампами, який був прототипом продукту ШІ, над яким працювала команда.Програмісти зібралися навколо нього, дуже схвильовані, і взяли його в руки, щоб пограти. Анотатори сиділи на своїх робочих місцях і займалися своїми справами без будь-яких пригод. «Вони не знають, що продукт виготовляється на основі даних на етикетці».

Коли Сяоянь приєднався до компанії, компанія Сяояня розробляла освітній продукт ШІ, який вимагав маркування великої кількості даних для навчання ШІ. Компанія закупила купу зошитів із запитаннями для початкової та середньої школи. Робота Сяояня полягала в тому, щоб сфотографувати кожне запитання, а потім намалювати рамки та позначити ці запитання на комп’ютері.

Крім того, працюючи на AI, програмісти чітко усвідомлюють цінність своєї роботи та насолоджуються задоволенням від безперервного вдосконалення алгоритмів, але мало хто з анотаторів вважає, що штучний інтелект створюється їхньою власною працею.

Розвиток штучного інтелекту невіддільний від анотації даних. Розвиток автономного водіння в останні роки стимулював ринок анотації даних. Відповідно до звіту Deloitte, у 2022 році попит на маркування у сфері автономного водіння становитиме 38% усіх додатків штучного інтелекту, а до 2027 року очікується, що ця частка зросте до 52%.

Зростання кількості великих моделей цього року додало масла в індустрію анотації даних. Велика кількість замовлень, заснованих на сценаріях навчання великих моделей, спрямовується до компаній, що займаються анотацією даних. Здається, нудний бізнес анотації даних знову отримав життєву силу .

Деякі технологічні компанії пішли вперед і намагаються використовувати ШІ для автоматичного синтезу даних для навчання ШІ. Синтетичні дані базуються на невеликій кількості реальних даних, нескінченно згенерованих штучним інтелектом, і не потребують маркування, а не покладаються на маркування вручну. У сфері автономного водіння синтетичні дані можуть охоплювати деякі екстремальні дорожні умови, такі як пішоходи, які раптово вириваються на дорогу.

У їхній уяві в майбутньому синтетичні дані замінять анотацію вручну. Компанії з маркування, які не мають технологій і покладаються лише на робочу силу, будуть поступово ліквідовані. Одні дані показують, що 70% базових даних, які використовуються для штучного інтелекту за кордоном, є синтетичними даними, і цей шлях перевіряється.

Вищесказане не є гарною новиною для величезної кількості анотаторів даних. Однак деякі анотатори, з якими зв’язався 36Kr, досі не знають, що таке ChatGPT, і відреагували так, ніби чули цей термін уперше.

Сяоянь сказав, що тегер - це хвіст, який можна відрізати в будь-який момент. Єдиний саспенс - це коли ніж повністю впаде.

Анотатори, які навчають машини, більше почуваються машинами

Сяохе спеціалізувався на англійській мові, а на останньому курсі стажувався на великій фабриці. У її перший робочий день офіс був в офісній будівлі, просторий і чистий, повністю відповідав її уявленням про інтернет-компанію. Їй не знадобилося багато часу, щоб зрозуміти, що зміст роботи, про який вона дізналася під час співбесіди – «організація та класифікація голосових даних компанії» – насправді було анотацією даних.

Пізніше Сяохе зізналася, що якби знала, що це початок роботи в ШІ, то відразу б пішла.

У групі 6 стажерів, усі студенти факультету іноземних мов престижного університету. Жінка-лідер групи щодня ставить завдання. Іноді це купа англійських фонетичних символів, і завдання Сяохе полягає в тому, щоб відрізнити британську вимову від американської; іноді це Excel, клацніть його, і ви побачите дані всюди. Якщо прокрутити вниз, ви побачите понад 10 000 елементів .

«Це відчуття, як піднятися на гору», — сказав Сяохе.

«Проект», яким я займався найбільше, — це усне конспектування для учнів середньої школи. Анотатори звикли говорити про роботу як про проекти, один проект за іншим. Сяохе прослуховує 200 записів із сильним акцентом на день, кожна тривалістю дві хвилини. Якщо ви почуєте загальне запитання, поставте 1 бал; якщо почуєте спеціальне запитання — 2 бали; якщо не почуєте жодного — 0 балів. Щоб запобігти витокам, він міг використовувати в офісі лише дротові навушники.У Сяохе боліли вуха, і він почувався «мимоволі дратівливим».

На записах вона часто чує лайки. Деякі діти не вимовляють і кількох слів, перш ніж починають лаятися. Іншого разу під час проекту з картографічної навігації хтось не міг не вилаятись на записі. «Я не знаю, чому хтось так сердиться».

Сяохе сказав, що ви не можете сприймати це надто серйозно. Ви можете лише позначити цей запис як «безглуздий», потім перегорнути сторінку та продовжити слухати наступну.

**"Як машина", майже кожен анотатор описав би себе так. **Анотація — це проста справа. Анотатор із Шаньдуна сказав, що найскладніший проект, який він коли-небудь робив, — це анотація відбитків пальців. Вона отримала купу відбитків пальців від когось, кого не знала (деякі з них все ще були розмитими), і їй потрібно було потроху тягнути рамку по краях відбитків. «Після того, як я повернувся додому в той день, я бачив відбитки пальців на своїх очах, коли закривав очі».

Багато проектів вимагають від анотаторів дотримання суворої конфіденційності, але анотаторам байдуже, для чого призначений проект. Під час роботи тегери зобов’язані здавати свої мобільні телефони та класти їх у сумку, що висить на стіні. Їм буде дозволено забрати свої телефони, лише якщо вони отримають дзвінок.

Більшість анотаторів пройшли процес від незвичності до майстерності, від новизни до нудності. Найцікавішим був ранній етап проекту, тоді правила маркування ще не були завершені, вони часто стикалися з суперечливими моментами, дискутували чи навіть сперечалися один з одним, атмосфера була жвавою. На середніх і пізніх стадіях правила майже остаточно визначені, і залишається лише повторювана та механічна праця, і люди впадатимуть у відчуття безглуздості.

**Один із анотаторів сказав, що це «бездумна робота». **

У Фучжоу, Цзянсі, учні місцевих професійно-технічних шкіл анотують дані; Джерело: фото IC

Цзя Веньцзюань, професор Шанхайського університету, провела польове дослідження анотації даних. Вона вважає, що анотація даних — це не розумова чи фізична праця, а когнітивна праця. «Те, що люди продають, — це їхнє пізнання». Чорний гумор полягає в тому, що ми хочемо, щоб машини стали більше схожими на людей, але в той же час ми робимо людей більш схожими на машини. Іншими словами, відкиньте здоровий глузд і думайте як робот. **

І як тільки анотатор починає думати: «Навіщо мені це робити», значить, він недалекий від звільнення.

Чжен Вей, керівник компанії з анотації даних, прямо сказав, що не може утримувати людей. У кращому випадку в компанії менше 20 осіб. Нові співробітники часто працюють лише півмісяця, багато людей приходять на роботу в перший день і йдуть наступного дня. Йому нічого не залишалося, як продовжувати знижувати вимоги до найму, і врешті-решт він відчув, що «не я обираю людей, а інші обирають мене».

Він не знав, як утримати тих, хто виїжджав. «Це буде ставати все краще і краще, якщо ви залишитеся тут. Я насправді сам у це не вірю», — сказав комісар Чжен 36 Krypton. Згодом компанію переповнило відставання співробітників, і коли залишилося лише два анотатори, він вирішив розпустити команду. Невдовзі ChatGPT розпочав нову хвилю ШІ.

Зростання кількості великих моделей корисно для анотації даних, але це також посилює залучення ** команди анотації. **

Коли справа доходить до прийому робіт, Сяодай сказав, що 80-90% проектів маркування на ринку зараз мають дуже низькі ціни за одиницю, «оскільки в середині занадто багато субпідрядників», і «всі хочуть отримати прибуток від ціни». різниця, і не хочу насправді виконувати роботу". Два роки він працював анотатором на платформі краудсорсингу, а цього року розпочав власний бізнес, щоб створити власну команду анотаторів.

Анотація даних не дуже вигідна. Візьмемо як приклад 2D-креслення рамки автономного водіння, ціна відправки замовлення великої компанії становить 10 центів, а команда маркування, яка виконує роботу, коштує 8 центів кожна. «Тепер воно впало до 5 або 6 балів», — сказав Сяодай. Він підрахував рахунок, і якщо він був менше 8 балів, він міг тільки втратити гроші.

Щоб вижити, Сяо Дай витрачає більшу частину свого часу на пошуки проектів і тусується на різних платформах і пост-барах. Проекти справжні та фейкові, більшість з них ненадійні, агент зазнав збитків, є проект, де гроші не надійшли після 8 місяців очікування.

Пізніше він спочатку працював анотатором за сумісництвом, і лише після того, як не виникло проблем із пробними торгами та розрахунками, дозволив команді взятися за роботу. Одного разу я почув, що платформа випускатиме партію проектів о третій годині ночі, тому він заздалегідь поставив будильник, щоб забрати замовлення.

**Втрата персоналу, низькі ціни за одиницю продукції та нестабільний збір платежів схожі на пухлини, які тягнуть за собою більшість невеликих компаній у цій галузі. **

Немає жодного коментатора, який би не зневажав цю роботу. Вони не можуть заробляти гроші, не бачать місця для просування та можливостей для розвитку, і впадають у тривалий період депресії та втрат.

Під час написання цієї статті більшість анотаторів, з якими зв’язався 36Kr, звільнилися. Одна дівчина розповіла, що працює вже два місяці, а її зарплата становить менше 3000 юанів.

Внутрішні анотатори: ступінь бакалавра 100%

У минулому поріг для анотації даних був низьким. У Шаньдуні, Шаньсі, Хенані, Гуйчжоу та інших місцях багато компаній з анотації даних найняли велику кількість дешевої робочої сили. Найпоширенішими є матері, інваліди, учні професійно-технічних училищ.Поки вони оволодіють основними операціями на комп’ютері, вони можуть увійти в цю галузь.

В епоху великих моделей серед кандидатів спокійно відбувається перетасування та усунення анотації даних.

Дослідники виявили, що якість навчальних даних дуже сильно впливає на продуктивність моделі. Порівняно з обсягом даних, з вищою якістю даних ефект покращення моделі більш очевидний. Щоб контролювати якість даних, деякі компанії, що займаються штучним інтелектом, створили власні команди маркування. Першим кроком є підвищення порогу для входу в галузь.

Найбільш очевидним є те, що академічна кваліфікація анотаторів починає згортатися.

У квітні цього року провідний виробник великомасштабних моделей створив базу анотацій даних, і перша партія набраних анотаторів ** мала ступінь бакалавра 100%. **Відповідальна особа компанії пояснила, що дані великої моделі потребують широкого спектру знань і складних критеріїв оцінки, що значною мірою перевіряє розуміння мови анотатора та його здібності до логічного мислення.

Сяо Ван щойно закінчив коледж, і коли він повернувся до свого рідного міста шукати роботу, він випадково натрапив на набір цієї бази маркування даних. Тож він пройшов співбесіду і успішно пройшов. База надіслала йому навчальний матеріал обсягом 300 000 слів, і лише склавши навчальний іспит, він може офіційно зайняти цю посаду.

Анотатори щодня працюють над питаннями. Новачкам задають 40 запитань на день, а досвідченим – 70-80. Серверна система розповсюджує запитання всім, більшість із яких є записами розмов між реальними користувачами та великими моделями. Питання користувачів різняться з усього світу і навіть більш дивні: який із цих трьох мобільних телефонів кращий? Які яйця краще або гашапон? Які критерії для успішних людей? Чому Лінь Дайю боровся з Кістяним демоном?

Велика модель матиме багато відповідей, і робота Сяо Вана полягає в тому, щоб прочитати кожну відповідь, вибрати помилки та оцінити їх одну за одною відповідно до якості. 5 балів – це повна оцінка, 1 бал – найнижча, а відповіді нижче 3 балів потрібно розділити на типи помилок. Якщо відповідь не відповідає заданому, безпосередньо буде надано найнижчий бал. Якщо зустрічається делікатне запитання, бал не буде надано, і воно буде оцінено як «інше».

Сортування, підрахунок балів і оцінка, ці дещо складні кроки анотації — це саме те, що називається RLHF (Reinforcement Learning from Human Feedback, тобто підкріплююче навчання за відгуками людини). Мета полягає в тому, щоб постійно узгоджувати великі моделі з людськими цінностями та способами. Більш зручним для використання. OpenAI використовував RLHF в процесі навчання ChatGPT і досяг чудових результатів.

Порівняно з попереднім маркуванням даних, правила маркування для великих моделей більш суб’єктивні. Коли інженер-алгоритм бере співбесіду з анотатором, він задає іншій особі таке запитання: «Якби ви були бізнес-лідером і зіткнулися з чотирма типами працівників: Сунь Укун, Чжу Бацзе, Тан Монк і Ша Сенг, кому б ви віддали перевагу найняти?"

За його словами, стандартної відповіді немає. **Цей тип запитання призначений для перевірки того, чи має анотатор здатність до логічного мислення. **

Попит галузі на таланти став актуальним. Нова компанія під назвою Kaiwang Data співпрацює з університетами, щоб навчити велику кількість студентів-анотаторів. Генеральний директор Ю Сюй сказав, що минулого року компанія побудувала «Kaywang Data Academy» і навчила понад 1500 учнів у 50 школах анотації даних.

Коли Сяо Ван оцінює відповіді великої моделі, йому часто потрібно трохи перевірити факти, а навантаження повністю залежить від удачі. Одного разу я натрапив на запитання: що краще, BMW 3 серії чи Mercedes-Benz серії C? У великій моделі зазначено 40 параметрів двох автомобілів відповідно, і кожен параметр має бути перевірений Сяо Ваном. Це питання зайняло в нього півгодини.

Після деякого часу анотацій Сяо Ван виявив, що його оцінка рідко перевищує 3 бали: «Відповідей штучного інтелекту недостатньо, щоб я відчував себе дуже задоволеним або видатним». Він пам’ятав, що одне запитання було: «Якщо гарнітура Bluetooth зламана, мені йти до стоматолога чи до виробника гарнітури?» Це, очевидно, було рибальське запитання, але відповідь штучного інтелекту змусила його очі спалахнути. «Він сказав звернутися до стоматолога на ремонт, а не в лікарню».

Сяо Ван задоволений цією роботою. Його місячна базова зарплата становить 1800 юанів, премія за ідеальну відвідуваність — 200 юанів, а житлова субсидія — 200 юанів.З урахуванням продуктивності він може отримувати 4000 юанів на місяць. Він сказав, що дохід вважається вищим за середній по місцевості. Він також зібрав волосся, і вони вдвох сіли на сусідні робочі місця.

Було близько 20 студентів коледжу, які тренувалися одночасно з Сяо Ваном. Через два дні вони майже всі розійшлися, і залишилося лише двоє чи троє людей.

Але нам не варто турбуватися про компанію, тут ніколи не буде браку студентів. Технічний директор розкрив правду 36Kr: підіть і подивіться на поточну ситуацію з працевлаштуванням студентів коледжу.

Найбільше я хочу усунути людські анотації, а не ШІ

Треба визнати, що існує багато повідомлень про анотування даних.Люди погоджуються, що ця робота є «конвеєром Інтернету», який важко виконувати протягом тривалого часу, і що ручне анотування з часом буде замінено ШІ.

Минулого місяця ми витратили багато часу на спілкування з розробниками алгоритмів і компаніями, що займаються штучним інтелектом. Хоча наведений вище консенсус не оновлювався, можна смутно відчути, що те, що найбільше хоче усунути людську працю, можливо, не ШІ. Перш ніж штучний інтелект зможе справді вжити заходів, ті, хто опанував найпередовіші технології, вже підняли коси.

У світі технологій важливість даних неможливо переоцінити. Інженер-алгоритм Сяо Дуань сказав, що якщо бізнес штучного інтелекту не має мічених даних, незалежно від того, наскільки хороший алгоритм вони пишуть, він буде розбитим. Чим більше позначених даних, тим краще. Зібрати всю вовну бірчиків — безсумнівний прибуток.

Інколи алгоритм може закінчити дані, на створення яких анотаторам знадобилося чотири або п’ять днів, за одну годину. Сяо Дуань працює у великій інтернет-компанії, відділ має достатній бюджет і кілька штатних анотаторів. "Ми намагаємося не залишати анотаторів без діла, - сказав він. - Керівники будуть читати щотижневий звіт. Якщо вони вважають, що завдань мало, давайте їм доручимо більше завдань".

Анотатор сказав 36Kr, що хоча програмісти, які працюють з ним, кажуть, що кожен тип роботи має цінність, вони все одно ненавмисно виявляють слід презирства. «Звичайно, ця група людей сама орієнтована на технології», — втішався анотатор.

Технології розвиваються набагато швидше, ніж усі очікували. В епоху великих моделей якість даних безпосередньо впливатиме на продуктивність моделі. **Розуміючи це, деякі компанії штучного інтелекту без вагань попрощалися з аутсорсерами анотацій даних.

«Якість даних, які ми отримали, була настільки низькою, що вони були практично марними», — сказав технічний директор компанії штучного інтелекту. Їх основним бізнесом є створення відео за допомогою штучного інтелекту, і вони розробили модель самостійної розробки, яка може створювати необмежену кількість відео про продукти електронної комерції. Щоб навчити модель, вони спеціально залучили 50 студентів коледжу для анотації даних.

Студентам коледжу також важко довіряти, коли справа стосується таких професійних галузей, як медицина, фінанси та комп’ютери. Окрім створення власної бази для етикетування, велика вітчизняна Інтернет-компанія також платить професіоналам для етикетування. Хоча частка професіоналів у галузі анотування все ще невелика, їхня роль цілком очевидна. Наприклад, найбільш заспокійливо залишити питання про призупинення соцвиплат спеціалістам, які знайомі з державними документами.

Відкрита таємниця полягає в тому, що задовго до того, як ChatGPT став популярним, OpenAI організував більше десятка докторантів для «відмітки». За вісім років OpenAI витратив 1 мільярд доларів США лише на навчання моделі.

У травні цього року американська компанія з обробки даних почала набір професіоналів у певних сферах. Компенсація для цих старших анотаторів більше не є угодою. Наприклад, погодинна оплата за маркування юридичних даних становить 45 доларів США, а за поезію – 25 доларів США.

Однак в очах деяких компаній штучного інтелекту, незалежно від того, чи є вони робочими чи білими комірцями, вони хочуть заощадити кошти. Спілкуючись із цими компаніями, 36 Криптон часто чув одне слово: зменшити витрати та підвищити ефективність.

Найпоширенішим методом є використання ШІ для автоматизованих анотацій. Компанія з обробки даних заявила, що частка автоматизованих анотацій досягла понад 70%.

Інженер-алгоритм Сяо Лі та його колеги роблять нові передові спроби: ** Поки невелика частина реальних даних використовується як модель, за допомогою генеративної технології штучного інтелекту та ряду алгоритмів можна отримати високоякісні навчальні дані. синтезований. Іншими словами, взагалі нікому не потрібні. **

«Ціна наших синтетичних даних трохи дешевша, ніж анотація вручну», — сказав Сяо Лі.

Синтетичні дані зараз в основному використовуються в сферах автономного водіння та робототехніки. Сяо Лі сказав, що коли ChatGPT вийшов, він зрозумів, що анотовані дані можуть не працювати, і врешті-решт доведеться використовувати синтетичні дані. Засновник OpenAI Сем Альтман також дотримується подібної точки зору: «Синтетичні дані — це найефективніший спосіб вирішити проблему нестачі великих модельних даних».

Стартап-компанія Light Wheel Intelligence в основному виробляє синтетичні дані в сферах автономного водіння та робототехніки. "Кінцевим результатом автоматизованого маркування є відсутність маркування, - сказав генеральний директор Се Чен. - Більшість компаній, що займаються етикетуванням, не бачать такої довгострокової перспективи".

Се Чень згадав 36Kr, що його колега з команди раніше робив автоматизовані анотації в OEM і впорався зі складнішою анотацією 4D-BEV. Це провідний у галузі інструмент для анотацій, який використовує час як четверту широту для анотацій у 3D-просторі для покращення продуктивності систем автономного водіння. Цього року він вирішив відмовитися від автоматизованого анотування, взяв ініціативу знайти Се Ченя та нарешті приєднався до Nimbus Intelligence.

Цей колега – Сяо Лі. Він сказав, що колись поява генеративного штучного інтелекту дуже хвилювала його, але, побачивши синтетичні дані, він знову захопився.

Одна з цілей його роботи — «замінити (наклеїти ярлики) людей у цій галузі», але він соромиться сказати напевно: «Це, ймовірно, буде в короткостроковій перспективі, можливо, через рік-два».

Нарешті, повернемося до світу анотаторів. Тривога, викликана стрімким розвитком технологій, тут майже непомітна. Є лише тривіальні, повторювані неприємності та деякі наївні фантазії.

Студент коледжу Сяо Ван все ще тренує великих моделей у своєму рідному місті. Коли ми нещодавно спілкувалися, він сказав, що ця робота — це можливість вийти на сферу штучного інтелекту. Шлях просування, визначений компанією для них, — від анотаторів до інспекторів якості, тренерів, супервайзерів і, нарешті, керівників проектів. Мета Сяо Вана — стати керівником, а потім змінити роботу на посаду, ближчу до ШІ. Що саме, він поки не знає.

У порівнянні з амбітним Сяо Ваном більшість анотаторів мало цікавляться ШІ. Одна дівчина пояснила: «Я не дуже звертаю увагу на високі технології», вона два роки маркує і вже є старшим працівником, нещодавно її підвищили до інспектора з якості. Для неї анотаційна робота проста і стабільна, «без душевного тертя», і вона іноді може зловити рибу. Цього року, коли ШІ сколихнув світ технологій, її життя було спокійним, як вода.

Однією з небагатьох змін є додавання розмовного бота до інструментів анотації, наданих компанією. Компанія каже всім, що якщо ви зіткнетеся з незрозумілими питаннями під час анотації, просто запитайте робота безпосередньо, щоб заощадити час. Ефективність швидко підвищилася. Вона сказала 36 Krypton, що раніше вона могла робити до п’яти-шестисот коробок на день, але тепер вона може робити більше семисот.

— Завдяки роботу, — сказала вона. Ніхто ще не сказав їй, що це називається ChatGPT.

(На прохання респондента деякі персонажі статті мають псевдоніми. Автор 36Kr Аніта Денг також долучилася до статті.)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
1/3
1Simple Earn Annual Rate 24.4%
39k Популярність
2Gate Launchpad List IKA
41k Популярність
3ETH Trading Volume Surges
42k Популярність
4Gate ETH 10th Anniversary Celebration
22k Популярність
5Trump’s AI Strategy
18k Популярність

Закріпити

карта сайту