Аннотаторы данных, застрявшие в больших моделях

Исходный текст: 36氪

Источник изображения: Создано Unbounded AI

Сяоянь, работающий аннотатором данных в крупной интернет-компании, часто чувствует себя изолированным в компании.

Рабочее место Сяояня находится рядом с рабочим местом менеджеров по продуктам и программистов. Они могут пользоваться теми же преимуществами: тот же рабочий значок, компьютеры Apple, они могут в любое время пойти в спортзал или отправиться спать в космическую капсулу.

Но Сяоянь понимает, что как аннотатор данных она и другие коллеги принадлежат «двум мирам».

Хотя мы команда, никто не будет звонить комментатору на утреннем собрании каждый день, поэтому Сяоянь может только тайно наблюдать за дверью. Однажды кто-то принес тележку с настольными лампами — прототипом ИИ-продукта, над которым работала команда, — программисты собрались вокруг нее, очень взволнованные, и взяли ее в руки, чтобы поиграть. Комментаторы сидели за своими рабочими местами и без происшествий занимались своими делами. «Они не знают, что продукт сделан на основе маркированных данных».

Когда Сяоянь присоединился к компании, компания Сяояня разрабатывала образовательный продукт в области искусственного интеллекта, который требовал маркировки большого количества данных для обучения ИИ. Компания закупила гору учебников с вопросами для начальной и средней школы. Работа Сяояня заключалась в том, чтобы фотографировать каждый вопрос, а затем рисовать квадратики и отмечать эти вопросы на компьютере.

Также работая на ИИ, программисты четко осознают ценность своей работы и получают удовольствие от постоянного совершенствования алгоритмов, но немногие комментаторы чувствуют, что ИИ создается их собственным трудом.

Развитие искусственного интеллекта неотделимо от аннотирования данных. Развитие автономного вождения в последние годы стимулировало рынок аннотаций данных. Согласно отчету Deloitte, спрос на маркировку в области автономного вождения будет составлять 38% всех последующих приложений ИИ в 2022 году, и ожидается, что к 2027 году эта доля вырастет до 52%.

Рост количества больших моделей в этом году подлил масла в индустрию аннотаций данных. Большое количество заказов на сценарии обучения больших моделей поступает в компании, занимающиеся аннотированием данных. Кажется, что скучный бизнес аннотаций данных снова получил жизненную силу. .

Некоторые технологические компании идут дальше и пытаются использовать ИИ для автоматического синтеза данных для обучения ИИ. Синтетические данные основаны на небольшом объеме реальных данных, бесконечно генерируемых ИИ и не требующих маркировки, вместо маркировки вручную. В области автономного вождения синтетические данные могут охватывать некоторые экстремальные дорожные условия, например, когда пешеходы внезапно выбегают на дорогу.

По их мнению, в будущем синтетические данные заменят ручные аннотации. Маркировочные компании, у которых нет технологий и которые полагаются только на рабочую силу, будут постепенно ликвидированы. Одни данные показывают, что 70% базовых данных, используемых для искусственного интеллекта за рубежом, являются синтетическими данными, и этот путь проверяется.

Вышесказанное не является хорошей новостью для огромного количества аннотаторов данных. Однако некоторые аннотаторы, с которыми связался 36Kr, до сих пор не знают, что такое ChatGPT, и отреагировали так, будто услышали этот термин впервые.

Сяоянь сказал, что таггер — это хвост, который можно отрезать в любой момент. Единственное напряжение — когда нож упадет полностью.

Аннотаторы, обучающие машины, больше похожи на машины

Сяохэ специализировался на английском языке и на последнем курсе стажировался на крупной фабрике. В первый день ее работы офис находился в офисном здании, просторном и чистом, полностью соответствующем ее представлению об интернет-компании. Ей не потребовалось много времени, чтобы понять, что содержание работы, о которой она узнала во время собеседования — «организация и классификация голосовых данных компании» — на самом деле было аннотацией данных.

Позже Сяохэ призналась, что если бы она знала, что это начало работы в AI, она бы сразу ушла.

В группе 6 стажеров, все они студенты факультета иностранных языков престижного университета. Женщина-руководитель группы каждый день распределяет задачи. Иногда это набор английских фонетических символов, и задача Сяохэ — отличить британское произношение от американского, иногда это Excel, щелкните по нему, и вы увидите данные повсюду. Если прокрутить вниз, там более 10 000 элементов. .

«Это похоже на восхождение на гору», — сказал Сяохэ.

«Проект», над которым я работал чаще всего, — это устные аннотации для учащихся средних классов. Аннотаторы привыкли говорить о работе как о проектах, один проект за другим. Сяохэ прослушивает 200 записей с сильным акцентом в день, каждая продолжительностью две минуты. Если вы услышали общий вопрос, оцените 1 балл; если вы услышали специальный вопрос, оцените 2 балла; если вы не услышали ни того, ни другого, оцените 0 баллов. Во избежание утечек в офисе он мог пользоваться только проводными наушниками: у Сяохэ болели уши, и он чувствовал себя «непроизвольно раздражительным».

Она часто слышит ругательства, используемые в записях. Некоторые дети не говорят и нескольких слов, как начинают ругаться. В другой раз, когда мы работали над проектом навигации по карте, кто-то не мог не выругаться в записи. «Я не знаю, почему кто-то так злится».

Сяохэ сказал, что нельзя относиться к этому слишком серьёзно: можно только пометить эту запись как «бессмысленную», затем перевернуть страницу и продолжить прослушивание следующей.

**"Как машина", - так охарактеризовал бы себя почти каждый комментатор. **Аннотация не представляет никакой сложности. Аннотатор из Шаньдуна сказал, что самый сложный проект, который он когда-либо делал, — это аннотация отпечатков пальцев. Она получила кучу отпечатков пальцев незнакомого ей человека (некоторые из них все еще были размытыми), и ей нужно было понемногу тянуть рамку по краям отпечатков пальцев. «В тот день, вернувшись домой, я увидел отпечатки пальцев на своих глазах, когда закрыл глаза».

Многие проекты требуют от аннотаторов соблюдения строгой конфиденциальности, но аннотаторов не волнует, для чего предназначен проект. Во время работы тагеры обязаны сдавать свои мобильные телефоны и размещать их в подвесной сумке на стене. Им будет разрешено забрать свои телефоны только в том случае, если им позвонят.

Большинство аннотаторов прошли путь от незнания к мастерству, от новизны к скуке. Самым интересным был ранний этап проекта, на тот момент правила маркировки еще не были завершены, часто возникали спорные моменты, обсуждались или даже спорили друг с другом, атмосфера была оживленной. На средней и поздней стадиях правила почти доработаны, и остается только повторяющийся и механический труд, и люди впадают в чувство бессмысленности.

**Один комментатор сказал, что это «бессмысленная работа». **

В Фучжоу, Цзянси, учащиеся местного профессионально-технического училища аннотируют данные; Источник: фото IC.

Цзя Вэньцзюань, профессор Шанхайского университета, провела полевое исследование аннотаций данных. Она считает, что аннотирование данных — это не умственный или физический труд, а когнитивный труд. «То, что люди продают, — это их собственные знания». Черный юмор заключается в том, что мы хотим, чтобы машины стали больше похожими на людей, но в то же время мы делаем людей более похожими на машины. Другими словами, отбросьте здравый смысл и думайте как робот. **

И раз комментатор начинает думать «Зачем мне это делать», значит, он недалек от отставки.

Чжэн Вэй, руководитель компании по аннотированию данных, прямо заявил, что не может удерживать людей. В лучшем случае в компании работает менее 20 человек. Новые сотрудники часто задерживаются всего на полмесяца, многие приходят на работу в первый день и уходят на следующий. У него не было другого выбора, кроме как продолжать снижать требования к набору персонала. В конце концов он почувствовал, что «не я выбираю людей, а другие выбирают меня».

Он не знал, как удержать тех, кто уходил. «Будет все лучше и лучше, если вы останетесь здесь. Я сам в это не верю», — сказал комиссар Чжэн 36 Krypton. Отток сотрудников в конечном итоге захлестнул компанию, и когда осталось только два комментатора, он решил распустить команду. Вскоре после этого ChatGPT положил начало новой волне искусственного интеллекта.

Рост количества больших моделей хорош для аннотирования данных, но он также усиливает инволюцию команды ** аннотаций. **

Что касается приема на работу, Сяодай сказал, что 80-90% проектов маркировки на рынке сейчас имеют очень низкие цены за единицу, «потому что в середине слишком много субподрядчиков» и «все хотят получить прибыль от цены». разницу и не хочу на самом деле выполнять работу». В течение двух лет он работал аннотатором на краудсорсинговой платформе, а в этом году начал собственный бизнес, чтобы сформировать собственную команду аннотаторов.

Аннотирование данных не очень выгодно. Если взять в качестве примера 2D-чертеж автономного вождения, то стоимость отправки заказа для крупной компании составляет 10 центов, а команда маркировщиков, которая берет на себя работу, стоит 8 центов каждая. «Сейчас он снизился до 5 или 6 очков», — сказал Сяодай. Он подсчитал счет, и если он был меньше 8 пунктов, то он мог только потерять деньги.

Чтобы выжить, Сяо Дай большую часть времени проводит в поисках проектов и тусуясь на различных платформах и пост-барах. Проекты подлинные и фейковые, большинство из них ненадежны.Агент понес убытки.Есть проект, на который деньги не пришли после 8 месяцев ожидания.

Позже он сначала работал аннотатором по совместительству, и только после того, как не возникло проблем с пробными торгами и расчетами, он позволил команде взять на себя работу. Однажды я услышал, что платформа выпустит партию проектов в 3 часа ночи, поэтому он заранее поставил будильник, чтобы успеть собрать заказы.

**Потери персонала, низкие цены за единицу продукции и нестабильные сборы платежей подобны опухолям, которые тянут вниз большинство небольших компаний в этой отрасли. **

Нет комментатора, который не презирал бы эту работу, они не могут зарабатывать деньги, не видят места для продвижения и возможностей развития, впадают в длительный период депрессии и потерь.

Во время написания этой статьи большинство аннотаторов, с которыми связался 36Kr, уволились. Одна девушка рассказала, что она работала два месяца и ее зарплата составляла менее 3000 юаней.

Внутренние аннотаторы: степень бакалавра 100%

Раньше порог для аннотирования данных был низким. В Шаньдуне, Шаньси, Хэнани, Гуйчжоу и других местах многие компании, занимающиеся аннотированием данных, наняли большое количество дешевой рабочей силы. Наиболее распространенными из них являются матери, люди с ограниченными возможностями и студенты профессионально-технических училищ.

В эпоху больших моделей среди кандидатов незаметно происходит перетасовка и устранение аннотаций данных.

Исследователи обнаружили, что качество обучающих данных очень сильно влияет на производительность модели. По сравнению с объемом данных и более высоким качеством данных эффект улучшения модели более очевиден. Чтобы контролировать качество данных, некоторые компании, занимающиеся искусственным интеллектом, сформировали свои собственные команды по маркировке.Первый шаг — повысить порог входа в отрасль.

Самое очевидное, что академическая квалификация аннотаторов начинает повышаться.

В апреле этого года ведущий производитель крупномасштабных моделей создал базу аннотаций данных, и первая партия набранных аннотаторов ** имела степень бакалавра 100%. **Лицо, ответственное за компанию, объяснило, что большие модельные данные требуют широкого спектра знаний и сложных критериев оценки, что значительно проверяет понимание языка и способности аннотатора к логическому рассуждению.

Сяо Ван только что окончил колледж и, вернувшись в родной город в поисках работы, случайно наткнулся на набор этой базы данных по разметке данных. Поэтому он принял участие в собеседовании и прошел успешно. База прислала ему учебный материал объемом 300 000 слов, и только сдав учебный экзамен, он сможет официально занять эту должность.

Аннотаторы работают над вопросами каждый день. Новичкам задают 40 вопросов в день, а опытным работникам – 70-80 вопросов. Бэкэнд-система раздает всем вопросы, большая часть которых представляет собой записи разговоров между реальными пользователями и большими моделями. Вопросы пользователей со всего мира варьируются и даже более причудливы: какой из этих трех мобильных телефонов лучше? Какие яйца лучше или гашапон? Каковы критерии успешных людей? Почему Линь Дайюй сражался с Костяным Демоном?

В большой модели будет много ответов, и задача Сяо Вана — прочитать каждый ответ, выделить ошибки и выставить им оценки одну за другой в зависимости от качества. 5 баллов — идеальный результат, 1 балл — самый низкий, ответы ниже 3 баллов. нужно разделить ошибки на типы. Если ответ не тот, что был задан, сразу будет присвоен самый низкий балл. Если встречается деликатный вопрос, балл не будет присвоен и он будет оценен как «другое».

Сортировка, оценка и оценка — эти немного сложные этапы аннотации — это именно то, что называется RLHF (Reinforcement Learning from Human Feedback, то есть обучение с подкреплением на основе отзывов человека). Цель состоит в том, чтобы постоянно согласовывать большие модели с человеческими ценностями и способами. мышления.Больше полезного. OpenAI использовала RLHF в процессе обучения ChatGPT и добилась замечательных результатов.

По сравнению с прежней разметкой данных, правила разметки для больших моделей более субъективны. Когда инженер-алгоритм берет интервью у аннотатора, он задает другому человеку такой вопрос: «Если бы вы были бизнес-лидером и столкнулись с четырьмя типами сотрудников: Сунь Укуном, Чжу Бацзе, Тан Монком и Ша Сеном, кого бы вы предпочли? нанимать?"

По его словам, стандартного ответа не существует. **Этот тип вопросов предназначен для проверки способности комментатора к логическому мышлению. **

Потребность отрасли в талантах стала острой. Стартап-компания Kaiwang Data сотрудничает с университетами для подготовки большого количества студентов-аннотаторов. Генеральный директор Юй Сюй сообщил, что в прошлом году компания построила «Академию данных Кайван» и обучила более 1500 учащихся в 50 школах аннотированию данных.

Когда Сяо Ван получает ответы от большой модели, ему часто приходится проводить проверку фактов, и рабочая нагрузка полностью зависит от удачи. Однажды я столкнулся с вопросом: что лучше, BMW 3-й серии или Mercedes-Benz C-серии? В большой модели указано 40 параметров двух автомобилей соответственно, и каждый параметр должен проверить Сяо Ван. Этот вопрос занял у него полчаса.

Поработав некоторое время над аннотациями, Сяо Ван обнаружил, что его оценка редко превышает 3 балла: «Ответов ИИ недостаточно, чтобы я почувствовал себя очень удовлетворенным или выдающимся». Он вспомнил, что один из вопросов был: «Если Bluetooth-гарнитура сломалась, мне следует пойти к дантисту или к производителю гарнитуры?» Очевидно, это был вопрос о рыбалке, но ответ ИИ заставил его глаза загорелись. к стоматологу на ремонт, а не в больницу».

Сяо Ван доволен этой работой. Его ежемесячная базовая зарплата составляет 1800 юаней, бонус за отличную посещаемость — 200 юаней, жилищная субсидия — 200 юаней, а с учетом производительности он может получать 4000 юаней в месяц. По его словам, доход считается выше среднего по району. Он также поднял себе волосы, и они вдвоем сели за соседние рабочие места.

Одновременно с Сяо Ванем тренировалось около 20 студентов колледжа, но в течение двух дней почти все они ушли, и осталось только два или три человека.

Но нам не стоит беспокоиться о компании, недостатка в студентах здесь никогда не будет. Технический директор рассказал 36Kr правду: пойдите и посмотрите на текущую ситуацию с трудоустройством студентов.

Больше всего я хочу устранить человеческие аннотации, а не искусственный интеллект

Надо признать, что существует много сообщений об аннотировании данных.

В прошлом месяце мы потратили много времени на общение с разработчиками алгоритмов и компаниями, занимающимися искусственным интеллектом. Хотя вышеупомянутый консенсус не был обновлен, можно смутно предположить, что то, что больше всего хочет устранить человеческий труд, возможно, не ИИ. Прежде чем ИИ сможет по-настоящему действовать, те, кто освоил самые передовые технологии, уже подняли свои косы.

В мире технологий важность данных невозможно переоценить. Инженер-алгоритмист Сяо Дуань сказал, что если в бизнесе, связанном с искусственным интеллектом, нет размеченных данных, независимо от того, насколько хорош алгоритм, который они напишут, он будет разбит на части. Чем больше размеченных данных, тем лучше. Собрать всю шерсть тагеров – дело гарантированное.

Иногда алгоритм может завершить данные, на обработку которых аннотаторам потребовалось четыре или пять дней, за один час. Сяо Дуань работает в крупной интернет-компании, отдел имеет достаточный бюджет и несколько штатных аннотаторов. "Мы стараемся не оставлять аннотаторов без дела, - сказал он. - Руководители будут читать еженедельный отчет. Если они почувствуют, что задач не так много, давайте поставим им больше задач".

Комментатор рассказал 36Kr, что, хотя программисты, которые с ним работают, говорят, что каждый вид работы имеет ценность, они все же непреднамеренно проявляют следы презрения. «Конечно, эта группа людей сама ориентирована на технологии», — утешал себя комментатор.

Технологии развиваются гораздо быстрее, чем все ожидали.В эпоху больших моделей качество данных будет напрямую влиять на производительность модели. **Понимая это, некоторые компании, занимающиеся искусственным интеллектом, без колебаний распрощались с аутсорсерами аннотаций данных.

«Качество данных, которые мы получили, было настолько плохим, что они были практически бесполезны», — сказал технический директор компании, занимающейся искусственным интеллектом. Их основной бизнес — видео, генерируемые искусственным интеллектом, и они разработали собственную модель, которая может генерировать неограниченное количество видеороликов о продуктах электронной коммерции. Чтобы обучить модель, они специально набрали 50 студентов колледжа для аннотирования данных.

Студентам колледжей также трудно доверять, когда дело касается профессиональных областей, таких как здравоохранение, финансы и компьютеры. Крупная отечественная интернет-компания не только создает собственную базу маркировки, но и платит специалистам за маркировку. Хотя доля профессионалов в аннотационной отрасли пока невелика, их роль вполне очевидна. Например, надежнее всего оставить вопрос о приостановлении социальных выплат специалистам, знакомым с государственными документами.

Ни для кого не секрет, что задолго до того, как ChatGPT стал популярным, OpenAI организовала для «отметки» более десятка докторантов. За восемь лет OpenAI потратила 1 миллиард долларов США только на обучение модели.

В мае этого года американская компания по обработке данных начала набор специалистов в конкретных областях. Например, почасовая оплата за маркировку юридических данных составляет 45 долларов США, а почасовая оплата за стихи — 25 долларов США.

Однако, по мнению некоторых компаний, занимающихся искусственным интеллектом, будь то «синие воротнички» или «белые воротнички», они хотят сэкономить затраты. Общаясь с этими компаниями, 36 Криптон часто слышал одно слово: сократить затраты и повысить эффективность.

Самый распространенный метод — использование искусственного интеллекта для автоматического аннотирования. Компания по обработке данных заявила, что доля автоматизированных аннотаций достигла более 70%.

Инженер-алгоритмист Сяо Ли и его коллеги предпринимают более передовые попытки: ** Пока в качестве модели используется небольшая часть реальных данных, с помощью генеративной технологии искусственного интеллекта и ряда алгоритмов можно получить высококачественные обучающие данные. синтезированный. Другими словами, никто вообще не нужен. **

«Цена наших синтетических данных немного дешевле, чем стоимость ручного аннотирования», — сказал Сяо Ли.

Синтетические данные в настоящее время в основном используются в области автономного вождения и робототехники. Сяо Ли рассказал, что когда вышел ChatGPT, он понял, что аннотированные данные могут не работать и в конечном итоге придется использовать синтетические данные. Основатель OpenAI Сэм Альтман также придерживается аналогичной точки зрения: «Синтетические данные — наиболее эффективный способ решить проблему нехватки данных больших моделей».

Стартап Light Wheel Intelligence в основном производит синтетические данные в области автономного вождения и робототехники. "Конечным результатом автоматизированной маркировки является отсутствие маркировки, - сказал генеральный директор Се Чен. - Большинство компаний, занимающихся маркировкой, не видят такой долгосрочной перспективы".

Се Чен упомянул 36Kr, что коллега из команды ранее занимался автоматизированным аннотированием у OEM-производителя и освоил более сложную аннотацию 4D-BEV. Это ведущий в отрасли инструмент для аннотирования, который использует время как четвертую широту для аннотаций в 3D-пространстве для повышения производительности систем автономного вождения. В этом году он решил отказаться от автоматизированных аннотаций, взял на себя инициативу найти Се Чена и, наконец, присоединился к Nimbus Intelligence.

Этот коллега — Сяо Ли. Он рассказал, что появление генеративного ИИ однажды его очень встревожило, но, увидев синтетические данные, он снова воодушевился.

Одна из его рабочих целей — «заменить (наклеить) людей в этой отрасли», но он стесняется сказать наверняка: «Вероятно, это будет в краткосрочной перспективе, может быть, один или два года».

Наконец, давайте вернемся в мир аннотаторов. Тревога, вызванная стремительным развитием технологий, здесь практически незаметна. Есть только тривиальные, повторяющиеся неприятности и некоторые наивные фантазии.

Студент колледжа Сяо Ван до сих пор тренирует крупных моделей в своем родном городе. Когда мы недавно общались, он сказал, что эта работа — возможность войти в сферу искусственного интеллекта. Путь продвижения, установленный для них компанией, — от аннотаторов до инспекторов качества, тренеров, супервайзеров и, наконец, менеджеров проектов. Цель Сяо Вана — стать руководителем, а затем сменить работу на должность, более близкую к ИИ. Что именно, он пока не знает.

По сравнению с амбициозным Сяо Ваном, большинство комментаторов мало интересуются ИИ. Одна девушка объяснила: «Я не уделяю особого внимания высоким технологиям». Она занимается маркировкой два года и уже является старшим сотрудником. Недавно ее повысили до инспектора по качеству. Для нее работа с аннотациями проста и стабильна, «без умственных усилий», и иногда она может ловить рыбу. В этом году, когда ИИ всколыхнул мир технологий, ее жизнь была спокойной, как вода.

Одним из немногих изменений является добавление диалогового бота к инструментам аннотирования, предоставляемым компанией. Компания сообщает всем, что если во время аннотации у вас возникнут какие-либо вопросы, которые вы не понимаете, просто задайте их напрямую роботу, чтобы сэкономить время. Эффективность быстро росла.Она рассказала 36 Криптону, что раньше она могла делать до пяти-шестисот коробок в день, но теперь она может делать больше семисот.

«Спасибо роботу», — сказала она. Ей еще никто не сказал, что он называется ChatGPT.

(По просьбе собеседника некоторые персонажи статьи имеют псевдонимы. В написании статьи также принимала участие автор 36Kr Анита Денг.)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить