Источник изображения: сгенерировано инструментом Unbounded AI
** Перспективы и разрушения существуют одновременно, и практики маркировки данных никогда не были столь противоречивы. **
Дай Ян, 30-летний житель Внутренней Монголии, начал свой бизнес в начале этого года и сформировал команду по онлайн-маркировке из почти 30 человек. Ранее Дайян два года работал над краудсорсинговой платформой для аннотирования данных. Тот, кого можно назвать «квалифицированным работником», и с нетерпением ждет, и нервничает по поводу сложившейся ситуации.
Он обращает внимание на ChatGPT с начала года. Благодаря быстрому росту числа регистраций компаний ИИ Дай Ян увидел взрыв индустрии ИИ и предпринимательские возможности маркировки данных. ** Данные Тяньянчи показывают, что только в первом квартале этого года было зарегистрировано 170 000 компаний, связанных с искусственным интеллектом, а их общее число сейчас составляет 2,67 миллиона. **
Он воображает, что сможет следить за отраслью, и в будущем компания вырастет до 100 человек. ** Но нынешнее положение дел с трудом поддерживает его ожидания: круг маркировки данных скоро разорвется — большое количество потребностей в маркировке, маркировщиков и посредников хлынет вместе, а цена за единицу будет ниже. **
Точно так же, как команда инженеров не может связаться со Стороной А, у которой есть потребности в строительстве, и может только принять проект от подрядчика, заработная плата, с которой связался **Daiyan, становится все ниже и ниже по мере того, как проект переходит из рук в руки. **Он отказался участвовать в проекте по маркировке, где он мог получать только 30 юаней в день.
В то же время ** Дайян также сталкивается с затруднениями из-за отсутствия карьерного роста в индустрии этикетирования, отсутствия гарантий контракта и отсутствия возможности пожаловаться на задержку. ** Он посмеялся над собой: «Мы рабочие-мигранты новой эры».
Но это еще не все. **Большая проблема заключается в том, что автоматическая маркировка также поглощает единственные проекты, которые у них есть. ** ИИ, обученный специалистами по маркировке данных, такими как Дай Ян, учится и маркирует себя под наблюдением человека.
Автоматизированная маркировка значительно сократит расходы предприятия и стала наиболее перспективным направлением на рынке маркировки данных.
Дайян должен был подготовиться к тому, что «ИИ может полностью заменить людей». Он руководил командой, которая одновременно выполняла проекты аннотаций учебных пособий и аннотаций трехмерных облаков точек в категории текстовых аннотаций. Один текстовый, а другой видеоизображение. Дай Ян разработал план, согласно которому, если ИИ отменит проект, он немедленно приведет команду к переходу в другую область.
Кроме того, размер команды должен быть уменьшен. Дай Ян перечеркнул в воображении масштаб компании из 100 человек. Он считает, что в итоге может остаться только опытная команда из 20 человек.
**Эти искусственные интеллекты, обученные специалистами по маркировке данных, заставляют их мечтать о большем заработке, заставляя их планировать подрывную деятельность. **
1. Маркировка, пусть ИИ откроет глаза, чтобы увидеть мир
Чтобы машины могли понимать текст, голос и изображения, как люди, люди создали цепочку машинного обучения: сбор физических изображений и звуков в физическом мире, маркировка и очистка данных, преобразование данных в серию кодов и их отправка. к машине.
Исследователи искусственного интеллекта считают, что трехлетние дети «выстреливают» глазами сотни миллионов картинок, многократно познавая мир. Таким образом, пока в машину поступает достаточно данных, она также может научиться читать и распознавать предложения и, наконец, понимать глубокий смысл языка.
В помеченном атласе ImageNet содержится 15 миллионов изображений, и этот набор данных помог бесчисленным компаниям, занимающимся искусственным интеллектом, добиться прорывов в компьютерном зрении, таких как распознавание лиц и поиск изображений.
Над созданием ImageNet в течение двух с половиной лет работали около 50 000 специалистов по маркировке данных из 167 стран мира, все они пришли с краудсорсинговой платформы Mechanical Turk.
Требования к маркировке очень просты.Обычная работа MTurk состоит в том, чтобы различать цвет фотографии, или классифицировать животных, появляющихся на изображении, или использовать рамки, чтобы обрамлять выбранные объекты и маркировать их названия: это торт, это машина, Это облако и так далее.
Графический/целочисленный интеллект
200 000 сотрудников, занятых неполный рабочий день на платформе, распределены по Африке и Юго-Восточной Азии, где стоимость рабочей силы низка, и даже сформировали характерную «деревню аннотаций данных». Данные, которые они отмечают, поддерживают исследования технологических компаний в области ИИ.
В Китае миллионы аннотаторов распределяются по городам второго и третьего уровня в Гуйчжоу, Шаньси, Шаньдуне, Хэнани и других провинциях и постепенно проникают в уезды с более низкой стоимостью рабочей силы. Они либо полагаются на онлайн-платформы краудсорсинга, либо присоединяются к офлайн-компаниям и базам маркировки данных. **
Содержание аннотации разделено на текст, изображение и голос в соответствии со сценой, что соответствует функциям помощи машине в приобретении грамотности, распознавании изображений и прослушивании звука.
Ранние проекты аннотирования были ориентированы на интернет-компании, в основном аннотируя голос и текст. Теперь компаниям, занимающимся беспилотным транспортом, предлагается маркировать 3D-сцены, полученные с помощью лидарного сканирования, например маркировать облака точек, или использовать другие направления вертикальных текстовых и голосовых маркировок: чтобы помочь образовательным компаниям предоставить обучающие вспомогательные данные маркировки для больших моделей или для медицинских учреждений. Большая модель предоставляет сопоставленные медицинские данные.
Когда ИИ вступает в эпоху 2.0, ChatGPT поразил инвесторов, предпринимателей и предпринимателей.Все ждут от ИИ не только жесткого распознавания текстовой, голосовой и графической информации. Люди также надеются, что ИИ сможет по-настоящему понимать связь между такими вещами, как люди, распознавать тонкие различия и эмоции, стоящие за действиями, а также активно различать и собирать информацию.
Например, пусть беспилотный автомобиль различает пустой пластиковый пакет перед собой, а не камень похожего цвета и размера; пусть камера рядом с бассейном уже не просто фиксирует то, что произошло у бассейна, а понимает, что бывало и когда кто-то тонет Алерт.
Они по-прежнему должны полагаться на аннотации данных и выдвигать более высокие требования к аннотациям — более вертикальным, более точным и более экономичным.
С этого же начался и подъем рынка этикетирования.
2. "Слишком много заказов, которые нужно выполнять"
Трудно иметь данные, напрямую объясняющие всплеск спроса на новые аннотации, но судить об этом несложно. Потому что только в первом квартале 2023 года в Китае появилось 170 000 компаний, занимающихся искусственным интеллектом, и пока эта компания использует ИИ, у нее обязательно будет спрос на маркировку данных.
Спрос быстро распространился на рынок маркировки данных. На панели постов, где собираются специалисты по аннотации данных, можно обновлять более дюжины постов о рекрутинге в день, включая, помимо прочего, текстовые аннотации, обзоры тем, аннотации к видео о продажах дронов, 2D-стержень обнаружения, 3D-облако точек и т. д. элементы для видео с преобразованием текста в изображение.
Специалист по маркировке данных, много лет работающий в отрасли, заметил, что в этом году количество проектов по маркировке беспилотных транспортных средств увеличилось, а крупномасштабное модельное предпринимательство в вертикальной области, порожденное бумом AI2.0, позволило первоначально сокращающимся проектам по маркировке текста. быть разделены на разные треки. , также увеличивает спрос на нишевую маркировку данных.
Движимый спросом, Дайян не единственный, кто создает новую команду для промывки золота. Чжан Вэй из Дунъин, провинция Шаньдун, также начал заниматься маркировкой данных в конце прошлого года и за полгода превратился в небольшую команду из более чем дюжины человек. Опираясь на субсидии и поддержку местного правительства, компания Чжан Вэя не только получила бесплатный офис, но и правительство помогло направить ресурсы от партии А.
Есть много проектных заказов, от первоначального проекта на сумму более 100 000 юаней до последнего заказа на 400 000 юаней, срочная задача доставки заставила Чжан Вэй более активно искать работников для маркировки: несколько дней назад Чжан Вэй купил еще 6 компьютеров. всего за один день.
В Чжэнчжоу, провинция Хэнань, краудсорсинговая платформа для аннотирования данных переезжает в двухэтажное офисное здание, способное вместить 100 человек. Они пишут позиционирование компании на вывеске у двери и в офисе: «Исследования и разработки в области больших данных искусственного интеллекта ИИ», «повторная очистка данных — для того, чтобы ваш ИИ стал умнее».
«Слишком много заказов для проекта по маркировке», — сказал ответственный.
Церемония переезда компании по маркировке данных
Источник изображения/предоставлено интервьюируемыми
«Горячие» деньги уже давно легли в карманы этикетировочных компаний. Согласно данным, цена акций ведущей компании Haitian AAC выросла в 4 раза с марта по май этого года.
Согласно новостям 36 Krypton, с начала этого года более дюжины платформ маркировки данных в раунде B и ранее в совокупности продемонстрировали высокие оценки с увеличением почти на 100%. Со второй половины прошлого года автоматические этикетировочные компании последовательно получали новое финансирование.
В сентябре 2022 года Borden Intelligence получила финансирование в размере 10 млн юаней, в декабре Stardust Data завершила финансирование раунда А в размере 50 млн юаней. Прошло четыре с половиной года с момента последнего финансирования в июне 2018 года.
В апреле 2023 года компания Kaiwang Data, занимающаяся разработкой решений для маркировки данных, получила новый раунд стратегического финансирования, а в июне компания Integer Intelligence, занимающаяся данными ИИ, получила десятки миллионов раундов финансирования Pre A.
Они полны энтузиазма разыгрывать лозунги, заменяющие ручную маркировку: «Реконструировать производство этикеток с данными», «Автоматизированная производственная линия + крупномасштабная рабочая сила», «Сломать ручной режим автоматического вождения этикетирования».
Очевидно, что рынок капитала также снова обращает внимание на эту новую область.
3. Объемнее и строже
Цепочка разметки данных состоит из трех частей.
Вверх по течению: компании по маркировке данных с 1–150 сотрудниками, онлайн-отставшие и небольшие мастерские.
Midstream: поставщики услуг данных, одна из которых является посреднической краудсорсинговой платформой, которая занимается восходящим и нисходящим потоком, а другая заключается в том, что предприятия предпочитают создавать свои собственные базы маркировки для стабильных инвестиций в отрасль.
Downstream: технологические компании, промышленные компании, компании искусственного интеллекта и научно-исследовательские подразделения.Интернет-компании доминировали в 2018 году, а теперь они перешли к автомобильным компаниям и компаниям, занимающимся беспилотным вождением.
В отрасли обычно используется модель субподряда, то есть первая сторона выдает заявку, а сторонний поставщик услуг участвует в торгах.После того, как заявка будет успешной, она входит в эшелон поставщиков компании и основных поставщиков. может пользоваться правом выбора приоритетных задач и большего количества заказов.
Требования предприятия к основным поставщикам заключаются в наличии команды доставки не менее 30 человек, зрелом опыте доставки заказов, создании системы обучения и способности контролировать качество и количество доставки. Стабильная производственная команда в конечном итоге приводит к низкой котировке, что делает компанию более конкурентоспособной.
Тем не менее, преимущество низкой цены, достигнутое командой управления и контроля, было подорвано. «В этом году торги очень высоки!» Поставщик услуг сказал «Jiazi Guangnian»: «Мы предлагаем 200 юаней за проект, а некоторые люди предлагают 80 юаней в день».
В конце концов, проект выиграла команда с наименьшей ставкой, но в итоге он вернулся к более зрелой команде. «Они были возвращены нам стороной А, когда они не смогли закончить его, но цена больше не могла расти».
Поскольку онлайн-команда Дайяна не связывается напрямую со стороной А. Поэтому хаотичная ситуация с ценами на многоуровневую облицовку и ламинат на рынке заставляет их чувствовать давление.
Маркировка данных — это отрасль, основанная на ресурсах, и тот, кто сможет наладить сотрудничество со Стороной А, получит преимущество. Дай Ян рассказал, что после регистрации компании некоторые лица ложно утверждали, что у них есть профессиональная команда из 40-50 человек и участвовали в торгах по очень низкой цене, после победы в проекте они разделили его на 4-5 долей и распределили. их в разные команды.Команда делится дальше, и комиссия собирается слой за слоем.Посредник зарабатывает разницу, а сдельная цена, распределяемая между работниками маркировки данных, становится все ниже и ниже. **
Пока кто-то берет тарелку, она будет продолжать двигаться вниз по спирали.
Прайс-лист, полученный «Jiazi Guangnian», показывает, что от 2D-маркировки до 3D-маркировки лазерным облаком точек цена за единицу маркировки обычно составляет от 0,5 до 1,5 юаня за кадр. Дай Ян однажды получил цену за один кадр со скидкой 50%, «переведено как минимум четыре или пять рук».
**Интроверсия цены за единицу напрямую ведет к уменьшению заработной платы этикетировочного персонала. **Команда Дайяньхэ работает неполный рабочий день. Большинство членов команды — матери, студенты колледжей, фрилансеры и учащиеся профессионально-технических училищ. Они работают по 6 часов в день. Поддерживая это состояние, Дайян будет иметь ежемесячный доход от 4 до 5 тысяч юаней во время эпидемии в 2022 году.
«Если у вас есть компьютер и электричество, вы можете им управлять», — это обычная привлекательная фраза на плакатах с данными о наборе персонала. В прошлом это было самым значительным преимуществом индустрии маркировки данных. Но сегодня это преимущество привело к инволюции всей отрасли. Сейчас ежемесячный доход Даяна составляет всего 2-3 тысячи юаней.
В то время как доходы упали, рабочая нагрузка не уменьшилась. Наоборот, работа по разметке данных более сложная и детальная.
Старшие специалисты по аннотации данных скучают по рынку аннотаций в эпоху Интернета: цена одного кадра в три раза выше, а количество элементов велико. Команда из 60-70 человек может получать ежемесячный доход в 300 000 юаней. «Сейчас рынок полон проектов с выходной стоимостью (стоимостью, создаваемой одним человеком в день) менее 100 юаней, которая раньше составляла сотни долларов в день», — сказал практикующий.
В то время работа над проектом была простой и не было требований, таких как разметка 2D-сцены для беспилотного автомобиля, а при рисовании кадра на транспортном средстве на картинке, пока его можно было обрамлять, не было требований. .
** Но теперь все по-другому. «Соответствие» является наиболее важным критерием приемлемости для партии А. ** "В прошлом году погрешность должна была быть 5-7 мм, а в этом году она будет 3-5 мм. Требуемая погрешность становится все меньше и меньше", - сказал Дай Ян.
Ученый в области искусственного интеллекта Ву Энда неоднократно подчеркивал, что ценность искусственного интеллекта может быть раскрыта только с помеченными высококачественными данными.Чем больше качественных данных, тем быстрее развивается искусственный интеллект.
В размеченных данных беспилотных транспортных средств он выражается как степень соответствия между прямоугольной рамкой и маркируемым объектом.Чем выше степень соответствия, тем выше точность алгоритма и тем точнее алгоритм может управлять транспортным средством. .
Качественные элементы текстовой аннотации отражаются на правильности смыслового понимания и правильном темпе ответов на вопросы. Чем выше правильный показатель, тем умнее обучаемая большая модель.
Квалифицированные руки могут обеспечить быструю и качественную доставку данных. Дайян однажды попросил новичка поучаствовать в проверке того, завершены ли математические задачи, решаемые ChatGPT, верна ли логика и может ли язык быть понятен учащимся начальной школы. 7500 данных, отмеченных новичком, должны были быть переработаны Стороной А, потому что уровень точности был слишком низким. Дай Яну и его коллегам потребовалось более десяти дней, чтобы исправить это.
Маркировка данных становится все более сложной задачей без порога. Сложные голосовые аннотации, медицинские, юридические, финансовые и другие профессиональные аннотации наборов данных требуют, чтобы профессионалы с запасом предметных знаний делали профессиональные аннотации.
Дай Ян считает, что, взяв в качестве примера проект беспилотного автомобиля, новичкам требуется 3 месяца, чтобы освоить 2D-маркировку, и от 4 до 6 месяцев, чтобы освоить 3D-маркировку.
Этот вид упражнений относится к тренировке точности рисования рамки, используя мышь для рисования прямоугольной рамки на странице маркировки компьютера за один раз, которая может точно покрыть отмеченный объект, не наступая на линию, не пропуская точки и даже незаметно.
Эксперты по аннотации рисунков/данных указывают на проблемы в аннотации
Просто когда машина начинает учиться сама и заменяет человека, чтобы обозначить машину, остается ли смысл в навыке, на отработку которого люди тратят время?
4. Альтернативный кризис
Дай Ян понял, что ИИ приближается, и это было в проекте аннотации изображений, который он сделал некоторое время назад.
Это старый проект, над которым Даян работал два года — распознавание карт. Этикетировщики данных должны распознать текст на картинке и распечатать его, цена 8 центов за штуку. Данные, помеченные от имени расширения, вводятся в модель распознавания изображений. Теперь модель умеет распознавать текст на изображениях. Работа Дайяна по маркировке стала сводиться к пересмотру и пересмотру. Сложность уменьшилась, и отмеченная цена за единицу также уменьшилась.
** ИИ, обученный людьми с маркировкой, заменяет работу человека по маркировке. ** В отчете об опросе Цюрихского университета исследователи на основе фактических измерений обнаружили, что способность обработки ChatGPT в 15 задачах маркировки выше, чем у краудсорсеров. **Шкала выполнения встраивания большой модели в краудсорсинговую платформу также была ускорена. **Последующее исследование, проведенное Федеральным технологическим институтом в Лозанне, показало, что более 30% краудсорсинговых аннотаторов использовали большие модели при обработке текстовых аннотаций.
ИИ, несомненно, экономит больше времени и труда, чем ручной труд: исследователи заявили, что удельная стоимость ChatGPT эквивалентна лишь 1/20 стоимости MTurk.
Дайян также готов к тому, что это направление бизнеса в любой момент будет заменено «более совершенным ИИ». Он сделал ставку на большее количество этикеток, требующих навыков самостоятельного вождения, в будущем.
Но маркировка автономного вождения также подвергается вторжению ИИ. По сравнению с ручным методом рисования рамок, для автоматической маркировки требуется только встроенная большая модель.После настройки параметров прямоугольная рама, которая изначально требовала ручной маркировки, будет создана автоматически. Единственная проблема в настоящее время заключается в том, что сгенерированный прямоугольный кадр имеет проблемы с качеством, такие как наступание на линию и низкую посадку, что требует ручной проверки один за другим.
Повышение эффективности удивило автомобильные компании. Идеальным является использование большой модели 2.0 для автоматической калибровки, которая в 1000 раз более эффективна, чем люди; Tesla активно продвигает прогресс автоматической маркировки, например, отменив 200 видеороликов с маркировкой Tesla в июне 2022 года, чтобы улучшить систему помощи американским сотрудникам, потому что Tesla Возможность автоматической маркировки была значительно улучшена: маркировка 10 000 видео продолжительностью менее 60 секунд требует только большой модели для работы в течение недели вместо ручной маркировки в течение нескольких месяцев.
Лин Цюньшу, основатель компании Integer Intelligence, занимающейся данными в области искусственного интеллекта, сказал, что все больше и больше автомобильных компаний и компаний AIGC используют крупномасштабные модельные продукты для автоматической маркировки, и их доходы значительно увеличиваются. Их последним шагом является создание филиала по исследованиям и разработкам в Сингапуре.
**Однако сторонние поставщики услуг не так оптимистичны в отношении роста автоматизированной маркировки. ** Менеджер проекта краудсорсинговой платформы в провинции Хэнань сказал, что автоматическая маркировка не может заменить более 60% требований к маркировке и может использоваться только в качестве вспомогательного инструмента маркировки для обработки отдельных или конкретных данных и повышения эффективности работы человека.
Менеджер по продукту другой компании, занимающейся маркировкой данных, считает, что автоматическая маркировка может фильтровать только простые базовые данные и не может точно идентифицировать объекты из сложных и противоречивых сцен, таких как люди. Это также является причиной того, что на рынке маркировки данных по-прежнему доминируют данные маркировки автономного вождения.
Однако все согласны с тем, что в будущем маркировка данных переместится от рабочей силы к технологии.
Короче говоря, либо быть «зажатым до смерти» коллегами, либо «зажатым до смерти» технологиями. Но сидеть на месте точно нельзя, и сторонние компании, размечающие данные, ищут выход в будущем.
План Даяна состоит в том, чтобы идти в ногу с рынком, сохранять бдительность, увольнять персонал в любое время и в то же время развиваться в направлении автоматизированного инструмента для маркировки. Основатель краудсорсинговой платформы в общении со своими коллегами сказал, что в будущем мы не должны накапливать рабочую силу, а должны иметь возможности для исследований и разработок.
Как насчет физических лиц? Карьерный путь, распространенный в отрасли, состоит в том, что начинающие этикетировщики - опытные этикетировщики - администраторы / менеджеры проектов по маркировке - аналитики данных компании A и, наконец, получают продвижение по службе с ежемесячной зарплатой в десятки тысяч.
Ни один из знакомых Дай Яну специалистов по маркировке данных не шел в этом направлении.Они либо оставались там, где были, либо уходили.В лучшем случае было создать собственную команду по маркировке данных, как это сделал Дай Ян, но ему от этого не стало легче.
С одной стороны, наблюдается рост спроса на проекты, вызванный тенденцией ИИ, а с другой стороны, более хаотичные торги, более низкая производительность на душу населения и быстрорастущий ИИ. Две эмоции переплетены, ИИ принесет безграничные возможности, а ИИ также уничтожит «нас».
(По просьбе интервьюируемых все имена в статье псевдонимы)
Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Рабочие с маркировкой данных: обучающий ИИ, замененный ИИ
Рост и элиминация происходят одновременно.
Автор|Ма Хуэй
Править|Каштаны
** Перспективы и разрушения существуют одновременно, и практики маркировки данных никогда не были столь противоречивы. **
Дай Ян, 30-летний житель Внутренней Монголии, начал свой бизнес в начале этого года и сформировал команду по онлайн-маркировке из почти 30 человек. Ранее Дайян два года работал над краудсорсинговой платформой для аннотирования данных. Тот, кого можно назвать «квалифицированным работником», и с нетерпением ждет, и нервничает по поводу сложившейся ситуации.
Он обращает внимание на ChatGPT с начала года. Благодаря быстрому росту числа регистраций компаний ИИ Дай Ян увидел взрыв индустрии ИИ и предпринимательские возможности маркировки данных. ** Данные Тяньянчи показывают, что только в первом квартале этого года было зарегистрировано 170 000 компаний, связанных с искусственным интеллектом, а их общее число сейчас составляет 2,67 миллиона. **
Он воображает, что сможет следить за отраслью, и в будущем компания вырастет до 100 человек. ** Но нынешнее положение дел с трудом поддерживает его ожидания: круг маркировки данных скоро разорвется — большое количество потребностей в маркировке, маркировщиков и посредников хлынет вместе, а цена за единицу будет ниже. **
Точно так же, как команда инженеров не может связаться со Стороной А, у которой есть потребности в строительстве, и может только принять проект от подрядчика, заработная плата, с которой связался **Daiyan, становится все ниже и ниже по мере того, как проект переходит из рук в руки. **Он отказался участвовать в проекте по маркировке, где он мог получать только 30 юаней в день.
В то же время ** Дайян также сталкивается с затруднениями из-за отсутствия карьерного роста в индустрии этикетирования, отсутствия гарантий контракта и отсутствия возможности пожаловаться на задержку. ** Он посмеялся над собой: «Мы рабочие-мигранты новой эры».
Но это еще не все. **Большая проблема заключается в том, что автоматическая маркировка также поглощает единственные проекты, которые у них есть. ** ИИ, обученный специалистами по маркировке данных, такими как Дай Ян, учится и маркирует себя под наблюдением человека.
Автоматизированная маркировка значительно сократит расходы предприятия и стала наиболее перспективным направлением на рынке маркировки данных.
Дайян должен был подготовиться к тому, что «ИИ может полностью заменить людей». Он руководил командой, которая одновременно выполняла проекты аннотаций учебных пособий и аннотаций трехмерных облаков точек в категории текстовых аннотаций. Один текстовый, а другой видеоизображение. Дай Ян разработал план, согласно которому, если ИИ отменит проект, он немедленно приведет команду к переходу в другую область.
Кроме того, размер команды должен быть уменьшен. Дай Ян перечеркнул в воображении масштаб компании из 100 человек. Он считает, что в итоге может остаться только опытная команда из 20 человек.
**Эти искусственные интеллекты, обученные специалистами по маркировке данных, заставляют их мечтать о большем заработке, заставляя их планировать подрывную деятельность. **
1. Маркировка, пусть ИИ откроет глаза, чтобы увидеть мир
Чтобы машины могли понимать текст, голос и изображения, как люди, люди создали цепочку машинного обучения: сбор физических изображений и звуков в физическом мире, маркировка и очистка данных, преобразование данных в серию кодов и их отправка. к машине.
Исследователи искусственного интеллекта считают, что трехлетние дети «выстреливают» глазами сотни миллионов картинок, многократно познавая мир. Таким образом, пока в машину поступает достаточно данных, она также может научиться читать и распознавать предложения и, наконец, понимать глубокий смысл языка.
В помеченном атласе ImageNet содержится 15 миллионов изображений, и этот набор данных помог бесчисленным компаниям, занимающимся искусственным интеллектом, добиться прорывов в компьютерном зрении, таких как распознавание лиц и поиск изображений.
Над созданием ImageNet в течение двух с половиной лет работали около 50 000 специалистов по маркировке данных из 167 стран мира, все они пришли с краудсорсинговой платформы Mechanical Turk.
Требования к маркировке очень просты.Обычная работа MTurk состоит в том, чтобы различать цвет фотографии, или классифицировать животных, появляющихся на изображении, или использовать рамки, чтобы обрамлять выбранные объекты и маркировать их названия: это торт, это машина, Это облако и так далее.
200 000 сотрудников, занятых неполный рабочий день на платформе, распределены по Африке и Юго-Восточной Азии, где стоимость рабочей силы низка, и даже сформировали характерную «деревню аннотаций данных». Данные, которые они отмечают, поддерживают исследования технологических компаний в области ИИ.
В Китае миллионы аннотаторов распределяются по городам второго и третьего уровня в Гуйчжоу, Шаньси, Шаньдуне, Хэнани и других провинциях и постепенно проникают в уезды с более низкой стоимостью рабочей силы. Они либо полагаются на онлайн-платформы краудсорсинга, либо присоединяются к офлайн-компаниям и базам маркировки данных. **
Содержание аннотации разделено на текст, изображение и голос в соответствии со сценой, что соответствует функциям помощи машине в приобретении грамотности, распознавании изображений и прослушивании звука.
Ранние проекты аннотирования были ориентированы на интернет-компании, в основном аннотируя голос и текст. Теперь компаниям, занимающимся беспилотным транспортом, предлагается маркировать 3D-сцены, полученные с помощью лидарного сканирования, например маркировать облака точек, или использовать другие направления вертикальных текстовых и голосовых маркировок: чтобы помочь образовательным компаниям предоставить обучающие вспомогательные данные маркировки для больших моделей или для медицинских учреждений. Большая модель предоставляет сопоставленные медицинские данные.
Когда ИИ вступает в эпоху 2.0, ChatGPT поразил инвесторов, предпринимателей и предпринимателей.Все ждут от ИИ не только жесткого распознавания текстовой, голосовой и графической информации. Люди также надеются, что ИИ сможет по-настоящему понимать связь между такими вещами, как люди, распознавать тонкие различия и эмоции, стоящие за действиями, а также активно различать и собирать информацию.
Например, пусть беспилотный автомобиль различает пустой пластиковый пакет перед собой, а не камень похожего цвета и размера; пусть камера рядом с бассейном уже не просто фиксирует то, что произошло у бассейна, а понимает, что бывало и когда кто-то тонет Алерт.
Они по-прежнему должны полагаться на аннотации данных и выдвигать более высокие требования к аннотациям — более вертикальным, более точным и более экономичным.
С этого же начался и подъем рынка этикетирования.
2. "Слишком много заказов, которые нужно выполнять"
Трудно иметь данные, напрямую объясняющие всплеск спроса на новые аннотации, но судить об этом несложно. Потому что только в первом квартале 2023 года в Китае появилось 170 000 компаний, занимающихся искусственным интеллектом, и пока эта компания использует ИИ, у нее обязательно будет спрос на маркировку данных.
Спрос быстро распространился на рынок маркировки данных. На панели постов, где собираются специалисты по аннотации данных, можно обновлять более дюжины постов о рекрутинге в день, включая, помимо прочего, текстовые аннотации, обзоры тем, аннотации к видео о продажах дронов, 2D-стержень обнаружения, 3D-облако точек и т. д. элементы для видео с преобразованием текста в изображение.
Специалист по маркировке данных, много лет работающий в отрасли, заметил, что в этом году количество проектов по маркировке беспилотных транспортных средств увеличилось, а крупномасштабное модельное предпринимательство в вертикальной области, порожденное бумом AI2.0, позволило первоначально сокращающимся проектам по маркировке текста. быть разделены на разные треки. , также увеличивает спрос на нишевую маркировку данных.
Движимый спросом, Дайян не единственный, кто создает новую команду для промывки золота. Чжан Вэй из Дунъин, провинция Шаньдун, также начал заниматься маркировкой данных в конце прошлого года и за полгода превратился в небольшую команду из более чем дюжины человек. Опираясь на субсидии и поддержку местного правительства, компания Чжан Вэя не только получила бесплатный офис, но и правительство помогло направить ресурсы от партии А.
Есть много проектных заказов, от первоначального проекта на сумму более 100 000 юаней до последнего заказа на 400 000 юаней, срочная задача доставки заставила Чжан Вэй более активно искать работников для маркировки: несколько дней назад Чжан Вэй купил еще 6 компьютеров. всего за один день.
В Чжэнчжоу, провинция Хэнань, краудсорсинговая платформа для аннотирования данных переезжает в двухэтажное офисное здание, способное вместить 100 человек. Они пишут позиционирование компании на вывеске у двери и в офисе: «Исследования и разработки в области больших данных искусственного интеллекта ИИ», «повторная очистка данных — для того, чтобы ваш ИИ стал умнее».
«Слишком много заказов для проекта по маркировке», — сказал ответственный.
Источник изображения/предоставлено интервьюируемыми
«Горячие» деньги уже давно легли в карманы этикетировочных компаний. Согласно данным, цена акций ведущей компании Haitian AAC выросла в 4 раза с марта по май этого года.
Согласно новостям 36 Krypton, с начала этого года более дюжины платформ маркировки данных в раунде B и ранее в совокупности продемонстрировали высокие оценки с увеличением почти на 100%. Со второй половины прошлого года автоматические этикетировочные компании последовательно получали новое финансирование.
В сентябре 2022 года Borden Intelligence получила финансирование в размере 10 млн юаней, в декабре Stardust Data завершила финансирование раунда А в размере 50 млн юаней. Прошло четыре с половиной года с момента последнего финансирования в июне 2018 года.
В апреле 2023 года компания Kaiwang Data, занимающаяся разработкой решений для маркировки данных, получила новый раунд стратегического финансирования, а в июне компания Integer Intelligence, занимающаяся данными ИИ, получила десятки миллионов раундов финансирования Pre A.
Они полны энтузиазма разыгрывать лозунги, заменяющие ручную маркировку: «Реконструировать производство этикеток с данными», «Автоматизированная производственная линия + крупномасштабная рабочая сила», «Сломать ручной режим автоматического вождения этикетирования».
Очевидно, что рынок капитала также снова обращает внимание на эту новую область.
3. Объемнее и строже
Цепочка разметки данных состоит из трех частей.
Вверх по течению: компании по маркировке данных с 1–150 сотрудниками, онлайн-отставшие и небольшие мастерские.
Midstream: поставщики услуг данных, одна из которых является посреднической краудсорсинговой платформой, которая занимается восходящим и нисходящим потоком, а другая заключается в том, что предприятия предпочитают создавать свои собственные базы маркировки для стабильных инвестиций в отрасль.
Downstream: технологические компании, промышленные компании, компании искусственного интеллекта и научно-исследовательские подразделения.Интернет-компании доминировали в 2018 году, а теперь они перешли к автомобильным компаниям и компаниям, занимающимся беспилотным вождением.
В отрасли обычно используется модель субподряда, то есть первая сторона выдает заявку, а сторонний поставщик услуг участвует в торгах.После того, как заявка будет успешной, она входит в эшелон поставщиков компании и основных поставщиков. может пользоваться правом выбора приоритетных задач и большего количества заказов.
Требования предприятия к основным поставщикам заключаются в наличии команды доставки не менее 30 человек, зрелом опыте доставки заказов, создании системы обучения и способности контролировать качество и количество доставки. Стабильная производственная команда в конечном итоге приводит к низкой котировке, что делает компанию более конкурентоспособной.
Тем не менее, преимущество низкой цены, достигнутое командой управления и контроля, было подорвано. «В этом году торги очень высоки!» Поставщик услуг сказал «Jiazi Guangnian»: «Мы предлагаем 200 юаней за проект, а некоторые люди предлагают 80 юаней в день».
В конце концов, проект выиграла команда с наименьшей ставкой, но в итоге он вернулся к более зрелой команде. «Они были возвращены нам стороной А, когда они не смогли закончить его, но цена больше не могла расти».
Поскольку онлайн-команда Дайяна не связывается напрямую со стороной А. Поэтому хаотичная ситуация с ценами на многоуровневую облицовку и ламинат на рынке заставляет их чувствовать давление.
Маркировка данных — это отрасль, основанная на ресурсах, и тот, кто сможет наладить сотрудничество со Стороной А, получит преимущество. Дай Ян рассказал, что после регистрации компании некоторые лица ложно утверждали, что у них есть профессиональная команда из 40-50 человек и участвовали в торгах по очень низкой цене, после победы в проекте они разделили его на 4-5 долей и распределили. их в разные команды.Команда делится дальше, и комиссия собирается слой за слоем.Посредник зарабатывает разницу, а сдельная цена, распределяемая между работниками маркировки данных, становится все ниже и ниже. **
Пока кто-то берет тарелку, она будет продолжать двигаться вниз по спирали.
Прайс-лист, полученный «Jiazi Guangnian», показывает, что от 2D-маркировки до 3D-маркировки лазерным облаком точек цена за единицу маркировки обычно составляет от 0,5 до 1,5 юаня за кадр. Дай Ян однажды получил цену за один кадр со скидкой 50%, «переведено как минимум четыре или пять рук».
**Интроверсия цены за единицу напрямую ведет к уменьшению заработной платы этикетировочного персонала. **Команда Дайяньхэ работает неполный рабочий день. Большинство членов команды — матери, студенты колледжей, фрилансеры и учащиеся профессионально-технических училищ. Они работают по 6 часов в день. Поддерживая это состояние, Дайян будет иметь ежемесячный доход от 4 до 5 тысяч юаней во время эпидемии в 2022 году.
«Если у вас есть компьютер и электричество, вы можете им управлять», — это обычная привлекательная фраза на плакатах с данными о наборе персонала. В прошлом это было самым значительным преимуществом индустрии маркировки данных. Но сегодня это преимущество привело к инволюции всей отрасли. Сейчас ежемесячный доход Даяна составляет всего 2-3 тысячи юаней.
В то время как доходы упали, рабочая нагрузка не уменьшилась. Наоборот, работа по разметке данных более сложная и детальная.
Старшие специалисты по аннотации данных скучают по рынку аннотаций в эпоху Интернета: цена одного кадра в три раза выше, а количество элементов велико. Команда из 60-70 человек может получать ежемесячный доход в 300 000 юаней. «Сейчас рынок полон проектов с выходной стоимостью (стоимостью, создаваемой одним человеком в день) менее 100 юаней, которая раньше составляла сотни долларов в день», — сказал практикующий.
В то время работа над проектом была простой и не было требований, таких как разметка 2D-сцены для беспилотного автомобиля, а при рисовании кадра на транспортном средстве на картинке, пока его можно было обрамлять, не было требований. .
** Но теперь все по-другому. «Соответствие» является наиболее важным критерием приемлемости для партии А. ** "В прошлом году погрешность должна была быть 5-7 мм, а в этом году она будет 3-5 мм. Требуемая погрешность становится все меньше и меньше", - сказал Дай Ян.
Ученый в области искусственного интеллекта Ву Энда неоднократно подчеркивал, что ценность искусственного интеллекта может быть раскрыта только с помеченными высококачественными данными.Чем больше качественных данных, тем быстрее развивается искусственный интеллект.
В размеченных данных беспилотных транспортных средств он выражается как степень соответствия между прямоугольной рамкой и маркируемым объектом.Чем выше степень соответствия, тем выше точность алгоритма и тем точнее алгоритм может управлять транспортным средством. .
Качественные элементы текстовой аннотации отражаются на правильности смыслового понимания и правильном темпе ответов на вопросы. Чем выше правильный показатель, тем умнее обучаемая большая модель.
Квалифицированные руки могут обеспечить быструю и качественную доставку данных. Дайян однажды попросил новичка поучаствовать в проверке того, завершены ли математические задачи, решаемые ChatGPT, верна ли логика и может ли язык быть понятен учащимся начальной школы. 7500 данных, отмеченных новичком, должны были быть переработаны Стороной А, потому что уровень точности был слишком низким. Дай Яну и его коллегам потребовалось более десяти дней, чтобы исправить это.
Маркировка данных становится все более сложной задачей без порога. Сложные голосовые аннотации, медицинские, юридические, финансовые и другие профессиональные аннотации наборов данных требуют, чтобы профессионалы с запасом предметных знаний делали профессиональные аннотации.
Дай Ян считает, что, взяв в качестве примера проект беспилотного автомобиля, новичкам требуется 3 месяца, чтобы освоить 2D-маркировку, и от 4 до 6 месяцев, чтобы освоить 3D-маркировку.
Этот вид упражнений относится к тренировке точности рисования рамки, используя мышь для рисования прямоугольной рамки на странице маркировки компьютера за один раз, которая может точно покрыть отмеченный объект, не наступая на линию, не пропуская точки и даже незаметно.
Просто когда машина начинает учиться сама и заменяет человека, чтобы обозначить машину, остается ли смысл в навыке, на отработку которого люди тратят время?
4. Альтернативный кризис
Дай Ян понял, что ИИ приближается, и это было в проекте аннотации изображений, который он сделал некоторое время назад.
Это старый проект, над которым Даян работал два года — распознавание карт. Этикетировщики данных должны распознать текст на картинке и распечатать его, цена 8 центов за штуку. Данные, помеченные от имени расширения, вводятся в модель распознавания изображений. Теперь модель умеет распознавать текст на изображениях. Работа Дайяна по маркировке стала сводиться к пересмотру и пересмотру. Сложность уменьшилась, и отмеченная цена за единицу также уменьшилась.
** ИИ, обученный людьми с маркировкой, заменяет работу человека по маркировке. ** В отчете об опросе Цюрихского университета исследователи на основе фактических измерений обнаружили, что способность обработки ChatGPT в 15 задачах маркировки выше, чем у краудсорсеров. **Шкала выполнения встраивания большой модели в краудсорсинговую платформу также была ускорена. **Последующее исследование, проведенное Федеральным технологическим институтом в Лозанне, показало, что более 30% краудсорсинговых аннотаторов использовали большие модели при обработке текстовых аннотаций.
ИИ, несомненно, экономит больше времени и труда, чем ручной труд: исследователи заявили, что удельная стоимость ChatGPT эквивалентна лишь 1/20 стоимости MTurk.
Дайян также готов к тому, что это направление бизнеса в любой момент будет заменено «более совершенным ИИ». Он сделал ставку на большее количество этикеток, требующих навыков самостоятельного вождения, в будущем.
Но маркировка автономного вождения также подвергается вторжению ИИ. По сравнению с ручным методом рисования рамок, для автоматической маркировки требуется только встроенная большая модель.После настройки параметров прямоугольная рама, которая изначально требовала ручной маркировки, будет создана автоматически. Единственная проблема в настоящее время заключается в том, что сгенерированный прямоугольный кадр имеет проблемы с качеством, такие как наступание на линию и низкую посадку, что требует ручной проверки один за другим.
Повышение эффективности удивило автомобильные компании. Идеальным является использование большой модели 2.0 для автоматической калибровки, которая в 1000 раз более эффективна, чем люди; Tesla активно продвигает прогресс автоматической маркировки, например, отменив 200 видеороликов с маркировкой Tesla в июне 2022 года, чтобы улучшить систему помощи американским сотрудникам, потому что Tesla Возможность автоматической маркировки была значительно улучшена: маркировка 10 000 видео продолжительностью менее 60 секунд требует только большой модели для работы в течение недели вместо ручной маркировки в течение нескольких месяцев.
Лин Цюньшу, основатель компании Integer Intelligence, занимающейся данными в области искусственного интеллекта, сказал, что все больше и больше автомобильных компаний и компаний AIGC используют крупномасштабные модельные продукты для автоматической маркировки, и их доходы значительно увеличиваются. Их последним шагом является создание филиала по исследованиям и разработкам в Сингапуре.
**Однако сторонние поставщики услуг не так оптимистичны в отношении роста автоматизированной маркировки. ** Менеджер проекта краудсорсинговой платформы в провинции Хэнань сказал, что автоматическая маркировка не может заменить более 60% требований к маркировке и может использоваться только в качестве вспомогательного инструмента маркировки для обработки отдельных или конкретных данных и повышения эффективности работы человека.
Менеджер по продукту другой компании, занимающейся маркировкой данных, считает, что автоматическая маркировка может фильтровать только простые базовые данные и не может точно идентифицировать объекты из сложных и противоречивых сцен, таких как люди. Это также является причиной того, что на рынке маркировки данных по-прежнему доминируют данные маркировки автономного вождения.
Однако все согласны с тем, что в будущем маркировка данных переместится от рабочей силы к технологии.
Короче говоря, либо быть «зажатым до смерти» коллегами, либо «зажатым до смерти» технологиями. Но сидеть на месте точно нельзя, и сторонние компании, размечающие данные, ищут выход в будущем.
План Даяна состоит в том, чтобы идти в ногу с рынком, сохранять бдительность, увольнять персонал в любое время и в то же время развиваться в направлении автоматизированного инструмента для маркировки. Основатель краудсорсинговой платформы в общении со своими коллегами сказал, что в будущем мы не должны накапливать рабочую силу, а должны иметь возможности для исследований и разработок.
Как насчет физических лиц? Карьерный путь, распространенный в отрасли, состоит в том, что начинающие этикетировщики - опытные этикетировщики - администраторы / менеджеры проектов по маркировке - аналитики данных компании A и, наконец, получают продвижение по службе с ежемесячной зарплатой в десятки тысяч.
Ни один из знакомых Дай Яну специалистов по маркировке данных не шел в этом направлении.Они либо оставались там, где были, либо уходили.В лучшем случае было создать собственную команду по маркировке данных, как это сделал Дай Ян, но ему от этого не стало легче.
С одной стороны, наблюдается рост спроса на проекты, вызванный тенденцией ИИ, а с другой стороны, более хаотичные торги, более низкая производительность на душу населения и быстрорастущий ИИ. Две эмоции переплетены, ИИ принесет безграничные возможности, а ИИ также уничтожит «нас».
(По просьбе интервьюируемых все имена в статье псевдонимы)