Складывание большой модели AI: данные показывают, что ежемесячный доход «рабочих-мигрантов» составляет не более 5000, а цена за единицу падает с 5 центов до 4 центов.
Чжэн Вэнь до сих пор помнит тот день несколько месяцев назад: в тот день она зарабатывала 20 центов в час. Она окончила младший колледж в провинции Хунань и является аннотатором крупных модельных данных.Ее повседневная работа не сложна — добавление меток к получаемым необработанным данным (например, изображениям, видео, текстам и т. д.).
Однако к большим моделям предъявляются очень высокие требования к качеству данных.В тот день картинку пересматривали восемь раз, прежде чем она была одобрена.Весь процесс доработки занял час. Другими словами, она зарабатывала всего 2 цента в час, тогда как при обычных обстоятельствах она могла бы заработать 12 юаней и перетащить 600 коробок. «Деньги зарабатывать нелегко», неоднократно подчеркивала она.
Это мнение почти всех специалистов по аннотированию данных. На одном конце аннотации к данным указана ежемесячная зарплата практикующих, которая составляет менее 5000 юаней.Они строят краеугольный камень большой модели, как армия муравьев. На другом конце находится мечта крупных интернет-компаний об искусственном интеллекте, который они надеются превзойти Chat GPT 4.
В аннотации данных используется самая примитивная сдельная система расчета заработной платы, и на рабочем месте нет интриг. Единственная беда в том, что на этой скучной работе большинству из них трудно выдержать три месяца. И почти все говорили Planet Tech, что вам лучше не ехать.
Но чего они не знают, так это того, что большинство из них могут вскоре потерять скучную работу. Потому что эти простые аннотации данных будут заменены ИИ.
С 5 центов до 4 центов цена резко упала
Линь Шуан заработал много «быстрых денег» в 2017 году: более 6000 юаней за 15 дней. Для Линь Шуана, окончившего колледж, этот доход действительно значителен. В то время ожидания людей в отношении ИИ стремительно росли.Почти никто не сомневался в его будущем.Все инвестиционные институты твердо верили, что здесь могут родиться компании масштабом в миллиарды, десятки миллиардов или даже сотни миллиардов.
Почти за всеми технологиями искусственного интеллекта стоит конкуренция между алгоритмами, вычислительными мощностями и вычислениями. Программисты с ярким опытом сидят в офисах в «Пекине, Шанхае и Гуанчжоу» и рисуют чертежи ИИ с помощью алгоритмов итерации кода, в то время как студенты, матери и т. д. обрабатывают изображения, текст и голоса в огромных пакетах данных в кабинках третьих и города четвертого уровня.подождите.
ChatGPT не является исключением. Сотрудник проектной группы Baidu Wenxinyyan сказал, что сама по себе большая модель не содержит каких-либо новых технологий и не имеет высоких технических барьеров. Ключевой проблемой является барьер параметров, образованный барьером вычислительной мощности.
Аннотаторы данных в эпоху больших моделей особо не отличаются от тех, что были в прошлом, разве что несколькими отличиями могут быть более комфортная офисная среда и более высокие требования к качеству аннотаций. Специалист по аннотированию данных рассказал Tech Planet, что когда они впервые приходят в отрасль, они обычно формируют команду из примерно 10 человек, один из которых отвечает за проверку качества. Если работа не соответствует стандартам, сотрудник будет отправлен обратно в переделай это. Качество данных определяет качество больших моделей.
Работников-мигрантов данных не волнуют никакие новые отрасли технологий искусственного интеллекта, их больше волнует цена за единицу продукции, потому что заработная плата здесь рассчитывается на сдельной основе.
«В то время, когда цена за единицу продукции была высокой, 2D-кадр стоил более 1 цента. На пике карьеры я работал более 10 часов и зарабатывал более 600 юаней в день», — вспоминает Линь Шуан. Однако это не самая высокая цена: один комментатор рассказал, что цена ранних 2D-чертежей рамок могла доходить до 50 центов.
Рисование кадра — обычная операция при аннотации данных.Аннотатор отмечает объекты на изображении, такие как транспортные средства, красные уличные фонари, препятствия и т. д., в соответствии с требованиями. Кадры делятся на 2D и 3D, последний будет дороже.
Но эта популярность длилась недолго.Поскольку приток все большего и большего количества людей и общее развитие индустрии искусственного интеллекта не идут гладко, цена за единицу аннотирования изображения становится все ниже и ниже.Линь Шуан сказал, что самая низкая цена сейчас стоит всего 4 цента.
«Если это тяговая рама, то средняя цена за единицу продукции в отрасли составляет около 0,15 юаней, но это все равно зависит от проекта. Если вы можете получать заказы, минимальное требование для получения заказа из первых рук должно составлять 100 сотрудников. Масштаб довольно большой, а 3D-кадр может стоить 30 центов за штуку, но редко можно получить цену выше 50 центов».
Конечно, если у вас есть профессиональные знания в медицинской и финансовой сферах, цена за единицу будет выше. Например, многие крупные медицинские модели требуют от аннотаторов наличия клинических знаний и соответствующего опыта.
Ежемесячный доход большинства практикующих составляет не более 5000 юаней, но есть среди них и несколько счастливчиков. Ян Шо изначально управлял магазином одежды в Сычуани, но эпидемия повлияла на его бизнес. В этом году он перешел на крупномасштабное аннотирование модельных данных. Теперь его доход составляет 8000 юаней в месяц. «Я подписал контракт с компанией и уплачено. Плата за франшизу составляет 9500 юаней, а в договоре указано, что минимальный ежемесячный доход составляет 7000 юаней».
Кто заработал деньги
Интернет-гиганты, такие как Alibaba, Tencent и Byte, а также автомобильные компании, такие как SAIC и Lynk & Co, являются источниками распространения аннотаций данных. Если вы хотите получать заказы непосредственно из источника по лучшей цене, аннотация данных компании должны иметь определенный масштаб.
Сотрудник компании, занимающейся аннотированием данных, рассказал Tech Planet, что они получают заказы напрямую от крупных производителей, но крупные производители требуют, чтобы у них было 500 человек, поэтому они предпочтут удовлетворить потребности в персонале через франчайзинг или дочерние компании.
Разница между ними заключается в том, что франчайзинг подходит новичкам в отрасли для создания студии.Если вы хотите создать дочернюю компанию, обычно в регионе есть только одна. Xiaobai Studio должна взимать плату за франшизу, которая составляет 25 000 или 30 000 долларов. Дочерняя компания является эксклюзивным агентом в регионе и должна заплатить комиссию в размере 50 000 долларов США. И они могут гарантировать достаточные заказы в течение трех лет и нести ответственность за техническое обучение в течение трех лет.Эти студии или дочерние компании образуют большой профсоюз, насчитывающий от нескольких сотен до нескольких тысяч.
Сотрудники вышеупомянутой компании по аннотированию данных рассказали, что популярность больших моделей в очередной раз довела индустрию аннотирования данных до повального увлечения, и теперь люди посещают их компанию практически каждый день.
Но на самом деле управлять компанией по маркировке данных непросто. Компания, занимающаяся аннотированием данных, говорит вам, что в этой отрасли сложно работать в первые 1-2 месяца, потому что сотрудникам нужен период наращивания мощности. На раннем этапе достаточно всего 5-8 человек, да еще в ней тетка. У 40-х проблем не будет.
Стабильность — наиболее важный фактор для компании или студии аннотаций данных. Однако большинство аннотаторов, с которыми контактирует Tech Planet, часто покидают свои рабочие места со скоростью света в течение 3 месяцев из-за скуки.Новые сотрудники не сразу доступны для практической работы.Результатом высокой текучести кадров является снижение качества и цикл аннотации данных недостаточно стабильны. Мамы, которым не хватает денег, — самые популярные люди для студий аннотаций данных.
«Определенно невозможно найти работу на неполный рабочий день. Будут пробелы. Если вы вкладываете средства в аренду и компьютеры, вы потеряете деньги. Лучший способ — заставить всех сотрудников работать», — Вэй Мин, проанализировавший данные студия аннотаций, рассказала Tech Planet.
Большинство данных указывает на то, что цикл погашения компании начинается с 3 месяцев и может составлять до полугода, но им необходимо платить своим сотрудникам ежемесячно, что требует определенной степени резервов капитала. «3500 на человека, 100 человек, 3 месяцев составляет 1,05 миллиона».
Чжан Цзянь однажды вступил в профсоюз, в котором работает более 200 человек. В первый год они догнали взрывной период отрасли, и цена за единицу чертежа 2D-рамы достигла 5 центов. В том году его профсоюз заработал более 4 миллионов.
Но в следующем году дела пошли еще хуже. Отмеченная цена за единицу стала ниже, сотрудники стали более мобильными, период перерыва увеличился.Кроме того, два крупных проекта не были реализованы.За целый год они потеряли более 3 миллионов юаней. «Руководители заявили, что не будут прикасаться к аннотациям данных в краткосрочной перспективе, — сказал Чжан Цзянь. — В настоящее время они находятся в судебном процессе с добывающей компанией».
Это низкорентабельный бизнес. Haitian Ruisheng — первая компания в отрасли аннотирования данных, акции которой котируются на основных форумах. В прошлом году выручка компании составила 263 миллиона юаней, прибыль — всего 29,45 миллиона юаней, а чистая прибыль — чуть более 10 %. Но в первой половине этого года компания понесла убытки из-за снижения количества клиентов.
"Винты", которые можно заменить в любое время
Опираясь на скопление муравьев, передвигающихся по Кении, OpenAI, наконец, выделился своими крупномасштабными возможностями модели языкового диалога. Эти обычные люди, называемые работниками данных, поддерживают мечту Сэма Альтмана (основателя OpenAI) об искусственном интеллекте, но если ничего не произойдет, большая часть работы в их руках вскоре будет заменена новыми продуктами, в создании которых они участвовали. заменены.
За рубежом Anthropic, созданная в 2021 году бывшими сотрудниками Open AI, в этом году привлекла 5,15 миллиарда долларов США, что более чем в семь раз превышает общий объем финансирования за последние два года. Компания предлагает новый способ обучения моделей с меньшим участием человека.
В этом году стартап Refuel, занимающийся искусственным интеллектом, запустил инструмент с открытым исходным кодом под названием Autolabel, который может использовать основные крупные модели на рынке для маркировки наборов данных. Результаты испытаний компании показали, что эффективность маркировки Autolabel в 100 раз выше, чем ручная маркировка, а ее стоимость составляет всего 1/7 стоимости рабочей силы.
В Китае компания Vision Future также создает крупномасштабные модели аннотаций. В интервью они рассказали, что некоторые проекты реализованы с использованием GPT, а точность достигла более 80%, что близко к ручной работе.
Однако Гаитян Жуйшэн считает, что ИИ не сможет полностью автоматизировать аннотации, потому что, если машина хочет продолжать развиваться и приближаться к человеческому суждению и пониманию, ей обязательно понадобится человеческое руководство.
Почти все, кто занимался аннотированием данных, поделились с Tech Planet одной и той же точкой зрения: аннотирование данных — это работа, не имеющая порога и требующая от вас только навыков использования компьютеров.
Но на самом деле, если простая аннотация может быть завершена с помощью ИИ, то ручное участие будет более сложным для проверки данных и стандартной работы, что также означает, что порог отрасли будет продолжать расти, особенно ChatGPT, Вэнь Синьиян. Большая языковая модель для занятия.
Для сравнения: задолго до того, как ChatGPT стал популярным, OpenAI организовала для «отметки» более дюжины докторантов. База аннотаций данных Baidu в Хайкоу насчитывает сотни штатных аннотаторов больших моделей данных, а количество аннотаторов на бакалавриате достигает 100%.
Характерной чертой этого типа большой языковой модели является то, что аннотатор должен обладать определенным запасом знаний и способностью к логическому анализу. Согласно отчету "Financial Eleven", аннотаторам необходимо определить тип вопроса, а затем оценить и ранжировать пять ответов соответственно. Диапазон оценок составляет 0-5 баллов. Если оценка ниже 3 баллов, необходимо указать конкретные причины. следует отметить, например, «Ответ не тот, на который был задан вопрос (0 баллов)», «серьезно не по теме (1 балл)», «имеются логические проблемы и фактические ошибки, доля невелика и 2 балла дано» и т.
Еще одна популярная область аннотирования данных — автономное вождение. Согласно отчету Deloitte, спрос на маркировку в области автономного вождения будет составлять 38% всех последующих приложений ИИ в 2022 году, и ожидается, что к 2027 году эта доля вырастет до 52%. По сравнению с большими языковыми моделями для моделей в области автономного вождения к этим простым операциям по вытягиванию ящиков все еще предъявляются относительно свободные академические требования.
Аннотаторы являются краеугольным камнем человечества от эпохи мобильного Интернета до эпохи искусственного интеллекта. Большинство практиков, с которыми контактировала Tech Planet, не знают ни об изменениях, которые принесет им ИИ, ни о вкладе, который они внесли в развитие AI.Они Это всего лишь винты нового поколения в эпоху Интернета, и их можно заменить в любой момент.
(Примечание: все персонажи статьи — псевдонимы.)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Складывание большой модели AI: данные показывают, что ежемесячный доход «рабочих-мигрантов» составляет не более 5000, а цена за единицу падает с 5 центов до 4 центов.
Первоисточник: Tech Planet
Чжэн Вэнь до сих пор помнит тот день несколько месяцев назад: в тот день она зарабатывала 20 центов в час. Она окончила младший колледж в провинции Хунань и является аннотатором крупных модельных данных.Ее повседневная работа не сложна — добавление меток к получаемым необработанным данным (например, изображениям, видео, текстам и т. д.).
Однако к большим моделям предъявляются очень высокие требования к качеству данных.В тот день картинку пересматривали восемь раз, прежде чем она была одобрена.Весь процесс доработки занял час. Другими словами, она зарабатывала всего 2 цента в час, тогда как при обычных обстоятельствах она могла бы заработать 12 юаней и перетащить 600 коробок. «Деньги зарабатывать нелегко», неоднократно подчеркивала она.
Это мнение почти всех специалистов по аннотированию данных. На одном конце аннотации к данным указана ежемесячная зарплата практикующих, которая составляет менее 5000 юаней.Они строят краеугольный камень большой модели, как армия муравьев. На другом конце находится мечта крупных интернет-компаний об искусственном интеллекте, который они надеются превзойти Chat GPT 4.
В аннотации данных используется самая примитивная сдельная система расчета заработной платы, и на рабочем месте нет интриг. Единственная беда в том, что на этой скучной работе большинству из них трудно выдержать три месяца. И почти все говорили Planet Tech, что вам лучше не ехать.
Но чего они не знают, так это того, что большинство из них могут вскоре потерять скучную работу. Потому что эти простые аннотации данных будут заменены ИИ.
С 5 центов до 4 центов цена резко упала
Линь Шуан заработал много «быстрых денег» в 2017 году: более 6000 юаней за 15 дней. Для Линь Шуана, окончившего колледж, этот доход действительно значителен. В то время ожидания людей в отношении ИИ стремительно росли.Почти никто не сомневался в его будущем.Все инвестиционные институты твердо верили, что здесь могут родиться компании масштабом в миллиарды, десятки миллиардов или даже сотни миллиардов.
Почти за всеми технологиями искусственного интеллекта стоит конкуренция между алгоритмами, вычислительными мощностями и вычислениями. Программисты с ярким опытом сидят в офисах в «Пекине, Шанхае и Гуанчжоу» и рисуют чертежи ИИ с помощью алгоритмов итерации кода, в то время как студенты, матери и т. д. обрабатывают изображения, текст и голоса в огромных пакетах данных в кабинках третьих и города четвертого уровня.подождите.
ChatGPT не является исключением. Сотрудник проектной группы Baidu Wenxinyyan сказал, что сама по себе большая модель не содержит каких-либо новых технологий и не имеет высоких технических барьеров. Ключевой проблемой является барьер параметров, образованный барьером вычислительной мощности.
Аннотаторы данных в эпоху больших моделей особо не отличаются от тех, что были в прошлом, разве что несколькими отличиями могут быть более комфортная офисная среда и более высокие требования к качеству аннотаций. Специалист по аннотированию данных рассказал Tech Planet, что когда они впервые приходят в отрасль, они обычно формируют команду из примерно 10 человек, один из которых отвечает за проверку качества. Если работа не соответствует стандартам, сотрудник будет отправлен обратно в переделай это. Качество данных определяет качество больших моделей.
Работников-мигрантов данных не волнуют никакие новые отрасли технологий искусственного интеллекта, их больше волнует цена за единицу продукции, потому что заработная плата здесь рассчитывается на сдельной основе.
«В то время, когда цена за единицу продукции была высокой, 2D-кадр стоил более 1 цента. На пике карьеры я работал более 10 часов и зарабатывал более 600 юаней в день», — вспоминает Линь Шуан. Однако это не самая высокая цена: один комментатор рассказал, что цена ранних 2D-чертежей рамок могла доходить до 50 центов.
Рисование кадра — обычная операция при аннотации данных.Аннотатор отмечает объекты на изображении, такие как транспортные средства, красные уличные фонари, препятствия и т. д., в соответствии с требованиями. Кадры делятся на 2D и 3D, последний будет дороже.
Но эта популярность длилась недолго.Поскольку приток все большего и большего количества людей и общее развитие индустрии искусственного интеллекта не идут гладко, цена за единицу аннотирования изображения становится все ниже и ниже.Линь Шуан сказал, что самая низкая цена сейчас стоит всего 4 цента.
«Если это тяговая рама, то средняя цена за единицу продукции в отрасли составляет около 0,15 юаней, но это все равно зависит от проекта. Если вы можете получать заказы, минимальное требование для получения заказа из первых рук должно составлять 100 сотрудников. Масштаб довольно большой, а 3D-кадр может стоить 30 центов за штуку, но редко можно получить цену выше 50 центов».
Конечно, если у вас есть профессиональные знания в медицинской и финансовой сферах, цена за единицу будет выше. Например, многие крупные медицинские модели требуют от аннотаторов наличия клинических знаний и соответствующего опыта.
Ежемесячный доход большинства практикующих составляет не более 5000 юаней, но есть среди них и несколько счастливчиков. Ян Шо изначально управлял магазином одежды в Сычуани, но эпидемия повлияла на его бизнес. В этом году он перешел на крупномасштабное аннотирование модельных данных. Теперь его доход составляет 8000 юаней в месяц. «Я подписал контракт с компанией и уплачено. Плата за франшизу составляет 9500 юаней, а в договоре указано, что минимальный ежемесячный доход составляет 7000 юаней».
Кто заработал деньги
Интернет-гиганты, такие как Alibaba, Tencent и Byte, а также автомобильные компании, такие как SAIC и Lynk & Co, являются источниками распространения аннотаций данных. Если вы хотите получать заказы непосредственно из источника по лучшей цене, аннотация данных компании должны иметь определенный масштаб.
Сотрудник компании, занимающейся аннотированием данных, рассказал Tech Planet, что они получают заказы напрямую от крупных производителей, но крупные производители требуют, чтобы у них было 500 человек, поэтому они предпочтут удовлетворить потребности в персонале через франчайзинг или дочерние компании.
Разница между ними заключается в том, что франчайзинг подходит новичкам в отрасли для создания студии.Если вы хотите создать дочернюю компанию, обычно в регионе есть только одна. Xiaobai Studio должна взимать плату за франшизу, которая составляет 25 000 или 30 000 долларов. Дочерняя компания является эксклюзивным агентом в регионе и должна заплатить комиссию в размере 50 000 долларов США. И они могут гарантировать достаточные заказы в течение трех лет и нести ответственность за техническое обучение в течение трех лет.Эти студии или дочерние компании образуют большой профсоюз, насчитывающий от нескольких сотен до нескольких тысяч.
Сотрудники вышеупомянутой компании по аннотированию данных рассказали, что популярность больших моделей в очередной раз довела индустрию аннотирования данных до повального увлечения, и теперь люди посещают их компанию практически каждый день.
Но на самом деле управлять компанией по маркировке данных непросто. Компания, занимающаяся аннотированием данных, говорит вам, что в этой отрасли сложно работать в первые 1-2 месяца, потому что сотрудникам нужен период наращивания мощности. На раннем этапе достаточно всего 5-8 человек, да еще в ней тетка. У 40-х проблем не будет.
Стабильность — наиболее важный фактор для компании или студии аннотаций данных. Однако большинство аннотаторов, с которыми контактирует Tech Planet, часто покидают свои рабочие места со скоростью света в течение 3 месяцев из-за скуки.Новые сотрудники не сразу доступны для практической работы.Результатом высокой текучести кадров является снижение качества и цикл аннотации данных недостаточно стабильны. Мамы, которым не хватает денег, — самые популярные люди для студий аннотаций данных.
«Определенно невозможно найти работу на неполный рабочий день. Будут пробелы. Если вы вкладываете средства в аренду и компьютеры, вы потеряете деньги. Лучший способ — заставить всех сотрудников работать», — Вэй Мин, проанализировавший данные студия аннотаций, рассказала Tech Planet.
Большинство данных указывает на то, что цикл погашения компании начинается с 3 месяцев и может составлять до полугода, но им необходимо платить своим сотрудникам ежемесячно, что требует определенной степени резервов капитала. «3500 на человека, 100 человек, 3 месяцев составляет 1,05 миллиона».
Чжан Цзянь однажды вступил в профсоюз, в котором работает более 200 человек. В первый год они догнали взрывной период отрасли, и цена за единицу чертежа 2D-рамы достигла 5 центов. В том году его профсоюз заработал более 4 миллионов.
Но в следующем году дела пошли еще хуже. Отмеченная цена за единицу стала ниже, сотрудники стали более мобильными, период перерыва увеличился.Кроме того, два крупных проекта не были реализованы.За целый год они потеряли более 3 миллионов юаней. «Руководители заявили, что не будут прикасаться к аннотациям данных в краткосрочной перспективе, — сказал Чжан Цзянь. — В настоящее время они находятся в судебном процессе с добывающей компанией».
Это низкорентабельный бизнес. Haitian Ruisheng — первая компания в отрасли аннотирования данных, акции которой котируются на основных форумах. В прошлом году выручка компании составила 263 миллиона юаней, прибыль — всего 29,45 миллиона юаней, а чистая прибыль — чуть более 10 %. Но в первой половине этого года компания понесла убытки из-за снижения количества клиентов.
"Винты", которые можно заменить в любое время
Опираясь на скопление муравьев, передвигающихся по Кении, OpenAI, наконец, выделился своими крупномасштабными возможностями модели языкового диалога. Эти обычные люди, называемые работниками данных, поддерживают мечту Сэма Альтмана (основателя OpenAI) об искусственном интеллекте, но если ничего не произойдет, большая часть работы в их руках вскоре будет заменена новыми продуктами, в создании которых они участвовали. заменены.
За рубежом Anthropic, созданная в 2021 году бывшими сотрудниками Open AI, в этом году привлекла 5,15 миллиарда долларов США, что более чем в семь раз превышает общий объем финансирования за последние два года. Компания предлагает новый способ обучения моделей с меньшим участием человека.
В этом году стартап Refuel, занимающийся искусственным интеллектом, запустил инструмент с открытым исходным кодом под названием Autolabel, который может использовать основные крупные модели на рынке для маркировки наборов данных. Результаты испытаний компании показали, что эффективность маркировки Autolabel в 100 раз выше, чем ручная маркировка, а ее стоимость составляет всего 1/7 стоимости рабочей силы.
В Китае компания Vision Future также создает крупномасштабные модели аннотаций. В интервью они рассказали, что некоторые проекты реализованы с использованием GPT, а точность достигла более 80%, что близко к ручной работе.
Однако Гаитян Жуйшэн считает, что ИИ не сможет полностью автоматизировать аннотации, потому что, если машина хочет продолжать развиваться и приближаться к человеческому суждению и пониманию, ей обязательно понадобится человеческое руководство.
Почти все, кто занимался аннотированием данных, поделились с Tech Planet одной и той же точкой зрения: аннотирование данных — это работа, не имеющая порога и требующая от вас только навыков использования компьютеров.
Но на самом деле, если простая аннотация может быть завершена с помощью ИИ, то ручное участие будет более сложным для проверки данных и стандартной работы, что также означает, что порог отрасли будет продолжать расти, особенно ChatGPT, Вэнь Синьиян. Большая языковая модель для занятия.
Для сравнения: задолго до того, как ChatGPT стал популярным, OpenAI организовала для «отметки» более дюжины докторантов. База аннотаций данных Baidu в Хайкоу насчитывает сотни штатных аннотаторов больших моделей данных, а количество аннотаторов на бакалавриате достигает 100%.
Характерной чертой этого типа большой языковой модели является то, что аннотатор должен обладать определенным запасом знаний и способностью к логическому анализу. Согласно отчету "Financial Eleven", аннотаторам необходимо определить тип вопроса, а затем оценить и ранжировать пять ответов соответственно. Диапазон оценок составляет 0-5 баллов. Если оценка ниже 3 баллов, необходимо указать конкретные причины. следует отметить, например, «Ответ не тот, на который был задан вопрос (0 баллов)», «серьезно не по теме (1 балл)», «имеются логические проблемы и фактические ошибки, доля невелика и 2 балла дано» и т.
Еще одна популярная область аннотирования данных — автономное вождение. Согласно отчету Deloitte, спрос на маркировку в области автономного вождения будет составлять 38% всех последующих приложений ИИ в 2022 году, и ожидается, что к 2027 году эта доля вырастет до 52%. По сравнению с большими языковыми моделями для моделей в области автономного вождения к этим простым операциям по вытягиванию ящиков все еще предъявляются относительно свободные академические требования.
Аннотаторы являются краеугольным камнем человечества от эпохи мобильного Интернета до эпохи искусственного интеллекта. Большинство практиков, с которыми контактировала Tech Planet, не знают ни об изменениях, которые принесет им ИИ, ни о вкладе, который они внесли в развитие AI.Они Это всего лишь винты нового поколения в эпоху Интернета, и их можно заменить в любой момент.
(Примечание: все персонажи статьи — псевдонимы.)