Слова Марка Вэнь Синя: 4000 юаней в месяц

Источник: Пинван

Автор: Уксус

«Столько интеллекта, сколько есть искусственного интеллекта».

Шутки спрятаны за искусственным интеллектом и до сих пор остаются верными. Дин Ян, только что окончивший университет, временно откладывает свое будущее на вторую половину срока.

Когда Дин Ян учился в университете, он изучал лёгкую химическую инженерию. После окончания университета большинство студентов факультета пошли на бумажную фабрику в три смены. Он не хотел идти на фабрику. После окончания учебы в июне этого года Дин Ян вернулся в Хайкоу. В начале августа он прошел электронную версию банка обучающих вопросов. Два дня спустя он стал «новичком» в разметке данных в Вэньсинь Иян.

Здание китайских торговцев в районе Сюин города Хайкоу раньше называлось «базой» маркировщиками данных Вэнь Синьи. Более двухсот человек входили и выходили из этой базы, распределенной по трем этажам этого офисного здания.Перед входом на работу они должны были подписать соглашение о неразглашении, а также должны были сканировать свои лица при входе в дверь. У каждого человека был компьютер, и многие компьютеры были арендованы и отправлены начальником из Шаньси, и не так уж много знакомых арендуют это оборудование на месте.

«Купить этот компьютер не стоит 500 юаней. Однажды я взял хост для поиска на Сяньюе — он стоил 60 юаней. Я могу установить гораздо лучший компьютер за 500 юаней».

Дин Ян подал заявку на информатику во время вступительных экзаменов в колледж, а позже его перевели на лёгкую химическую инженерию, но это его не интересовало. Вместо этого он много читал в колледже по компьютерной и программной инженерии, что заставило его быстро узнать об этом. в конце прошлого года Появление ChatGPT.

В декабре он зарегистрировал учетную запись ChatGPT, а затем, по его словам, «возможности превзошли все мои прогнозы».

Источник: Пинван

Когда я встретил Дин Яна на рабочем месте базы, на экране компьютера перед ним был вопрос: «Каков стандарт успешного человека?»

Это может быть реальный вопрос от пользователя Wenxin Yiyan, или это может быть тестовый вопрос, созданный из воздуха, но он размещается перед экраном и его необходимо отметить.

Маркировка – дело непростое.

На один такой вопрос Вэнь Синь Иян даст пять разных ответов. Разметчик данных должен прочитать его, а затем обнаружить все недостатки в каждом ответе.

Например, есть опечатки в ответах или неправильное использование логических слов типа «потому что» и «так», но большая часть ответов не имеет отношения к вопросу, или существуют так называемые «иллюзии», не имеющие фактического значения. основание в определенном абзаце.

Он присвоит этим пяти ответам балл в зависимости от качества ответа: полная оценка 5 баллов, всего пять уровней и минимум 1 балл. Для ответов на 3 балла и ниже Дин Ян должен разделить каждую ошибку на разные типы ошибок, заданные системой маркировки.

Этот сложный процесс исправления ошибок предназначен для обучения и создания подходящей модели вознаграждения RM (модель вознаграждения, также называемая моделью предпочтений), а действия по подсчету очков и сортировке будут дополнительно согласовывать модель с предпочтениями человека.

Это также является ключом к успеху ChatGPT.В документе OpenAI описан процесс согласования искусственного интеллекта с человеческими идеями в процессе настройки инструкций.

Прежде чем приступить к работе с маркировщиками данных, необходимо еще несколько профессиональных сотрудников, чтобы превратить расходящийся корпус в конкретные пары вопросов-ответов, а затем передать их в большую модель, например примеры вопросов.После того, как последняя будет оптимизирована после большого количества вопросов-ответов. Обучение данным, оно начинается. Отвечайте на вопросы.

На этом этапе разметчик данных оценивает качество ответов, генерируемых большой моделью, с точки зрения безопасности, точности и актуальности.Эти оценочные данные дополнительно обучают модель вознаграждения. В конце концов, эта модель вознаграждения заменит работу по маркировке вручную.

За оценкой OpenAI, составляющей более 30 миллиардов долларов США, стоит большое количество кенийских работников, занимающихся маркировкой данных, чья почасовая заработная плата составляет менее 2 долларов США, иначе она не оказалась бы перед Дин Яном в декабре прошлого года.

Но Дин Ян не знал определения RM или SFT и сказал, что до начала обучения не было такого теоретического содержания, и некоторые люди здесь даже не знали, над кем Вэнь Синьиян он работал. Но это не имеет значения, главное – добиться цели.

Базовая зарплата на этой работе (с девяти до шести утра и шесть выходных) составляет 1800 юаней. Через месяц, если вы сможете отмечать в среднем 40 вопросов в день, вы получите базовую зарплату. Базовая зарплата рассчитывается в соответствии с показателем завершения, и комиссия также должна учитывать правильную ставку. У «ветерана», побывавшего здесь какое-то время, стабильная нагрузка 7 или 80 в день, а возникающие проблемы сложнее. В среднем вы можете получать 4000 юаней в месяц. Если вы будете работать усерднее, например, если вы будете отмечать около 100 вопросов каждый день, вы можете получать 7000 юаней в месяц.

Для такого выпускника, как Дин Ян, 4000 юаней считаются работой с достойным стартом. Среднемесячная зарплата жителей Хайкоу составляет лишь немногим более 3000 юаней, и даже 6 из 10 человек не могут получать 3000 юаней в месяц. Знаменитый местный порошок Хоуань стоит 11 юаней, а тегеры ChatGPT могут купить миску на час. Для сравнения, порошок стоит дорого. По его словам, люди в Хайкоу зарабатывают немного, но готовы тратить их на еду.

Источник: Пинван

«Акции — это самое сложное, как и автомобили», — сказал Дин Ян. Чтобы обнаружить проблему в этой области, может потребоваться 20 минут.

«Например, кто-то спросит, стоит ли покупать BMW 3-й серии или Mercedes-Benz C-серии.» В это время большая модель будет перечислять более 80 параметров двух автомобилей, чтобы пользователь мог их сравнить, и ему придется следуйте за ним по одному, проверяя подлинность каждого параметра.

За полмесяца работы были отмечены сотни вопросов, но он сказал, что по его впечатлению получить 3 балла – это уже хорошо, а 4 балла получается редко.

Он вспомнил вопрос, получивший 4 балла, под названием «Почему Линь Дайюй сражался с Костяным Демоном?»

Вэнь Синь не проронил ни слова за столбом и понял, что Линь Дайюй не был тем, кто победил Костяного Демона, а затем представил историю Линь Дайюя и Костяного Демона. По всем параметрам качество ответов практически безупречно.

Я задал этот вопрос Клоду 2, и он сказал: «Костяной демон превратился в Ван Сифэна и много раз унижал Линь Дайю, а Линь Дайю был зол на убийство Костяного демона». —— Галлюцинация действительно достаточно неприятна.

Источник: Пинван

В начале 2020 года «тренер по искусственному интеллекту» официально стал профессией и был включен в национальный каталог профессий, а два года спустя волна крупных моделей внезапно открыла еще большую дыру в этом каталоге.

Наблюдать, как искусственный интеллект отбирает у людей старые рабочие места, а затем надеяться, что он создаст новые. Подобно тому, как карета заменяется автомобилем, новая индустрия даст водителю кареты общую метафору нового мира труда, призванного разбогатеть. "Я не верю. Например, они заложили основу для глубокого обучения. Теперь англичанин Джеффри Хинтон обеспокоен.

Но самое непосредственное творение на данный момент — это крупный разработчик моделей данных, такой как Дин Ян.

До 2022 года граница искусственного интеллекта по-прежнему будет определяться беспилотными автомобилями, которые не могут контролировать себя.

«Если вы думаете об ИИ как о животном, работа маркировщика данных примерно эквивалентна приготовлению корма».

Работа дешевая, повторяющаяся, даже не настолько, чтобы ее можно было назвать кормильцем.

Традиционный разметчик данных, ежедневная работа заключается только в том, чтобы внимательно наблюдать за каждым полученным изображением, обводить контур автомобиля или собаки, маркировать его, перетаскивать в разные папки или использовать точечную матрицу. Инструмент отмечает препятствия в каждом кадре. видео вождения, оставляя полную «проходимую зону».

Такое действие может совершать 2000 раз в день разметчик данных.

Только помеченные данные могут быть изучены искусственным интеллектом. Поставщик данных для автономного вождения однажды заявил, что степень автоматизации маркировки данных по-прежнему составляет всего 5% с момента разработки маркировки данных, а остальные 95% работы по маркировке по-прежнему выполняются вручную.

После появления большой модели сам тип разметки данных стал меняться. Основной работой маркировщика данных большой модели является не просто рисование прямоугольников, точек или линий на экране, а оценка, сортировка и оценка сгенерированного контента. Если это включает в себя несколько раундов диалога или генерацию мультимодального контента, сложность Еще один резкий рост.

Если говорят, что аннотирование моделей в эпоху традиционного CV и НЛП имеет тенденцию действовать в соответствии с объективными правилами, то правила аннотирования больших моделей более субъективны и также проверяют качество персонала, занимающегося аннотированием. По этой причине все крупные команды Baidu по маркировке моделей в Хайкоу и Шаньси имеют степень бакалавра или выше.

Обычные этикетировщики на базе в Хайкоу имеют возможность получить повышение до инспекторов качества, а затем стать тренерами, затем супервайзерами и, наконец, менеджерами проектов. Это канал, который был создан в течение нескольких месяцев. Агент в Хайкоу, который делал аннотации к данным для Вэньсиня Ияна, рассказал, что после испытательного срока можно получить повышение, если есть внутренняя позиция, и нет сроков.

Это новая отрасль, которая стремительно формируется. «Каждая ссылка — новичок», — сказал Дин Ян.

После того как инспектор по качеству завершит первую проверку, он передаст банк вопросов на вторую проверку. Второй обзор проводился внутри компании Baidu, и данные обучения не попали в руки команды маркировщиков Дин Янга.

Дин Ян, который работает на Вэнь Синьияна, и более 200 человек на всей базе не являются сотрудниками Baidu.

Этикетировщики на базе в Хайкоу принадлежат четырем различным агентствам. Их трудовые договоры подписаны со сторонними компаниями по маркировке данных. Такова практика этой позиции.Большая история Baidu в области искусственного интеллекта, от поиска до автономного вождения и крупномасштабных моделей, стоит за более чем 600 агентами по всей стране и 200 000 маркировщиками данных в более чем 300 городах.

Baidu предполагает, что численность ее постоянной крупномасштабной модельной команды приблизится к 10 000 человек. Этот план в будущем будет реализован в качестве новой «базы» в более чем десяти городах по всей стране.

Ху Чи, менеджер по продукту базы аннотаций данных Baidu Intelligent Cloud, считает, что аннотаторы данных крупных моделей станут долгосрочной карьерой. С углублением возможностей больших моделей в различных сценариях появятся новые проблемы, а это также означает, что появятся новые требования к маркировке.

Дин Ян сказал, что уйдет отсюда.

Одновременно с ним пришло более 20 новичков в разметке данных, и большинство из них вскоре ушли — большинство из них ушли добровольно. Скучное содержание работы, способ зарабатывания денег сдельной заработной платой и потребление людей, нетрудно представить, что это будет высоколиквидная позиция. И сколько бы люди ни аплодировали, существует неуверенность в том, что их заменят машины, и всем нравится это видеть.

Дин Ян видит в этом возможность расти вместе с отраслью. «Попробуйте и посмотрите, сможете ли вы стать руководителем», — сказал он, прежде чем найти должность, более близкую к волне ИИ.

(Дин Ян — это псевдоним в тексте)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить