Сколько компаний, занимающихся маркировкой ИИ, убьет «большой шаг» Google?

Question

Первоисточник: AI New Intelligence![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4ddb3768ca-dd1a6f-6d2ef1) Источник изображения: Создано Unbounded AI‌Если нынешний генеративный ИИ подобен быстро растущему ребенку, то непрерывные данные — это пища, которая питает его для роста.Аннотация данных — это процесс приготовления этой «еды».Однако этот процесс действительно объемный и утомительный.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-be656aad76-dd1a6f-6d2ef1) «Аннотатору», выполняющему аннотацию, не только необходимо неоднократно идентифицировать на изображении различные объекты, цвета, формы и т. д., но иногда даже требуется очистить и предварительно обработать данные.С постоянным развитием технологий искусственного интеллекта ограничения ручного аннотирования данных становятся все более очевидными. Ручное аннотирование данных не только требует много времени и труда, но иногда трудно гарантировать качество.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0bce865bf3-dd1a6f-6d2ef1) Чтобы решить эти проблемы, Google недавно предложила метод, который использует большие модели для замены людей для аннотаций предпочтений, под названием AI Feedback Reinforcement Learning (RLAIF).![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6f2f6e5f6-dd1a6f-6d2ef1) Результаты исследований показывают, что RLAIF может добиться улучшений, сравнимых с обучением с подкреплением с обратной связью от человека (RLHF), не полагаясь на человеческие аннотации, при этом оба показателя успеха составляют 50%. Между тем, как RLAIF, так и RLHF превосходят базовую стратегию контролируемой точной настройки (SFT).Эти результаты показывают, что RLAIF не нужно полагаться на ручное аннотирование и является реальной альтернативой RLHF. **Итак, если эта технология действительно будет продвигаться и популяризироваться в будущем, действительно ли многие компании, которые все еще полагаются на ручные «вытаскивания ящиков» для аннотирования данных, отныне зайдут в тупик?## **1 Текущий статус аннотации данных**Если мы хотим просто резюмировать текущее состояние отечественной аннотационной отрасли, то это так: **Объем работы большой, но эффективность не очень высокая, и это неблагодарное состояние. **Маркировочные компании известны как фабрики данных в области искусственного интеллекта и обычно концентрируются в регионах с богатыми человеческими ресурсами, таких как Юго-Восточная Азия, Африка или Хэнань, Шаньси и Шаньдун в Китае.Чтобы контролировать расходы, начальство этикеточной компании снимет помещение в округе, настроит компьютеры, а при наличии заказов наберет людей поблизости на подработку, если заказов не будет, расформирует и отдохни.Проще говоря, этот вид работ немного похож на временных декораторов на обочине дороги.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b55ae865b4-dd1a6f-6d2ef1) На рабочей станции система случайным образом выдает «аннотатору» набор данных, который обычно включает в себя несколько вопросов и несколько ответов.После этого «аннотатору» необходимо сначала отметить, к какому типу относится вопрос, а затем оценить и ранжировать ответы.Раньше, когда люди говорили о разрыве между отечественными большими моделями и продвинутыми большими моделями, такими как GPT-4, они резюмировали причины низкого качества отечественных данных.Но почему качество данных невысокое? Частично причина кроется в «конвейере» аннотаций данных.В настоящее время существует два типа источников данных для китайских больших моделей: один — наборы данных с открытым исходным кодом; другой — данные китайского Интернета, просканированные сканерами.**Одной из основных причин недостаточной производительности китайских крупных моделей является качество интернет-данных.**Например, профессионалы обычно не используют Baidu при поиске информации.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1a39c5eeb5-dd1a6f-6d2ef1) Поэтому, когда вы сталкиваетесь с более профессиональными и вертикальными проблемами данных, такими как медицинское обслуживание, финансы и т. д., необходимо сотрудничать с профессиональной командой.Но сейчас проблема возникает снова: для профессиональных команд не только длительный период возврата данных, но и первопроходцы, скорее всего, понесут убытки.Например, если определенная группа аннотаторов потратила много денег и времени на создание большого количества данных, другие могут просто упаковать и купить их за небольшую сумму денег.Столкнувшись с такой «дилеммой безбилетника», крупные отечественные модели попали в странное затруднительное положение: у них много данных, но низкого качества.В таком случае, как решают эту проблему некоторые ведущие зарубежные ИИ-компании, такие как OpenAI?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-39ed966e98-dd1a6f-6d2ef1) Фактически, что касается аннотирования данных, OpenAI не отказалась от использования дешевой и интенсивной рабочей силы для снижения затрат.Например, ранее выяснилось, что компания наняла большое количество кенийских рабочих для маркировки токсичной информации по цене 2 доллара США в час.**Но ключевое отличие заключается в том, как решать проблемы качества данных и эффективности аннотаций. **В частности, самая большая разница между OpenAI и отечественными компаниями в этом отношении заключается в том, как уменьшить влияние «субъективности» и «нестабильности» ручных аннотаций.## **2 Подход OpenAI**Чтобы уменьшить «субъективность» и «нестабильность» таких людей-аннотаторов, OpenAI примерно использует две основные стратегии:**1. Сочетание искусственной обратной связи и обучения с подкреплением;**Давайте сначала поговорим о первом пункте.С точки зрения метода маркировки, самая большая разница между ручной обратной связью OpenAI и внутренней обратной связью заключается в том, что она в основном сортирует или оценивает поведение интеллектуальной системы, а не модифицирует или маркирует ее выходные данные.Поведение интеллектуальной системы означает, что интеллектуальная система совершает серию действий или решений на основе своих собственных целей и стратегий в сложной среде.Например, поиграть в игру, управлять роботом, поговорить с человеком и т. д.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0c4753d38e-dd1a6f-6d2ef1) Выход интеллектуальной системы означает генерацию результата или ответа на основе входных данных в простой задаче, такой как написание статьи или рисование картины.Вообще говоря, о поведении интеллектуальных систем труднее судить с точки зрения «правильного» или «неправильного», чем о результатах, и его необходимо оценивать с точки зрения предпочтений или удовлетворенности.Такая система оценки, основанная на «предпочтениях» или «удовлетворенности», не требует модификации или аннотирования конкретного контента, тем самым уменьшая влияние человеческой субъективности, уровня знаний и других факторов на качество и точность аннотации данных.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fa089beac5-dd1a6f-6d2ef1) Это правда, что отечественные предприятия также будут использовать системы, подобные «сортировке» и «подсчету очков» при маркировке, но из-за отсутствия «модели вознаграждения», такой как OpenAI, в качестве функции вознаграждения для оптимизации стратегии интеллектуальной системы, такой как « сортировка» и «оценка» «Оценка» по-прежнему остается методом изменения или аннотирования вывода.**2. Диверсифицированные и крупномасштабные каналы источников данных;**Основными источниками аннотирования данных в Китае являются сторонние аннотирующие компании или самостоятельно созданные команды технологических компаний. Эти команды в основном состоят из студентов, которым не хватает профессионализма и опыта для обеспечения качественной и эффективной обратной связи.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-25430fe51a-dd1a6f-6d2ef1) Напротив, ручная обратная связь OpenAI поступает из нескольких каналов и команд.OpenAI не только использует наборы данных с открытым исходным кодом и интернет-сканеры для получения данных, но также сотрудничает с множеством компаний и учреждений, занимающихся данными, таких как Scale AI, Appen, Lionbridge AI и т. д., для получения более разнообразных и высококачественных данных.По сравнению с их отечественными аналогами, методы маркировки этих информационных компаний и учреждений гораздо более «автоматичны» и «интеллектуальны».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-31b54c359b-dd1a6f-6d2ef1) Например, Scale AI использует технику под названием Snorkel — метод маркировки данных, основанный на слабо контролируемом обучении, который может генерировать высококачественные метки из нескольких неточных источников данных.В то же время Snorkel также может использовать различные сигналы, такие как правила, модели и базы знаний, для добавления меток к данным без непосредственной маркировки каждой точки данных вручную. Это может значительно сократить стоимость и время ручного аннотирования.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ff9b4ab4eb-dd1a6f-6d2ef1) Поскольку стоимость и цикл аннотирования данных сокращаются, эти компании, работающие с данными, обладающие конкурентными преимуществами, могут выбирать подразделения с высокой ценностью, высокой сложностью и высокими пороговыми значениями, такие как автономное вождение, большие языковые модели, синтетические данные и т. д. Могут постоянно совершенствоваться. ее основная конкурентоспособность и дифференцированные преимущества.Таким образом, дилемма безбилетника «пострадают первопроходцы» также была устранена сильными технологическими и отраслевыми барьерами.## **3 Стандартизация против небольшой мастерской**Видно, что **технология автоматической маркировки AI действительно устранит только те этикетировочные компании, которые все еще используют чисто ручную маркировку. **Хотя аннотирование данных звучит как «трудоемкая» отрасль, углубившись в детали, вы обнаружите, что получение высококачественных данных — непростая задача.Компания Scale AI, представленная Scale AI, зарубежным единорогом аннотаций данных, не только использует дешевые человеческие ресурсы из Африки и других мест, но также нанимает десятки докторов наук для работы с профессиональными данными в различных отраслях.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1a33c517f5-dd1a6f-6d2ef1) Качество аннотаций данных — это величайшая ценность, которую Scale AI предоставляет крупным модельным компаниям, таким как OpenAI.Чтобы обеспечить максимальное качество данных, помимо упомянутого выше использования аннотаций с помощью искусственного интеллекта, еще одним важным нововведением **Scale AI является унифицированная платформа данных. **Эти платформы включают Scale Audit, Scale Analytics, ScaleData Quality и т. д. С помощью этих платформ клиенты могут отслеживать и анализировать различные показатели процесса аннотирования, проверять и оптимизировать данные аннотаций, а также оценивать точность, последовательность и полноту аннотаций.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6d639f5fd0-dd1a6f-6d2ef1) Можно сказать, что такие стандартизированные и унифицированные инструменты и процессы стали ключевыми факторами, которые отличают **"фабрики сборочной линии"** и **"мастерские ручной работы"** в компаниях по маркировке.В связи с этим большинство отечественных компаний, занимающихся аннотациями, по-прежнему используют «ручную проверку» для проверки качества аннотаций данных.Если не будет специализированных инструментов для мониторинга и анализа результатов и показателей аннотирования в аспекте обзора ключевых данных, то контроль качества данных все равно будет сведен к уровню мастер-класса, опирающемуся на видение «мастера».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f461c4ee34-dd1a6f-6d2ef1) Поэтому все больше отечественных компаний, таких как Baidu и My Neighbor Totoro Data, начинают использовать технологии машинного обучения и искусственного интеллекта для повышения эффективности и качества аннотирования данных и реализации моделей взаимодействия человека и машины.Видно, что появление ИИ-маркировки — это не конец отечественных компаний по маркировке, а конец неэффективного, дешевого и трудоемкого метода маркировки, лишенного технического содержания.