Якщо поточний генеративний ШІ схожий на дитину, яка активно росте, то безперервні дані є їжею, яка годує її для зростання.
Анотація даних — це процес приготування цієї «їжі».
Однак цей процес дійсно об'ємний і виснажливий.
«Анотатор», який виконує анотацію, повинен не тільки неодноразово ідентифікувати різні об’єкти, кольори, форми тощо на зображенні, але іноді навіть потребує очищення та попередньої обробки даних.
З безперервним удосконаленням технології штучного інтелекту обмеження ручного анотування даних стають дедалі очевиднішими. Анотація даних вручну займає не тільки багато часу та праці, але іноді важко гарантувати якість.
Щоб вирішити ці проблеми, Google нещодавно запропонував метод, який використовує великі моделі для заміни людей для анотації переваг, під назвою AI Feedback Reinforcement Learning (RLAIF).
Результати дослідження показують, що RLAIF може забезпечити покращення, порівняні з навчанням із підкріпленням із зворотним зв’язком людини (RLHF), не покладаючись на анотації людини, причому обидва показники виграшу становлять 50%. Тим часом і RLAIF, і RLHF перевершують базову стратегію контрольованого тонкого налаштування (SFT).
Ці результати показують, що RLAIF не потрібно покладатися на анотацію вручну і є можливою альтернативою RLHF. **
Отже, якщо цю технологію справді просуватимуть і популяризуватимуть у майбутньому, чи справді багато компаній, які все ще покладаються на ручне «витягування ящиків» для анотації даних, справді будуть змушені відтепер зайти в глухий кут?
1 Поточний статус анотації даних
Якщо ми хочемо просто підсумувати поточний стан вітчизняної індустрії анотування, то він такий: **Навантаження велике, але ефективність не дуже висока, і це невдячний стан. **
Компанії з виробництва етикеток відомі як фабрики даних у сфері штучного інтелекту і зазвичай зосереджені в регіонах із багатими людськими ресурсами, таких як Південно-Східна Азія, Африка або Хенань, Шаньсі та Шаньдун у Китаї.
Для того, щоб контролювати витрати, начальники фірми по етикетці візьмуть в окрузі приміщення, налаштують комп'ютери, а коли будуть замовлення, наберуть поруч людей на неповний робочий день, якщо не буде - розформовуються. і відпочити.
Простіше кажучи, така робота трохи схожа на тимчасових оздоблювальників на узбіччі.
На робочій станції система випадковим чином видасть «анотатору» набір даних, який зазвичай включає кілька питань і кілька відповідей.
Після цього «анотатору» потрібно спочатку відзначити, до якого типу відноситься питання, а потім оцінити і проранжувати відповіді.
Раніше, коли люди говорили про розрив між вітчизняними великими моделями та передовими великими моделями, такими як GPT-4, вони підсумовували причини низької якості вітчизняних даних.
Але чому якість даних не висока? Частково причина криється в «конвеєрі» анотації даних.
Наразі існує два типи джерел даних для китайських великих моделей: одне – це набори даних з відкритим кодом; інше – китайські Інтернет-дані, скановані сканерами.
**Однією з основних причин недостатньої продуктивності великих китайських моделей є якість Інтернет-даних.**Наприклад, професіонали зазвичай не використовують Baidu для пошуку інформації.
Тому, стикаючись з деякими більш професійними та вертикальними проблемами даних, такими як медичне обслуговування, фінанси тощо, необхідно співпрацювати з професійною командою.
Але в цей час знову виникає проблема: для професійних команд період повернення не тільки довгий, коли справа доходить до даних, але й ті, хто першими рухаються, ймовірно, зазнають збитків.
Наприклад, якщо певна команда анотаторів витратила багато грошей і часу на створення великої кількості даних, інші можуть просто упакувати та купити їх за невелику суму грошей.
Зіткнувшись із такою «дилемою вільного їздця», великі вітчизняні моделі потрапили в дивну скруту, оскільки мають багато даних, але низької якості.
Зважаючи на це, як деякі провідні іноземні компанії ШІ, такі як OpenAI, вирішують цю проблему?
Фактично, з точки зору анотації даних, OpenAI не відмовився від використання дешевої та інтенсивної праці для зменшення витрат.
Наприклад, раніше було виявлено, що компанія найняла велику кількість кенійських працівників для маркування токсичної інформації за ціною 2 долари США за годину.
**Але ключова відмінність полягає в тому, як вирішити проблеми якості даних і ефективності анотацій. **
Зокрема, найбільша різниця між OpenAI та вітчизняними компаніями в цьому відношенні полягає в тому, як зменшити вплив «суб’єктивності» та «нестабільності» ручного анотування.
2 Підхід OpenAI
Щоб зменшити «суб’єктивність» і «нестабільність» таких анотаторів-людей, OpenAI приблизно використовує дві основні стратегії:
1. Поєднання штучного зворотного зв’язку та навчання з підкріпленням;
Давайте спершу поговоримо про перший пункт.З точки зору методу маркування, найбільша відмінність між ручним зворотним зв’язком OpenAI і внутрішнім зворотним зв’язком полягає в тому, що він переважно сортує чи оцінює поведінку інтелектуальної системи, а не змінює чи позначає її результат.
Поведінка інтелектуальної системи означає виконання інтелектуальною системою серії дій або рішень на основі власних цілей і стратегій у складному середовищі.
Наприклад, пограти в гру, керувати роботом, поговорити з людиною тощо.
Вихід інтелектуальної системи стосується створення результату або відповіді на основі вхідних даних у простому завданні, такому як написання статті чи малювання картини.
Взагалі кажучи, поведінку інтелектуальних систем важче оцінити з точки зору «правильного» чи «неправильного», ніж результат, і її потрібно оцінювати з точки зору переваги чи задоволення.
Така система оцінювання на основі «переваги» чи «задоволення» не потребує модифікації чи анотації конкретного вмісту, таким чином зменшуючи вплив людської суб’єктивності, рівня знань та інших факторів на якість і точність анотації даних.
Це правда, що вітчизняні підприємства також використовуватимуть системи, схожі на «сортування» та «оцінку» під час маркування, але через відсутність «моделі винагороди», як-от OpenAI, як функції винагороди для оптимізації стратегії інтелектуальної системи, наприклад « сортування" та "оцінка" "Оцінка" все ще є, по суті, методом модифікації або анотування результату.
2. Диверсифіковані та широкомасштабні джерела даних;
Основними джерелами анотації даних у Китаї є сторонні анотаційні компанії або власноруч створені команди технологічних компаній. Ці команди здебільшого складаються зі студентів і не мають достатнього професіоналізму та досвіду, що ускладнює надання високоякісного та ефективного зворотного зв’язку.
Навпаки, відгуки OpenAI вручну надходять від кількох каналів і команд.
OpenAI не лише використовує набори даних із відкритим кодом та Інтернет-сканери для отримання даних, але також співпрацює з кількома компаніями та установами, що займаються обробкою даних, такими як Scale AI, Appen, Lionbridge AI тощо, щоб отримати більш різноманітні та якісні дані.
Порівняно з вітчизняними аналогами, методи маркування цих компаній та установ набагато більш «автоматичні» та «інтелектуальні».
Наприклад, Scale AI використовує техніку під назвою Snorkel, метод маркування даних, заснований на слабо контрольованому навчанні, який може генерувати високоякісні мітки з кількох неточних джерел даних.
У той же час Snorkel також може використовувати різні сигнали, такі як правила, моделі та бази знань, щоб додавати мітки до даних без ручного позначення кожної точки даних безпосередньо. Це може значно скоротити вартість і час анотації вручну.
Оскільки вартість і цикл анотації даних скорочуються, ці компанії з обробки даних із конкурентними перевагами можуть вибирати високовартісні, складні та високопорогові підрозділи, такі як автономне водіння, великі мовні моделі, синтетичні дані тощо. Можуть постійно вдосконалюватися. його основну конкурентоспроможність і диференційовані переваги.
Таким чином, дилема безкоштовних послуг «перші люди постраждають» також була усунена сильними технологічними та галузевими бар’єрами.
3 Стандартизація VS маленька майстерня
Можна побачити, що **технологія автоматичного маркування штучного інтелекту справді усуне лише ті компанії, що маркують маркування, які все ще використовують суто маркування вручну. **
Хоча анотація даних звучить як «трудомістка» галузь, як тільки ви заглибитеся в деталі, ви побачите, що пошук високоякісних даних нелегке завдання.
В особі Scale AI, закордонного єдинорога анотації даних, Scale AI не тільки використовує дешеві людські ресурси з Африки та інших місць, але й набирає десятки докторів наук для роботи з професійними даними в різних галузях.
Якість анотації даних є найбільшою цінністю, яку Scale AI надає великим модельним компаніям, таким як OpenAI.
Щоб забезпечити якнайвищу якість даних, окрім використання анотації за допомогою штучного інтелекту, згаданої вище, ще однією важливою інновацією **Scale AI є уніфікована платформа даних. **
Ці платформи включають Scale Audit, Scale Analytics, ScaleData Quality тощо. За допомогою цих платформ клієнти можуть відстежувати й аналізувати різні показники в процесі анотації, перевіряти й оптимізувати дані анотації, а також оцінювати точність, послідовність і повноту анотації.
Можна сказати, що такі стандартизовані та уніфіковані інструменти та процеси стали ключовими факторами, які відрізняють «конвеєрні фабрики» від «майстерні ручної роботи» в компаніях, що займаються етикетуванням.
У зв’язку з цим більшість вітчизняних анотаційних компаній досі використовують «ручну перевірку» для перевірки якості анотації даних. Лише деякі гіганти, такі як Baidu, запровадили більш просунуті інструменти керування та оцінки, такі як інтелектуальна платформа обслуговування даних EasyData.
Якщо немає спеціалізованих інструментів для моніторингу та аналізу результатів анотації та індикаторів в аспекті перегляду ключових даних, тоді контроль якості даних все одно буде зведено до рівня майстерні, який покладається на бачення «майстра».
Тому все більше і більше вітчизняних компаній, таких як Baidu і My Neighbor Totoro Data, починають використовувати технології машинного навчання та штучного інтелекту для підвищення ефективності та якості анотації даних і впровадження моделей взаємодії людини і машини.
Можна помітити, що поява маркування ШІ — це не кінець вітчизняних маркувальних компаній, а кінець неефективного, дешевого, трудомісткого методу маркування, якому бракує технічного змісту.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Скількох компаній, що займаються маркуванням ШІ, вб’є «великий крок» Google?
Джерело: AI New Intelligence
Якщо поточний генеративний ШІ схожий на дитину, яка активно росте, то безперервні дані є їжею, яка годує її для зростання.
Анотація даних — це процес приготування цієї «їжі».
Однак цей процес дійсно об'ємний і виснажливий.
З безперервним удосконаленням технології штучного інтелекту обмеження ручного анотування даних стають дедалі очевиднішими. Анотація даних вручну займає не тільки багато часу та праці, але іноді важко гарантувати якість.
Ці результати показують, що RLAIF не потрібно покладатися на анотацію вручну і є можливою альтернативою RLHF. **
Отже, якщо цю технологію справді просуватимуть і популяризуватимуть у майбутньому, чи справді багато компаній, які все ще покладаються на ручне «витягування ящиків» для анотації даних, справді будуть змушені відтепер зайти в глухий кут?
1 Поточний статус анотації даних
Якщо ми хочемо просто підсумувати поточний стан вітчизняної індустрії анотування, то він такий: **Навантаження велике, але ефективність не дуже висока, і це невдячний стан. **
Компанії з виробництва етикеток відомі як фабрики даних у сфері штучного інтелекту і зазвичай зосереджені в регіонах із багатими людськими ресурсами, таких як Південно-Східна Азія, Африка або Хенань, Шаньсі та Шаньдун у Китаї.
Для того, щоб контролювати витрати, начальники фірми по етикетці візьмуть в окрузі приміщення, налаштують комп'ютери, а коли будуть замовлення, наберуть поруч людей на неповний робочий день, якщо не буде - розформовуються. і відпочити.
Простіше кажучи, така робота трохи схожа на тимчасових оздоблювальників на узбіччі.
Після цього «анотатору» потрібно спочатку відзначити, до якого типу відноситься питання, а потім оцінити і проранжувати відповіді.
Раніше, коли люди говорили про розрив між вітчизняними великими моделями та передовими великими моделями, такими як GPT-4, вони підсумовували причини низької якості вітчизняних даних.
Але чому якість даних не висока? Частково причина криється в «конвеєрі» анотації даних.
Наразі існує два типи джерел даних для китайських великих моделей: одне – це набори даних з відкритим кодом; інше – китайські Інтернет-дані, скановані сканерами.
**Однією з основних причин недостатньої продуктивності великих китайських моделей є якість Інтернет-даних.**Наприклад, професіонали зазвичай не використовують Baidu для пошуку інформації.
Але в цей час знову виникає проблема: для професійних команд період повернення не тільки довгий, коли справа доходить до даних, але й ті, хто першими рухаються, ймовірно, зазнають збитків.
Наприклад, якщо певна команда анотаторів витратила багато грошей і часу на створення великої кількості даних, інші можуть просто упакувати та купити їх за невелику суму грошей.
Зіткнувшись із такою «дилемою вільного їздця», великі вітчизняні моделі потрапили в дивну скруту, оскільки мають багато даних, але низької якості.
Зважаючи на це, як деякі провідні іноземні компанії ШІ, такі як OpenAI, вирішують цю проблему?
Наприклад, раніше було виявлено, що компанія найняла велику кількість кенійських працівників для маркування токсичної інформації за ціною 2 долари США за годину.
**Але ключова відмінність полягає в тому, як вирішити проблеми якості даних і ефективності анотацій. **
Зокрема, найбільша різниця між OpenAI та вітчизняними компаніями в цьому відношенні полягає в тому, як зменшити вплив «суб’єктивності» та «нестабільності» ручного анотування.
2 Підхід OpenAI
Щоб зменшити «суб’єктивність» і «нестабільність» таких анотаторів-людей, OpenAI приблизно використовує дві основні стратегії:
1. Поєднання штучного зворотного зв’язку та навчання з підкріпленням;
Давайте спершу поговоримо про перший пункт.З точки зору методу маркування, найбільша відмінність між ручним зворотним зв’язком OpenAI і внутрішнім зворотним зв’язком полягає в тому, що він переважно сортує чи оцінює поведінку інтелектуальної системи, а не змінює чи позначає її результат.
Поведінка інтелектуальної системи означає виконання інтелектуальною системою серії дій або рішень на основі власних цілей і стратегій у складному середовищі.
Наприклад, пограти в гру, керувати роботом, поговорити з людиною тощо.
Взагалі кажучи, поведінку інтелектуальних систем важче оцінити з точки зору «правильного» чи «неправильного», ніж результат, і її потрібно оцінювати з точки зору переваги чи задоволення.
Така система оцінювання на основі «переваги» чи «задоволення» не потребує модифікації чи анотації конкретного вмісту, таким чином зменшуючи вплив людської суб’єктивності, рівня знань та інших факторів на якість і точність анотації даних.
2. Диверсифіковані та широкомасштабні джерела даних;
Основними джерелами анотації даних у Китаї є сторонні анотаційні компанії або власноруч створені команди технологічних компаній. Ці команди здебільшого складаються зі студентів і не мають достатнього професіоналізму та досвіду, що ускладнює надання високоякісного та ефективного зворотного зв’язку.
OpenAI не лише використовує набори даних із відкритим кодом та Інтернет-сканери для отримання даних, але також співпрацює з кількома компаніями та установами, що займаються обробкою даних, такими як Scale AI, Appen, Lionbridge AI тощо, щоб отримати більш різноманітні та якісні дані.
Порівняно з вітчизняними аналогами, методи маркування цих компаній та установ набагато більш «автоматичні» та «інтелектуальні».
У той же час Snorkel також може використовувати різні сигнали, такі як правила, моделі та бази знань, щоб додавати мітки до даних без ручного позначення кожної точки даних безпосередньо. Це може значно скоротити вартість і час анотації вручну.
Таким чином, дилема безкоштовних послуг «перші люди постраждають» також була усунена сильними технологічними та галузевими бар’єрами.
3 Стандартизація VS маленька майстерня
Можна побачити, що **технологія автоматичного маркування штучного інтелекту справді усуне лише ті компанії, що маркують маркування, які все ще використовують суто маркування вручну. **
Хоча анотація даних звучить як «трудомістка» галузь, як тільки ви заглибитеся в деталі, ви побачите, що пошук високоякісних даних нелегке завдання.
В особі Scale AI, закордонного єдинорога анотації даних, Scale AI не тільки використовує дешеві людські ресурси з Африки та інших місць, але й набирає десятки докторів наук для роботи з професійними даними в різних галузях.
Щоб забезпечити якнайвищу якість даних, окрім використання анотації за допомогою штучного інтелекту, згаданої вище, ще однією важливою інновацією **Scale AI є уніфікована платформа даних. **
Ці платформи включають Scale Audit, Scale Analytics, ScaleData Quality тощо. За допомогою цих платформ клієнти можуть відстежувати й аналізувати різні показники в процесі анотації, перевіряти й оптимізувати дані анотації, а також оцінювати точність, послідовність і повноту анотації.
У зв’язку з цим більшість вітчизняних анотаційних компаній досі використовують «ручну перевірку» для перевірки якості анотації даних. Лише деякі гіганти, такі як Baidu, запровадили більш просунуті інструменти керування та оцінки, такі як інтелектуальна платформа обслуговування даних EasyData.
Якщо немає спеціалізованих інструментів для моніторингу та аналізу результатів анотації та індикаторів в аспекті перегляду ключових даних, тоді контроль якості даних все одно буде зведено до рівня майстерні, який покладається на бачення «майстра».
Можна помітити, що поява маркування ШІ — це не кінець вітчизняних маркувальних компаній, а кінець неефективного, дешевого, трудомісткого методу маркування, якому бракує технічного змісту.