ШІ застрягне? Дані для навчання великих моделей можуть бути вичерпані до 2026 року

Question

Джерело: «Tencent Technology», автор: Jinlu

Зосередьтеся на:

Останній бум генеративного штучного інтелекту вимагає підтримки надвеликих моделей, а великі моделі потрібно навчати з масивними даними, тому дані стають усе більш цінними.
Дослідники вважають, що попит на дані різко зросте, а високоякісні текстові дані, які можна використовувати для навчання великих моделей, можуть бути вичерпані в 2026 році. Розпочинається перебір даних.
У Сполучених Штатах проти розробників моделей було порушено багато справ про порушення авторських прав, відповідачами стали OpenAI, Stability AI, Midjourney і Meta.
Компанії штучного інтелекту досліджують нові джерела даних, включаючи підписання угод про авторське право на дані з іншими компаніями, збір даних через взаємодію користувачів із їхніми інструментами та намагаються використовувати внутрішні дані від корпоративних клієнтів.

Джерело зображення: створено Unbounded AI

Не так давно аналітики відкрито міркували, чи призведе штучний інтелект (ШІ) до краху Adobe, розробника програмного забезпечення для творчості. Нові інструменти, такі як Dall-E 2 і MidTrik, які генерують зображення на основі оперативного тексту, здається, роблять зайвими можливості Adobe для редагування зображень. Лише у квітні цього року веб-сайт фінансових новин Seeking Alpha також опублікував статтю під назвою «Чи стане штучний інтелект Adobe Killer?»

Але насправді факти далекі від припущень аналітиків. Adobe використала свою базу даних із сотень мільйонів фотографій, щоб створити власний набір інструментів штучного інтелекту під назвою Firefly. За словами керівника компанії Дани Рао, Firefly використовувався для створення понад 1 мільярда зображень з моменту запуску в березні. Уникаючи видобутку зображень в Інтернеті, як її конкуренти, Adobe обходить стороною поглиблення суперечок щодо авторських прав, які нині мучать галузь. Акції Adobe зросли на 36 відсотків після запуску Firefly.

Починається перебір даних

Перемога Adobe над так званим «Doomslayer» підкреслює ширші наслідки гонки за домінування на швидкозростаючому ринку інструментів штучного інтелекту. Дуже великі моделі, які живлять останню хвилю так званого «генеративного штучного інтелекту», покладаються на величезну кількість даних. Раніше розробники моделей переважно збирали дані (часто без дозволу) з Інтернету. Тепер вони знаходять нові джерела даних, щоб підтримувати цей шалений режим навчання. У той же час компанії, які мають величезні обсяги нових даних, зважують, як найкраще з цього отримати прибуток. Розпочинається перебір даних.

Двома основними елементами моделі штучного інтелекту є набори даних і потужність обробки. Система навчається на наборах даних, і модель виявляє взаємозв’язок між внутрішніми та зовнішніми наборами даних через потужність обробки. У певному сенсі ці дві основи взаємозамінні: модель можна покращити, отримавши більше даних або додавши більше обчислювальної потужності. Однак останнє стає дедалі складнішим через дефіцит спеціалізованих мікросхем штучного інтелекту, що змушує розробників моделей подвоїти пошук даних.

Дослідницька компанія Epoch AI вважає, що попит на дані зросте настільки різко, що високоякісний текст, доступний для навчання, може бути вичерпаний до 2026 року. Повідомляється, що останні моделі штучного інтелекту двох технологічних гігантів, Google і Meta, були навчені на більш ніж 1 трильйоні слів. Для порівняння, загальна кількість англійських слів в онлайн-енциклопедії Wikipedia становить близько 4 мільярдів.

Важливий не лише розмір набору даних. Чим кращі дані, тим краще працюватимуть моделі, навчені на них. Рассел Каплан із стартапу даних Scale AI зазначає, що текстові моделі ідеально навчаються на довгих, добре написаних, фактично точних роботах. Моделі, яким надана ця інформація, з більшою ймовірністю створюватимуть такі ж високоякісні результати.

Так само чат-боти ШІ дають кращі відповіді, коли їх просять пояснити свою роботу крок за кроком, що збільшує потребу в ресурсах, таких як підручники. Спеціальні інформаційні набори також стають більш цінними, оскільки вони дозволяють «точніше налаштовувати» моделі для більш нішевих застосувань. Microsoft, яка придбала сховище програмного коду GitHub у 2018 році за 7,5 мільярда доларів, використала його для розробки інструменту штучного інтелекту для написання коду.

Сплеск позовів щодо авторських прав на дані, компанії ШІ зайняті підписанням ліцензійних угод

Оскільки попит на дані зростає, доступ до прогалин даних стає дедалі складнішим, і творці контенту тепер вимагають компенсацію за матеріал, поглинутий моделями ШІ. Проти виробників моделей у Сполучених Штатах було порушено численні справи про порушення авторських прав. Група сценаристів, у тому числі комік Сара Сільверман, судиться з OpenAI, розробником чат-бота зі штучним інтелектом ChatGPT, і материнською компанією Facebook Meta. Крім того, група художників аналогічно подала до суду на Stability AI та Midjourney, дві компанії, які працюють над інструментами перетворення тексту в зображення.

Підсумком усього цього є шквал угод, оскільки компанії зі штучним інтелектом намагаються отримати джерела даних. У липні OpenAI підписала угоду з Associated Press про отримання доступу до архівів новин агентства. Нещодавно компанія також розширила свою угоду з постачальником бібліотек зображень Shutterstock, з яким Meta також має угоду.

Раніше в серпні з’явилася інформація про те, що Google веде переговори з лейблом звукозапису Universal Music щодо ліцензування голосів виконавців, щоб допомогти розробити інструменти штучного інтелекту для написання пісень. Керуючий активами Fidelity сказав, що до компанії звернулася низка технологічних компаній із запитом на доступ до її фінансових даних. Ходять чутки, що AI Lab звертається до BBC за своїми архівами зображень і фільмів. Ще одна ціль інтересу — JSTOR, цифрова бібліотека наукових журналів.

Ці носії інформації використовують свою більшу силу на переговорах. Форум Reddit і популярний серед програмістів сайт запитань і відповідей Stack Overflow підвищили вартість доступу до їхніх даних. Обидва сайти особливо цінні, тому що користувачі «лайкають» відповіді, допомагаючи моделі визначити, які з них є найбільш релевантними. Соціальна медіа X (раніше Twitter) вжила заходів, щоб обмежити здатність ботів збирати інформацію на сайті, і тепер кожен, хто хоче отримати доступ до його даних, повинен буде заплатити. Керівник X Ілон Маск планує використати дані для створення власного бізнесу штучного інтелекту.

Тому розробники моделей працюють над покращенням якості даних, які вони вже мають. Багато лабораторій ШІ використовують армії анотаторів даних для виконання таких завдань, як маркування зображень і оцінювання відповідей. Деякі з цих робіт настільки складні, що навіть вимагають кандидата магістра чи доктора філософії зі спеціальністю «Науки про життя». Але більшість із цих робочих місць є приземленими та передаються дешевій робочій силі в такі країни, як Кенія.

Компанії зі штучним інтелектом також збирають дані за допомогою взаємодії користувачів із їхніми інструментами. Багато з цих інструментів мають певну форму механізму зворотного зв’язку, за допомогою якого користувач вказує, які результати були корисними. Генератор тексту в зображення Firefly дозволяє користувачам вибирати з чотирьох варіантів. Чат-бот Google Bard також пропонує три відповіді.

Користувачі можуть оцінити ChatGPT, коли він відповідає на запит. Ця інформація може бути використана як вхідні дані для основних моделей, утворюючи те, що Дуве Кіла, співзасновник стартапу Contextual AI, називає «маховиком даних». Сильнішим сигналом якості відповідей чат-бота є те, чи користувачі копіюють текст і вставляють його в іншому місці, додав він. Аналіз цієї інформації допомагає Google швидко вдосконалювати свої інструменти перекладу.

Досліджуйте нові поля, і внутрішні дані корпоративних клієнтів стануть солодкою випічкою

Однак є одне джерело даних, яке залишається в основному невикористаним: інформація, яка існує серед корпоративних клієнтів технологічних компаній. Багато компаній несвідомо володіють великою кількістю корисних даних, від записів кол-центру до записів про витрати клієнтів. Ця інформація особливо цінна, оскільки вона може допомогти точно налаштувати моделі для конкретних бізнес-цілей, наприклад допомогти працівникам кол-центру відповісти на запитання клієнтів або допомогти бізнес-аналітикам знайти способи збільшення продажів.

Однак скористатися цим багатим ресурсом нелегко. Рой Сінгх, аналітик консалтингової компанії Bain & Company, зазначає, що історично більшість компаній приділяють мало уваги величезним, але неструктурованим наборам даних, які виявляться найбільш корисними для навчання інструментам ШІ. Ці дані часто розподілені між кількома системами та приховані на серверах компанії, а не в хмарі.

Розблокування цієї інформації допоможе компаніям адаптувати інструменти штучного інтелекту для кращого задоволення своїх конкретних потреб. Обидва технічні гіганти, Amazon і Microsoft, тепер пропонують інструменти, які допомагають іншим компаніям краще керувати неструктурованими наборами даних, як і Google. Крістіан Кляйнерман з компанії баз даних Snowflake сказав, що ця галузь процвітає, оскільки клієнти прагнуть «розбити бункери даних».

Стартапи також стікаються в цю нову сферу. У квітні цього року Weaviate, компанія з баз даних, що спеціалізується на штучному інтелекті, залучила 50 мільйонів доларів при оцінці в 200 мільйонів доларів. Всього через тиждень конкурент PineCone залучив 100 мільйонів доларів при оцінці в 750 мільйонів доларів. Раніше цього місяця інший стартап баз даних, Neon, також залучив 46 мільйонів доларів. Очевидно, боротьба за дані тільки почалася.

Переглянути оригінал