ИИ застрянет? Данные для обучения больших моделей могут быть исчерпаны к 2026 году

Question

Источник: Tencent Technology, Автор: Jinlu

Сосредоточиться на:

Последний бум генеративного искусственного интеллекта требует поддержки сверхбольших моделей, а большие модели необходимо обучать на огромных данных, поэтому данные становятся все более ценными.
Исследователи полагают, что спрос на данные резко возрастет, а высококачественные текстовые данные, которые можно использовать для обучения больших моделей, могут быть исчерпаны в 2026 году. Начинается борьба с данными.
В США было возбуждено множество дел о нарушении авторских прав против разработчиков моделей, и ответчиками стали OpenAI, Stability AI, Midjourney и Meta.
Компании, занимающиеся искусственным интеллектом, изучают новые источники данных, в том числе подписывают соглашения об авторском праве на данные с другими компаниями, собирают данные посредством взаимодействия пользователей с их инструментами и пытаются использовать внутренние данные корпоративных клиентов.

Источник изображения: Создано Unbounded AI

Не так давно аналитики открыто рассуждали о том, приведет ли искусственный интеллект (ИИ) к краху компании Adobe, разработчика программного обеспечения для креативщиков. Новые инструменты, такие как Dall-E 2 и MidTrik, которые генерируют изображения на основе текста подсказки, похоже, делают возможности Adobe по редактированию изображений излишними. Только в апреле этого года сайт финансовых новостей Seeking Alpha также опубликовал статью под названием «Будет ли искусственный интеллект убийцей Adobe?»

Но на самом деле факты далеки от предположений аналитиков. Adobe использовала свою базу данных, содержащую сотни миллионов стоковых фотографий, для создания собственного набора инструментов искусственного интеллекта под названием Firefly. По словам исполнительного директора компании Даны Рао, с момента запуска Firefly в марте было создано более 1 миллиарда изображений. Избегая поиска изображений в Интернете, как это делают ее конкуренты, Adobe обходит углубляющиеся споры об авторских правах, которые в настоящее время преследуют отрасль. Акции Adobe выросли на 36 процентов с момента запуска Firefly.

Начинается шифрование данных

Победа Adobe над так называемым «убийцей судьбы» подчеркивает более широкие последствия гонки за доминирование на быстрорастущем рынке инструментов искусственного интеллекта. Очень большие модели, лежащие в основе последней волны так называемого «генеративного искусственного интеллекта», полагаются на огромные объемы данных. Раньше разработчики моделей в основном собирали данные (часто без разрешения) из Интернета. Теперь они находят новые источники данных для поддержания этого безумного режима тренировок. В то же время компании, располагающие огромными объемами новых данных, думают, как лучше всего извлечь из них выгоду. Начинается борьба с данными.

Двумя основными элементами модели искусственного интеллекта являются наборы данных и вычислительная мощность.Система обучается на наборах данных, и модель обнаруживает взаимосвязь между внутренним и внешним из этих наборов данных посредством вычислительной мощности. В каком-то смысле эти два фундаментальных принципа взаимозаменяемы: модель можно улучшить, приняв больше данных или добавив больше вычислительной мощности. Последнее, однако, становится все более трудным из-за нехватки специализированных микросхем искусственного интеллекта, что заставляет разработчиков моделей удвоить усилия по поиску данных.

Исследовательская фирма Epoch AI считает, что спрос на данные возрастет настолько резко, что высококачественный текст, доступный для обучения, может быть исчерпан к 2026 году. Сообщается, что новейшие модели искусственного интеллекта двух технологических гигантов, Google и Meta, обучены более чем на 1 триллион слов. Для сравнения, общее количество английских слов в онлайн-энциклопедии Wikipedia составляет около 4 миллиардов.

Важен не только размер набора данных. Чем лучше данные, тем лучше будут работать модели, обученные на них. Рассел Каплан из стартапа по работе с данными Scale AI отмечает, что текстовые модели идеально подходят для обучения на длинных, хорошо написанных и фактически точных работах. Модели, снабжающие эту информацию, с большей вероятностью дадут результаты такого же высокого качества.

Аналогичным образом, чат-боты с искусственным интеллектом дают более точные ответы, когда их просят объяснить их работу шаг за шагом, что увеличивает потребность в таких ресурсах, как учебники. Специальные наборы информации также становятся более ценными, поскольку они позволяют «точно настраивать» модели для более нишевых приложений. Microsoft, которая приобрела репозиторий программного кода GitHub в 2018 году за 7,5 миллиардов долларов, использовала его для разработки инструмента искусственного интеллекта для написания кода.

Количество исков о нарушении авторских прав на данные растет, компании, занимающиеся искусственным интеллектом, заняты подписанием лицензионных соглашений

По мере роста спроса на данные доступ к пробелам в данных становится все более сложным, и создатели контента теперь требуют компенсации за материал, поглощенный моделями ИИ. В США против производителей моделей было возбуждено множество дел о нарушении авторских прав. Группа писателей, в том числе комик Сара Сильверман, подает в суд на OpenAI, разработчика чат-бота с искусственным интеллектом ChatGPT и материнской компании Facebook Meta. Кроме того, группа художников аналогичным образом подала в суд на Stability AI и Midjourney, две компании, работающие над инструментами преобразования текста в изображение.

Результатом всего этого является шквал сделок, поскольку компании, занимающиеся искусственным интеллектом, стремятся приобрести источники данных. В июле OpenAI подписала соглашение с Associated Press о получении доступа к архивам новостей агентства. Совсем недавно компания также расширила свое соглашение с поставщиком библиотек изображений Shutterstock, с которым у Meta также есть соглашение.

Ранее в августе появились сообщения о том, что Google ведет переговоры со звукозаписывающей компанией Universal Music о лицензировании голосов артистов для разработки инструментов искусственного интеллекта для написания песен. Управляющий активами Fidelity сообщил, что к компании обратился ряд технологических компаний с просьбой предоставить доступ к ее финансовым данным. Ходят слухи, что AI Lab обращается к BBC за своими изображениями и киноархивами. Еще одним объектом интереса является JSTOR, цифровая библиотека научных журналов.

Эти обладатели информации используют свою большую переговорную силу. Форум Reddit и Stack Overflow, популярный среди программистов сайт вопросов и ответов, повысили стоимость доступа к своим данным. Оба сайта особенно ценны, потому что пользователям «нравятся» ответы, помогая модели узнать, какие из них наиболее релевантны. Социальная сеть X (ранее Twitter) предприняла шаги по ограничению возможности ботов собирать информацию на сайте, и теперь любому, кто хочет получить доступ к его данным, придется платить. Босс X Илон Маск планирует использовать эти данные для создания собственного бизнеса в области искусственного интеллекта.

Поэтому разработчики моделей работают над улучшением качества уже имеющихся у них данных. Многие лаборатории искусственного интеллекта используют армии аннотаторов данных для выполнения таких задач, как маркировка изображений и оценка ответов. Некоторые из этих должностей настолько сложны, что для них даже требуется степень магистра или доктора наук по специальности биологические науки. Но большинство этих рабочих мест являются рутинными и передаются на аутсорсинг дешевой рабочей силе в таких странах, как Кения.

Компании, занимающиеся искусственным интеллектом, также собирают данные посредством взаимодействия пользователей с их инструментами. Многие из этих инструментов имеют тот или иной механизм обратной связи, посредством которого пользователь указывает, какие результаты были полезны. Генератор текста в изображение Firefly позволяет пользователям выбирать из четырех вариантов. Чат-бот Google Bard также предлагает три ответа.

Пользователи могут ставить лайк ChatGPT, когда он отвечает на запрос. Эту информацию можно использовать в качестве входных данных для базовых моделей, образуя то, что Доу Киела, соучредитель стартапа Contextual AI, называет «маховиком данных». Более сильный сигнал о качестве ответов чат-бота — это то, копируют ли пользователи текст и вставляют его в другое место, добавил он. Анализ этой информации помогает Google быстро совершенствовать свои инструменты перевода.

Исследуйте новые области, и внутренние данные корпоративных клиентов превратятся в сладкую выпечку

Однако есть один источник данных, который остается практически неиспользованным: информация, которая существует среди корпоративных клиентов технологических компаний. Многие предприятия неосознанно обладают огромным количеством полезных данных: от записей колл-центра до записей о расходах клиентов. Эта информация особенно ценна, поскольку она может помочь в точной настройке моделей для конкретных бизнес-целей, например, помочь сотрудникам колл-центра отвечать на вопросы клиентов или помочь бизнес-аналитикам найти способы увеличения продаж.

Однако воспользоваться этим обильным ресурсом непросто. Рой Сингх, аналитик консалтинговой компании Bain & Company, отмечает, что исторически большинство компаний уделяли мало внимания огромным, но неструктурированным наборам данных, которые окажутся наиболее полезными для обучения инструментам искусственного интеллекта. Эти данные часто распространяются по нескольким системам и прячутся на серверах компании, а не в облаке.

Получение этой информации поможет предприятиям адаптировать инструменты искусственного интеллекта для лучшего удовлетворения своих конкретных потребностей. Оба технологических гиганта, Amazon и Microsoft, теперь предлагают инструменты, которые помогут другим компаниям лучше управлять наборами неструктурированных данных, как и Google. Кристиан Кляйнерман из компании по производству баз данных Snowflake сказал, что эта область процветает, поскольку клиенты стремятся «разрушить хранилища данных».

Стартапы также стекаются в эту новую область. В апреле этого года Weaviate, компания по производству баз данных, специализирующаяся на искусственном интеллекте, привлекла $50 млн при оценке в $200 млн. Всего неделю спустя конкурент PineCone привлек 100 миллионов долларов при оценке в 750 миллионов долларов. Ранее в этом месяце другой стартап по работе с базами данных Neon также привлек 46 миллионов долларов. Очевидно, что борьба за данные только началась.

Посмотреть Оригинал