Человеческие данные спешат, Microsoft OpenAI начала кормить ИИ ИИ, Альтман заявил: все данные в будущем станут синтетическими данными

Первоисточник: Кубит

Источник изображения: сгенерировано Unbounded AI‌

Человеческих данных не хватает, и ИИ вынужден начать есть данные, созданные ИИ!

Это статус-кво, с которым сталкиваются передовые компании в области искусственного интеллекта, такие как Microsoft и OpenAI.

Они просмотрели огромное количество данных с таких платформ и форумов, как Википедия, электронные книги, новостные сайты, блоги, Твиттер и Реддит, и теперь... у них заканчиваются данные.

НО, чтобы обучить лучшую большую модель, недостаточно данных.

По данным «Financial Times», многие компании скармливают результаты, полученные с помощью больших моделей, так называемые синтетические данные (Synthetic data), крупным моделям с меньшими параметрами, и обнаружили, что результаты неплохие.

Генеральный директор OpenAI Сэм Альтман не только не возражает против использования синтетических данных, но и заявил, что «все данные в будущем станут синтетическими данными».

Cohere, крупный стартап, оцениваемый в 2 миллиарда долларов, также использует синтетические данные. Эйдан Гомес, генеральный директор компании и один из авторов классической большой модели бумаги «Трансформер», даже считает, что:

Синтетические данные могут ускорить путь к «сверхинтеллектуальным» системам искусственного интеллекта.

Итак, какие большие модели уже используют синтетические данные и откуда берутся эти синтетические данные?

Большой ИИ синтезирует данные, маленький ИИ ест

Эти так называемые синтетические данные представляют собой данные, сгенерированные текущей большой моделью с более высокой производительностью после ручной настройки, а затем переданные в большую модель немного меньшего размера.

Например, Коэр пытался использовать две большие модели для ведения «ролевых» диалогов и превращать генерируемые ими результаты в синтетические данные.

Эти две большие модели играют роль «учителя математики» и «ученика» соответственно и проводят виртуальный урок по обучению математике. Тем временем Cohere отстранил сотрудника-человека, чтобы тот наблюдал за генерацией диалогов.

Люди вмешиваются, чтобы исправить текст всякий раз, когда разговор идет не так, как надо.

Хотя это требует рабочей силы, это намного дешевле, чем нанимать экспертов в области науки, медицины и бизнеса для написания текста.

Итак, какие большие модели будут использовать эти синтетические данные?

Недавнее исследование Microsoft Research показало, что синтетические данные можно использовать для обучения языковых моделей, которые немного меньше, чем GPT-4 или PaLM-2**.

Возьмем в качестве примера набор данных «Четырехлетний детский роман» TinyStories, сгенерированный GPT-4. Было доказано, что этот набор данных содержит только слова, которые могут понять четырехлетние дети, но после обучения крупная модель, та же история, грамматически правильная и плавно читаемая:

Что касается причин использования синтетических данных, генеральный директор Cohere Эйдан Гомес считает:

Конечно, лучше иметь возможность получать данные из Интернета, но сетевые данные слишком беспорядочны, чтобы вообще удовлетворять потребности. Напротив, синтетических данных уже предостаточно, даже если они не получили широкого распространения.

Появилась производственная цепочка

В настоящее время такие компании, как Scale AI и Gretel.ai, начали предоставлять услуги синтетических данных внешнему миру.

Во-первых, Scale AI, которая запустила продукт синтетических данных Scale Synthetic, чтобы предоставлять предприятиям услуги синтетических данных.

В предыдущей новости о том, что SemiAnalysis сообщил о «большом шнурке» GPT-4, он также упомянул, что в наборе данных GPT-4 есть миллионы строк из Scale AI и данных тонкой настройки внутренних инструкций.

Что касается платформы синтетических данных Gretel.ai, с официального сайта, она сотрудничала с Google, Riot Games, HSBC и другими компаниями, чтобы генерировать больше синтетических данных для использования другими разработчиками.

Али Гольшан, генеральный директор Gretel.ai, считает, что преимущество синтетических данных заключается в том, что они сохраняют конфиденциальность всех лиц в наборе данных, сохраняя при этом его статистическую целостность.

Но не все принимают «волшебную операцию» синтетических данных.В настоящее время мнения всех сторон в основном разделились на две волны.

Некоторые одобряют использование синтетических данных. Включая такие компании, занимающиеся ИИ, как Cohere, многие компании, занимающиеся крупномасштабными моделями, по-прежнему настаивают на этом подходе и считают, что он может создать более совершенный ИИ и даже породить «сверхразум».

Другая часть считает, что синтетические данные в конечном итоге позволят ИИ «питаться самим собой».

Например, исследование Оксфордского университета, Кембриджского университета, Имперского колледжа, Университета Торонто, Эдинбургского университета и Института Вектора показывает, что:

Обучение на синтетических данных приведет к необратимым дефектам модели: Забудьте о тех «невозможных событиях», которые в конечном итоге отравляются самостоятельно сгенерированными данными.

Некоторые пользователи сети считают, что эти синтетические данные в конечном итоге превратятся в «непригодный шлак», и тогда людям придется нанимать специалистов по данным, чтобы очистить* их.

Некоторые пользователи сети высмеяли, что это звучит как «инбридинг ИИ».

Как вы думаете, нужно ли ИИ использовать синтетические данные?

Ссылка на ссылку: [1] [2] [3] [4]

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить