«Больше, чем больше» (Bigger than big) — это реклама Apple того года, которая используется для описания самой горячей модели большого языка в области ИИ. Кажется, в этом нет ничего плохого.
От миллиардов до десятков миллиардов и сотен миллиардов параметры большой модели постепенно становились дикими, соответственно объем данных, используемых для обучения ИИ, также увеличивался в геометрической прогрессии.
Взяв в качестве примера GPT OpenAI, с GPT-1 до GPT-3, его набор обучающих данных вырос в геометрической прогрессии с 4,5 ГБ до 570 ГБ.
На конференции Data+AI, проведенной Databricks недавно, Марк Андриссен, основатель a16z, полагал, что массивные данные, накопленные Интернетом за последние два десятилетия, являются важной причиной подъема этой новой волны ИИ, потому что первый предоставляет последнему полезные обучающие данные.
Однако, даже если пользователи сети оставят в Интернете много полезных или бесполезных данных, для обучения ИИ этих данных может не хватить.
Документ, опубликованный Epoch, организацией, занимающейся исследованиями и прогнозированием искусственного интеллекта, прогнозирует, что высококачественные текстовые данные будут исчерпаны в период с 2023 по 2027 год.
Хотя исследовательская группа признает наличие серьезных ограничений в методе анализа и высокую неточность модели, трудно отрицать, что скорость, с которой ИИ потребляет наборы данных, ужасает.
Потребление данных машинного обучения и тенденции производства данных низкокачественного текста, высококачественного текста и изображений|EpochAI
Когда «человеческие» данные закончатся, обучение ИИ неизбежно будет использовать контент, созданный самим ИИ. Однако такая «внутренняя петля» создаст большие проблемы.
Не так давно исследователи из Кембриджского, Оксфордского, Университета Торонто и других университетов опубликовали статьи, в которых указывалось, что использование контента, созданного ИИ, в качестве обучающего ИИ приведет к краху новой модели. **
Итак, в чем причина сбоя, вызванного «сгенерированными данными» для обучения ИИ? Есть ли помощь?
01 Последствия «инбридинга» ИИ
В статье под названием «Проклятие рекурсии: обучение с помощью сгенерированных данных заставляет забыть о моделях» исследователи отмечают, что «крах модели» — это вырожденный процесс моделей на протяжении нескольких поколений**.
Данные, сгенерированные моделями предыдущего поколения, загрязнят модели следующего поколения.После нескольких поколений «наследования» моделей они будут неправильно воспринимать мир.
Схематическая диаграмма итерации модели|arxiv
Схлопывание модели происходит в два этапа:
При раннем крахе модели модель начнет терять информацию о распределении исходных данных, то есть «чистые человеческие данные»;
На более позднем этапе модель будет запутывать «неправильное восприятие» исходной информации о распространении предыдущих поколений моделей, тем самым искажая реальность.
Исследователи сначала обучили с нуля модели GMM (модель гауссовой смеси) и VAE (переменный автоэнкодер). Взяв в качестве примера GMM, крайняя левая часть рисунка ниже представляет собой нормальное распределение исходных данных.
Как видите, модель изначально очень хорошо соответствует данным. К 50-й итерации базовое распределение данных стало восприниматься неправильно. Когда итерация достигает 2000 раз, модель сошлась к очень маленькой точке, что означает, что модель начинает стабильно выдавать неверные ответы.
Примеры данных подбора GMM на итерациях 0, 50, 100, 150, 200, 350, 2000|arxiv
Чтобы проверить влияние предварительного обучения на экспериментальные результаты, исследователи провели эксперименты с 125-миллионным параметром LLM (Large Language Model) OPT-125m, разработанным Meta, Набор данных взят из wikitext2 из Википедии.
В отличие от небольших моделей, таких как GMM и VAE, стоимость обучения LLM с нуля очень высока, поэтому все они проходят предварительное обучение. Результаты эксперимента следующие:
Исходные данные: По словам Пойнтца Райта, некоторые работы до 1360 года обычно выполнялись мастером-каменщиком и небольшой командой странствующих каменщиков, дополненных местными приходскими рабочими. Но другие авторы отрицают эту модель, предполагая вместо этого, что главный архитектор спроектировал шпиль приходской церкви в английском вертикальном стиле.
Результат: Поколение 0: Возрождение зданий, таких как Собор Святого Иоанна в Лондоне. Самое раннее сохранившееся здание Вертикального Возрождения относится к церкви Богоматери Гернси 18-го века, которая была построена в конце 19-го века. Есть два типа вертикальных церквей: Церкви 1-го поколения: здания, такие как базилика Святого Петра в Риме или базилика Святого Петра в Буэнос-Айресе. Нет никаких доказательств того, что эти здания были построены во время правления папы Иннокентия III, но возможно, что они были построены во время правления его преемника, папы Иннокентия. Поколение 7: Британская архитектура. В интервью The New York Times Райт сказал: «Я не думаю, что есть что-то плохое в том, что я могу делать то, что хочу. Это просто не работает для меня». если вы можете заявить, что это весело, 9-е поколение: архитектура. Кроме того, что это самый большой черный@-@хвост, белый@-@хвост, синий@-@хвост, красный@-@хвост, желтый@- одна из мест обитания
Видно, что к моменту выхода модели 9-го поколения содержание вывода стало совершенно непонятным.
Илья Шумайлов, один из авторов статьи, сказал, что со временем ошибки в сгенерированных ИИ данных накапливаются, и основные модели, обученные на этих данных, вырабатывают еще более искаженное представление о реальности.
02 Почему модель вылетает?
Основная причина «краха модели» заключается в том, что ИИ не является настоящим интеллектом.За его способностью аппроксимировать «интеллект» на самом деле стоит статистический метод, основанный на большом количестве данных.
По сути, все алгоритмы машинного обучения без присмотра следуют простой схеме: По ряду данных обучайте модель, которая может описывать законы этих данных.
В этом процессе данные с более высокой вероятностью в обучающей выборке с большей вероятностью будут оценены моделью, а данные с более низкой вероятностью будут недооценены моделью.
Например, предположим, что нам нужно записать результаты 100 бросков костей, чтобы вычислить вероятность каждой грани. Теоретически вероятность появления каждого лица одинакова. В реальной жизни из-за небольшого размера выборки случаев 3 и 4 может быть больше. Но для модели данные, которые она изучает, заключаются в том, что 3 и 4 имеют более высокую вероятность появления, поэтому она имеет тенденцию генерировать больше результатов 3 и 4.
Другой вторичной причиной является ошибка аппроксимации функции. Это также легко понять, потому что реальные функции часто очень сложны.В практических приложениях часто используются упрощенные функции для аппроксимации реальных функций, что приводит к ошибкам.
03 Вам действительно не повезло?
Волноваться!
Итак, при наличии все меньше и меньше человеческих данных, неужели нет шансов на обучение ИИ?
Нет, есть еще способы решить проблему исчерпания данных для обучения ИИ:
Изоляция данных
По мере того, как ИИ становится все более и более мощным, все больше и больше людей начинают использовать ИИ, чтобы помочь себе в своей работе, и AIGC в Интернете стремительно растет, и становится все труднее найти «чистые наборы данных о людях».
Дафна Ипполито, старший научный сотрудник Google Brain, исследовательского отдела глубокого обучения Google, сказала, что в будущем будет все труднее находить высококачественные гарантированные обучающие данные без искусственного интеллекта.
Это похоже на предка человека, страдающего генетическим заболеванием высокого риска, но обладающего чрезвычайно сильной репродуктивной способностью. За короткий промежуток времени он размножил своих потомков в каждом уголке земли. Затем в какой-то момент вспыхивает генетическое заболевание, и все человечество вымирает.
Одним из подходов, предложенных исследовательской группой для решения проблемы «краха модели», является «преимущество первопроходца», то есть сохранение доступа к чистым искусственно сгенерированным источникам данных, отделяющее от него AIGC.
В то же время для этого требуется, чтобы многие сообщества и компании объединили свои усилия, чтобы защитить данные человека от загрязнения AIGC.
Тем не менее, нехватка человеческих данных означает, что для этого есть прибыльные возможности, и некоторые компании уже делают это. Reddit заявил, что это значительно повысит стоимость доступа к его API. Руководители компании заявили, что изменения были (частично) ответом на кражу данных компаниями, занимающимися искусственным интеллектом. «База данных Reddit действительно ценна, — сказал The New York Times основатель и генеральный директор Reddit Стив Хаффман, — но нам не нужно бесплатно раздавать всю эту ценность некоторым из крупнейших компаний мира».
Синтетические данные
В то же время, профессионально основанный на данных, сгенерированных ИИ, он уже эффективно используется в обучении ИИ. По мнению некоторых практиков, теперь беспокойство о том, что данные, сгенерированные ИИ, приведут к краху модели, является чем-то вроде «заголовка».
Се Ченгуанг, основатель Light Wheel Intelligence, рассказал Geek Park, что, как упоминалось в зарубежных статьях, использование данных, сгенерированных ИИ, для обучения моделей ИИ приводит к сбоям, а экспериментальные методы необъективны. Даже человеческие данные можно разделить на пригодные для использования и непригодные для использования, и эксперименты, упомянутые в документе, непосредственно используются для обучения без дискриминации, а не предназначены для обучения в качестве данных после проверки качества и оценки эффективности, Очевидно, что существует вероятность сбоя модели.
Се Чен сообщил, что на самом деле OpenAI GPT-4 использует для обучения большое количество данных, созданных моделью предыдущего поколения GPT-3.5. Сэм Альтман также заявил в недавнем интервью, что синтетические данные — это эффективный способ решить проблему нехватки больших модельных данных. Ключевым моментом является то, что существует полная система, позволяющая различать, какие данные, сгенерированные ИИ, можно использовать, а какие нет, и постоянно давать обратную связь на основе эффекта обученной модели — это один из уникальных приемов OpenAI, которым можно гордиться. AI arena **, эта компания не так проста, как собрать больше денег и купить больше вычислительной мощности.
В индустрии ИИ использование синтетических данных для обучения моделей уже стало консенсусом, который еще не известен посторонним.
Се Чен, ранее отвечавший за моделирование автономного вождения в таких компаниях, как Nvidia, Cruise и Weilai, считает, что, судя по текущему объему данных для обучения различных крупномасштабных моделей, в ближайшие 2-3 года человек данные действительно могут быть «исчерпаны», однако на основе специализированных систем и методов синтетические данные, генерируемые ИИ, станут неиссякаемым источником эффективных данных**. И сценарии использования не ограничиваются текстом и картинками: объем синтетических данных, необходимых для таких отраслей, как автономное вождение и робототехника, будет намного больше, чем объем текстовых данных.
Три элемента ИИ - это данные, вычислительная мощность и алгоритмы.Источник данных установлен, и большая модель алгоритма постоянно развивается.Единственное оставшееся давление вычислительной мощности, я считаю, что основатель Nvidia Хуан Ренсюнь может решить эту проблему. плавно.
Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Человеческие данные будут израсходованы OpenAI, что дальше?
«Больше, чем больше» (Bigger than big) — это реклама Apple того года, которая используется для описания самой горячей модели большого языка в области ИИ. Кажется, в этом нет ничего плохого.
От миллиардов до десятков миллиардов и сотен миллиардов параметры большой модели постепенно становились дикими, соответственно объем данных, используемых для обучения ИИ, также увеличивался в геометрической прогрессии.
Взяв в качестве примера GPT OpenAI, с GPT-1 до GPT-3, его набор обучающих данных вырос в геометрической прогрессии с 4,5 ГБ до 570 ГБ.
На конференции Data+AI, проведенной Databricks недавно, Марк Андриссен, основатель a16z, полагал, что массивные данные, накопленные Интернетом за последние два десятилетия, являются важной причиной подъема этой новой волны ИИ, потому что первый предоставляет последнему полезные обучающие данные.
Однако, даже если пользователи сети оставят в Интернете много полезных или бесполезных данных, для обучения ИИ этих данных может не хватить.
Документ, опубликованный Epoch, организацией, занимающейся исследованиями и прогнозированием искусственного интеллекта, прогнозирует, что высококачественные текстовые данные будут исчерпаны в период с 2023 по 2027 год.
Хотя исследовательская группа признает наличие серьезных ограничений в методе анализа и высокую неточность модели, трудно отрицать, что скорость, с которой ИИ потребляет наборы данных, ужасает.
Когда «человеческие» данные закончатся, обучение ИИ неизбежно будет использовать контент, созданный самим ИИ. Однако такая «внутренняя петля» создаст большие проблемы.
Не так давно исследователи из Кембриджского, Оксфордского, Университета Торонто и других университетов опубликовали статьи, в которых указывалось, что использование контента, созданного ИИ, в качестве обучающего ИИ приведет к краху новой модели. **
Итак, в чем причина сбоя, вызванного «сгенерированными данными» для обучения ИИ? Есть ли помощь?
01 Последствия «инбридинга» ИИ
В статье под названием «Проклятие рекурсии: обучение с помощью сгенерированных данных заставляет забыть о моделях» исследователи отмечают, что «крах модели» — это вырожденный процесс моделей на протяжении нескольких поколений**.
Данные, сгенерированные моделями предыдущего поколения, загрязнят модели следующего поколения.После нескольких поколений «наследования» моделей они будут неправильно воспринимать мир.
Схлопывание модели происходит в два этапа:
Исследователи сначала обучили с нуля модели GMM (модель гауссовой смеси) и VAE (переменный автоэнкодер). Взяв в качестве примера GMM, крайняя левая часть рисунка ниже представляет собой нормальное распределение исходных данных.
Как видите, модель изначально очень хорошо соответствует данным. К 50-й итерации базовое распределение данных стало восприниматься неправильно. Когда итерация достигает 2000 раз, модель сошлась к очень маленькой точке, что означает, что модель начинает стабильно выдавать неверные ответы.
Чтобы проверить влияние предварительного обучения на экспериментальные результаты, исследователи провели эксперименты с 125-миллионным параметром LLM (Large Language Model) OPT-125m, разработанным Meta, Набор данных взят из wikitext2 из Википедии.
В отличие от небольших моделей, таких как GMM и VAE, стоимость обучения LLM с нуля очень высока, поэтому все они проходят предварительное обучение. Результаты эксперимента следующие:
Видно, что к моменту выхода модели 9-го поколения содержание вывода стало совершенно непонятным.
Илья Шумайлов, один из авторов статьи, сказал, что со временем ошибки в сгенерированных ИИ данных накапливаются, и основные модели, обученные на этих данных, вырабатывают еще более искаженное представление о реальности.
02 Почему модель вылетает?
Основная причина «краха модели» заключается в том, что ИИ не является настоящим интеллектом.За его способностью аппроксимировать «интеллект» на самом деле стоит статистический метод, основанный на большом количестве данных.
По сути, все алгоритмы машинного обучения без присмотра следуют простой схеме: По ряду данных обучайте модель, которая может описывать законы этих данных.
В этом процессе данные с более высокой вероятностью в обучающей выборке с большей вероятностью будут оценены моделью, а данные с более низкой вероятностью будут недооценены моделью.
Например, предположим, что нам нужно записать результаты 100 бросков костей, чтобы вычислить вероятность каждой грани. Теоретически вероятность появления каждого лица одинакова. В реальной жизни из-за небольшого размера выборки случаев 3 и 4 может быть больше. Но для модели данные, которые она изучает, заключаются в том, что 3 и 4 имеют более высокую вероятность появления, поэтому она имеет тенденцию генерировать больше результатов 3 и 4.
Другой вторичной причиной является ошибка аппроксимации функции. Это также легко понять, потому что реальные функции часто очень сложны.В практических приложениях часто используются упрощенные функции для аппроксимации реальных функций, что приводит к ошибкам.
03 Вам действительно не повезло?
Волноваться!
Итак, при наличии все меньше и меньше человеческих данных, неужели нет шансов на обучение ИИ?
Нет, есть еще способы решить проблему исчерпания данных для обучения ИИ:
Изоляция данных
По мере того, как ИИ становится все более и более мощным, все больше и больше людей начинают использовать ИИ, чтобы помочь себе в своей работе, и AIGC в Интернете стремительно растет, и становится все труднее найти «чистые наборы данных о людях».
Дафна Ипполито, старший научный сотрудник Google Brain, исследовательского отдела глубокого обучения Google, сказала, что в будущем будет все труднее находить высококачественные гарантированные обучающие данные без искусственного интеллекта.
Это похоже на предка человека, страдающего генетическим заболеванием высокого риска, но обладающего чрезвычайно сильной репродуктивной способностью. За короткий промежуток времени он размножил своих потомков в каждом уголке земли. Затем в какой-то момент вспыхивает генетическое заболевание, и все человечество вымирает.
Одним из подходов, предложенных исследовательской группой для решения проблемы «краха модели», является «преимущество первопроходца», то есть сохранение доступа к чистым искусственно сгенерированным источникам данных, отделяющее от него AIGC.
В то же время для этого требуется, чтобы многие сообщества и компании объединили свои усилия, чтобы защитить данные человека от загрязнения AIGC.
Тем не менее, нехватка человеческих данных означает, что для этого есть прибыльные возможности, и некоторые компании уже делают это. Reddit заявил, что это значительно повысит стоимость доступа к его API. Руководители компании заявили, что изменения были (частично) ответом на кражу данных компаниями, занимающимися искусственным интеллектом. «База данных Reddit действительно ценна, — сказал The New York Times основатель и генеральный директор Reddit Стив Хаффман, — но нам не нужно бесплатно раздавать всю эту ценность некоторым из крупнейших компаний мира».
Синтетические данные
В то же время, профессионально основанный на данных, сгенерированных ИИ, он уже эффективно используется в обучении ИИ. По мнению некоторых практиков, теперь беспокойство о том, что данные, сгенерированные ИИ, приведут к краху модели, является чем-то вроде «заголовка».
Се Ченгуанг, основатель Light Wheel Intelligence, рассказал Geek Park, что, как упоминалось в зарубежных статьях, использование данных, сгенерированных ИИ, для обучения моделей ИИ приводит к сбоям, а экспериментальные методы необъективны. Даже человеческие данные можно разделить на пригодные для использования и непригодные для использования, и эксперименты, упомянутые в документе, непосредственно используются для обучения без дискриминации, а не предназначены для обучения в качестве данных после проверки качества и оценки эффективности, Очевидно, что существует вероятность сбоя модели.
Се Чен сообщил, что на самом деле OpenAI GPT-4 использует для обучения большое количество данных, созданных моделью предыдущего поколения GPT-3.5. Сэм Альтман также заявил в недавнем интервью, что синтетические данные — это эффективный способ решить проблему нехватки больших модельных данных. Ключевым моментом является то, что существует полная система, позволяющая различать, какие данные, сгенерированные ИИ, можно использовать, а какие нет, и постоянно давать обратную связь на основе эффекта обученной модели — это один из уникальных приемов OpenAI, которым можно гордиться. AI arena **, эта компания не так проста, как собрать больше денег и купить больше вычислительной мощности.
В индустрии ИИ использование синтетических данных для обучения моделей уже стало консенсусом, который еще не известен посторонним.
Се Чен, ранее отвечавший за моделирование автономного вождения в таких компаниях, как Nvidia, Cruise и Weilai, считает, что, судя по текущему объему данных для обучения различных крупномасштабных моделей, в ближайшие 2-3 года человек данные действительно могут быть «исчерпаны», однако на основе специализированных систем и методов синтетические данные, генерируемые ИИ, станут неиссякаемым источником эффективных данных**. И сценарии использования не ограничиваются текстом и картинками: объем синтетических данных, необходимых для таких отраслей, как автономное вождение и робототехника, будет намного больше, чем объем текстовых данных.
Три элемента ИИ - это данные, вычислительная мощность и алгоритмы.Источник данных установлен, и большая модель алгоритма постоянно развивается.Единственное оставшееся давление вычислительной мощности, я считаю, что основатель Nvidia Хуан Ренсюнь может решить эту проблему. плавно.