Это было обычное утро несколько дней назад. Ежедневно возил кирпичи, и вдруг вся информация посыпалась: "Спешите, конструкция модели ГПТ-4 просочилась, и отечественная крупная модель снова ее превзойдет!"
Включаешь соцсети и видишь, ладно, тебе не нужно говорить по-английски, а отечественные люди уже вышли в интернет, меня реально убеждает такая скорость. Однако, когда я пошел, чтобы проследить источник и посмотреть, насколько достоверной была информация, я вдруг почувствовал, что вышел из круга технологий из круга развлечений.
Ввиду нынешнего состояния Интернета, где «фейковые новости» летают по всему небу, первое, что я сделал, увидев эту новость, — проследил источник.
▍Входы и выходы
Отправной точкой для моего сбора информации была цепочка твитов, опубликованных на Hacker News, извлеченных с помощью Thread Reader (архивировано 11 июля). Нажмите, чтобы открыть его, и есть два предложения:
Детали GPT-4 просочились.
Это закончилось.
Уровень этой головной вечеринки не уступает китайскому.
Как мы все знаем, OpenAI нарушила свое обязательство по открытости при выпуске GPT-4, не раскрывая веса или технических деталей, и подверглась широкой критике со стороны отрасли. Вероятно, поэтому блогер использует стебель «Все кончено», чтобы создать драматический эффект «переворота сюжета».
Еще раз взглянув на содержание, вы увидите, что OpenAI хранит молчание о деталях обучения GPT-4. Было много предположений по поводу этой информации, но чиновник ее не раскрыл.Когда она упоминается, то очень расплывчато (исходный текст относительно неясен, используется много сокращений и жаргона, некоторые будут объяснены позже) :
Количество параметров модели: 1,8 триллиона, примерно в 10 раз больше, чем GPT-3,5 (175 миллиардов).
Глубина слоя модели: 120 слоев.
Архитектура модели: Смешанная экспертная модель (MoE, объяснение см. ниже), всего 16 «экспертов», каждый со 111 миллиардами параметров. При каждом прямом проходе логического вывода (создание вывода токена) выбираются два эксперта.
Обучающие данные: всего 13 трлн (13 триллионов) токенов данных. Текстовые данные переобучаются 2 раза, а кодовые данные переобучаются 4 раза. Эти данные на самом деле очень важны и будут подробно проанализированы позже.
Параллельная стратегия: 8-сторонний тензорный параллелизм + 16-сторонний конвейерный параллелизм. Несколько кластеров графических процессоров, расположенных в разных центрах обработки данных, обучаются одновременно, каждый кластер имеет 128 графических процессоров.
Контекст перед тренировкой: 8K. Версия 32K доработана с 8K.
Стоимость обучения: Непрерывное обучение в течение 90–100 дней примерно на 25 000 A100 со скоростью примерно 2,15–25 флопс. При цене 1 доллар за час A100 это будет стоить около 63 миллионов долларов. (Можно сделать сегодня примерно за 55 дней, используя около 8192 H100 при ориентировочной стоимости в 21,5 миллиона долларов.)
Вопрос в том, как появилась эта информация и насколько она достоверна?
По лозе прикоснуться к «дыне», и я нашел издателя этой серии твитов — Ям Пелег.
Хотя я не следил за аккаунтом этого старика, я читал его предыдущие статьи. Он генеральный директор "стартап-компании" в Израиле (но она существует уже 15 лет, и, может быть, не совсем уместно называть ее стартап-компанией), у меня богатый инженерный опыт и понимание больших языковых моделей. для обратного взлома GPT-4 и интерпретатора кода ChatGPT. В июне этого года, когда члены OpenAI посетили Израиль, Пелег также поехал поучаствовать в обсуждении и общении, а также сфотографировался с генеральным директором Сэмом Альтманом.
Читая статью этого старика, я не могу не думать о Томе, студенческом офицере связи, которого я встретил в Израиле, который может заставить вашу кровь вскипеть, если вы что-нибудь скажете.
Слева направо: Сэм Альтман, Ям Пелег (Источник: @Yampeleg)
Учитывая, что этот старик занимается исследованием OpenAI и знает много людей внутри OpenAI, поэтому, если он получит какую-то внутреннюю информацию, я думаю, что доверие на самом деле довольно высокое.
Но когда я собирался ночью внимательно изучить его посты, то вдруг обнаружил, что он удалил все предыдущие посты. Сначала я думал, что меня прикрывает OpenAI, но я был рад, что сохранил файл. Присмотревшись повнимательнее, я обнаружил, что это произошло не потому, что OpenAI запросил удаление, а потому, что он также сообщил об этом из колонки оплаты и на него пожаловались на нарушение авторских прав.
Первоначальным источником этого является столбец Substack под названием SemiAnalysis, Ранее они опубликовали статью под названием GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE за платным доступом.
Проверив его, я узнал:
SemiAnalysis — специализированная исследовательская и консалтинговая фирма в области полупроводников, специализирующаяся на цепочке поставок полупроводников от химического сырья до производства и разработки интеллектуальной собственности и стратегии. Компания была основана Диланом Пателем, аналитиком и инженером с многолетним опытом работы в полупроводниковой промышленности. Патель занимал должности от инженера-конструктора до менеджера по маркетингу в Intel, AMD, Qualcomm и других компаниях.
В команду SemiAnalysis также входят профессиональные аналитики и консультанты по полупроводникам. Каждый из них имеет разные области знаний, такие как искусственный интеллект, облачные вычисления, сети, системы хранения данных, электромобили, радиочастоты, Интернет вещей и т. д. Они предоставляют клиентам всесторонний анализ цепочки поставок полупроводников и консультационные услуги от химического сырья до фабрик для разработки интеллектуальной собственности и стратегии.
Ранее SemiAnalysis также опубликовал статью, раскрывающую, что инженеры Google заявили во внутренних коммуникациях, что «We Have No Moat, And Does OpenAI» (У нас нет Moat, And Does OpenAI), что вызвало много дискуссий. Позже эта статья подтвердилась.
С этой точки зрения у брата Дилана Патель действительно могут быть некоторые инсайдеры, и достоверность информации, которую они предоставили, все же должна быть приемлемой.
Что касается того, почему они так стремились заставить брата Яма удалить твиты — потому что эта «инсайдерская информация» действительно ценна, а подписка на платные статьи SemiAnalysis стоит 500 долларов в год. Подписка брата Яма на элитную версию стоит 1000 долларов.
▍Анализ карт
Судя по этой подноготной, мое мнение таково, что этот слух все же имеет определенную степень достоверности. Ниже приведены некоторые из моих анализов, основанных на этой информации, которые я предлагаю для обсуждения.
Конкуренция частных моделей будет сосредоточена на параллелизме
Согласно этому слуху, если вы хотите обучить конкурента GPT-4, по оценкам, используя около 8 192 чипов H100 по цене 2 доллара в час, предварительная подготовка может быть завершена примерно за 55 дней, а стоимость составляет около 21,5 миллиона долларов (150 миллионов юаней).
Эта стоимость действительно не слишком велика для нынешнего турбулентного рынка LLM. Нынешние крупные отечественные игроки запросто могут провести несколько тренировок. Так что, если честно, в этот раз может и не хвастаться бенчмарком GPT-4 через полгода с модельными возможностями (по крайней мере шкалой параметров).
Если стоимость обучения не является проблемой, будут ли проблемой данные для обучения? Я тоже так не думаю. Ходят слухи, что обучающие данные GPT-4 содержат в общей сложности 13T (13 триллионов) токенов. Для сравнения, в общедоступных наборах данных CommonCrawl и RefinedWeb есть токены 5T. Ходят слухи, что остальные поступают из Twitter, Reddit и YouTube; в некоторых судебных процессах также утверждается, что OpenAI использовал пиратские данные из «теневых библиотек», таких как LibGen и SciHub.
Поэтому я думаю, что масштаб этих данных не является недостижимым.Кроме того, в самой стране накоплено много китайских ресурсов, поэтому данные для обучения не должны быть большой проблемой.
Для других вопросов, таких как предварительное обучение, тонкая настройка и китайское кодирование и декодирование, на самом деле технических секретов не так уж много, и методы относительно открыты. При наличии достаточных ресурсов она должна быть решена в течение полугода.
Итак, последний оставшийся порог — параллелизм. На самом деле, в этом слухе было использовано огромное количество места для представления соответствующего контента, а профессиональный уровень все еще относительно высок.Я могу дать здесь лишь некоторые поверхностные пояснения.
Грубо говоря, так называемая параллельная проблема заключается в том, что у вас есть большая модель, как дать ей пользоваться одновременно как можно большему количеству людей с наименьшими затратами. Это связано с множеством вопросов профессионального проектирования.В случае с фиксированными вычислительными ресурсами, как распределить вычислительные ресурсы по разным ссылкам? Как справиться с параллелизмом? Как управлять памятью?
Возможность параллельной обработки напрямую определяет пользовательский опыт. В настоящее время ChatGPT и API на основе GPT-3.5 работают относительно гладко, что является очень мощным. Здесь все могут сказать, что другие отечественные LLM или испытанные мной Клоды быстрее GPT-3.5. Однако все не учитывали масштабы использования. GPT-3.5 имеет такую производительность при таком высоком уровне параллелизма. Если другие производители не смогут сравниться с возможностями OpenAI, они не смогут захватить рынок OpenAI.
Таким образом, параллельные возможности могут стать одним из ключевых моментов конкуренции для различных конкурентов OpenAI.
GPT-5 фокусируется на мультимодальности
Как упоминалось ранее, ходят слухи, что GPT-4 представляет собой модель «смеси экспертов» (MoE), состоящую из 16 экспертных моделей. Вот краткое объяснение того, что такое «смешивание экспертов», которое относится к разделению «проблемы» пользователя на несколько подзадач, и каждая подзадача передается меньшей модели (то есть «эксперту») для решить, а затем через "Модель маршрутизации" выбирается и объединяется, а затем выводится пользователю.
Далее ходят слухи, что каждый «эксперт» GPT-4 имеет 111 миллиардов параметров, эквивалентных GPT-3 (это согласуется с параметрами GPT-4, которые, как сказал ранее Сэм Альтман, даже меньше, чем GPT-3.5), из которых есть 55 миллиардов параметров являются общими. Каждый прямой проход логического вывода (генерация вывода токена) использует двух «экспертов», эффективно потребляющих около 280 миллиардов параметров. Это число значительно меньше, чем число, необходимое без MoE, и оно также похоже на прогнозы многих ученых на ранней стадии.
Стоит отметить, что, по слухам, текстовые и кодовые данные, использованные для обучения GPT-4, используются повторно. В сочетании с выбором использования фреймворка MoE лично я предполагаю: либо качественные текстовые данные, которые можно легко получить в настоящее время, близки к исчерпанию, либо улучшение производительности LLM за счет неограниченного увеличения объема данных уже очень ограниченное.
Тем не менее, независимо от ситуации, если GPT-5 хочет совершить большой прорыв в производительности, он должен быть в состоянии в полной мере использовать существующий большой объем видео, изображений и аудиоданных, другими словами, это « мультимодальная» модель.
Проблема в том, что, согласно этому слуху, текущая визуальная мультимодальность OpenAI не может предложить многого. Это независимый визуальный кодировщик, который использует текст в качестве входных данных для предварительного обучения, а затем использует около 2 триллионов токенов для тонкой настройки. Этот метод обучения, очевидно, не может в полной мере использовать существующие видео, изображения и аудиоданные.
Поэтому в OpenAI всегда подчеркивали, что GPT-5 не обучался, и вероятность верна. Перед обучением GPT-5 им нужно было найти лучшую архитектуру мультимодальной модели, чтобы модель могла в полной мере использовать аудио- и видеоданные. Только имея возможность использовать эти высококачественные обучающие данные, GPT-5 сможет добиться достаточного повышения пропускной способности. (В то же время, если GPT-5 действительно сможет в полной мере использовать эти аудио- и видеоданные, то, будь то AGI или недавно предложенное OpenAI «тело сверхразума», кажется, что это не так далеко.)
OpenAI мог преднамеренно распространить этот слух
Этот вывод является сугубо личным предположением. Фактов недостаточно, просто взгляните.
Насколько я понимаю, OpenAI хорошо понимает, что ров GPT-4 не глубок; в сегодняшнем помешательстве конкурентам нетрудно догнать. И как проанализировано выше, их текущая мультимодальная крупномасштабная модельная структура не должна быть доработана.В это время, если новые игроки придут и прорвутся из мультимодальности, вероятность того, что OpenAI обойдет кривую, также очень высока. .
Итак, это может быть план OpenAI по замедлению войны — я раскрою вам некоторую информацию о GPT-4, пусть главные игроки сначала проведут работу по реконструкции GPT-4, и пройдут путь, по которому уже прошел OpenAI.
Если в ходе этого процесса OpenAI заложит основу для обучения GPT-5 и завершит предварительное исследование мультимодальной большой модели, даже если GPT-4 превзойдет другие большие языковые модели, OpenAI не будет паниковать. Лично я думаю, что мультимодальность, скорее всего, станет последним поколением человеческого участия, и ОИИ может стать главной силой в будущей разработке и эволюции моделей. Другими словами, если вы выиграете на этот раз, вы можете выиграть до конца.
Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Опубликованы подробности обучения OpenAI GPT-4 «не говоря уже о смерти», это моя интерпретация
Оригинальный источник: меньшинство
Это было обычное утро несколько дней назад. Ежедневно возил кирпичи, и вдруг вся информация посыпалась: "Спешите, конструкция модели ГПТ-4 просочилась, и отечественная крупная модель снова ее превзойдет!"
Включаешь соцсети и видишь, ладно, тебе не нужно говорить по-английски, а отечественные люди уже вышли в интернет, меня реально убеждает такая скорость. Однако, когда я пошел, чтобы проследить источник и посмотреть, насколько достоверной была информация, я вдруг почувствовал, что вышел из круга технологий из круга развлечений.
Ввиду нынешнего состояния Интернета, где «фейковые новости» летают по всему небу, первое, что я сделал, увидев эту новость, — проследил источник.
▍Входы и выходы
Отправной точкой для моего сбора информации была цепочка твитов, опубликованных на Hacker News, извлеченных с помощью Thread Reader (архивировано 11 июля). Нажмите, чтобы открыть его, и есть два предложения:
Уровень этой головной вечеринки не уступает китайскому.
Как мы все знаем, OpenAI нарушила свое обязательство по открытости при выпуске GPT-4, не раскрывая веса или технических деталей, и подверглась широкой критике со стороны отрасли. Вероятно, поэтому блогер использует стебель «Все кончено», чтобы создать драматический эффект «переворота сюжета».
Еще раз взглянув на содержание, вы увидите, что OpenAI хранит молчание о деталях обучения GPT-4. Было много предположений по поводу этой информации, но чиновник ее не раскрыл.Когда она упоминается, то очень расплывчато (исходный текст относительно неясен, используется много сокращений и жаргона, некоторые будут объяснены позже) :
Вопрос в том, как появилась эта информация и насколько она достоверна?
По лозе прикоснуться к «дыне», и я нашел издателя этой серии твитов — Ям Пелег.
Читая статью этого старика, я не могу не думать о Томе, студенческом офицере связи, которого я встретил в Израиле, который может заставить вашу кровь вскипеть, если вы что-нибудь скажете.
Учитывая, что этот старик занимается исследованием OpenAI и знает много людей внутри OpenAI, поэтому, если он получит какую-то внутреннюю информацию, я думаю, что доверие на самом деле довольно высокое.
Но когда я собирался ночью внимательно изучить его посты, то вдруг обнаружил, что он удалил все предыдущие посты. Сначала я думал, что меня прикрывает OpenAI, но я был рад, что сохранил файл. Присмотревшись повнимательнее, я обнаружил, что это произошло не потому, что OpenAI запросил удаление, а потому, что он также сообщил об этом из колонки оплаты и на него пожаловались на нарушение авторских прав.
Проверив его, я узнал:
Ранее SemiAnalysis также опубликовал статью, раскрывающую, что инженеры Google заявили во внутренних коммуникациях, что «We Have No Moat, And Does OpenAI» (У нас нет Moat, And Does OpenAI), что вызвало много дискуссий. Позже эта статья подтвердилась.
С этой точки зрения у брата Дилана Патель действительно могут быть некоторые инсайдеры, и достоверность информации, которую они предоставили, все же должна быть приемлемой.
Что касается того, почему они так стремились заставить брата Яма удалить твиты — потому что эта «инсайдерская информация» действительно ценна, а подписка на платные статьи SemiAnalysis стоит 500 долларов в год. Подписка брата Яма на элитную версию стоит 1000 долларов.
▍Анализ карт
Судя по этой подноготной, мое мнение таково, что этот слух все же имеет определенную степень достоверности. Ниже приведены некоторые из моих анализов, основанных на этой информации, которые я предлагаю для обсуждения.
Конкуренция частных моделей будет сосредоточена на параллелизме
Согласно этому слуху, если вы хотите обучить конкурента GPT-4, по оценкам, используя около 8 192 чипов H100 по цене 2 доллара в час, предварительная подготовка может быть завершена примерно за 55 дней, а стоимость составляет около 21,5 миллиона долларов (150 миллионов юаней).
Эта стоимость действительно не слишком велика для нынешнего турбулентного рынка LLM. Нынешние крупные отечественные игроки запросто могут провести несколько тренировок. Так что, если честно, в этот раз может и не хвастаться бенчмарком GPT-4 через полгода с модельными возможностями (по крайней мере шкалой параметров).
Если стоимость обучения не является проблемой, будут ли проблемой данные для обучения? Я тоже так не думаю. Ходят слухи, что обучающие данные GPT-4 содержат в общей сложности 13T (13 триллионов) токенов. Для сравнения, в общедоступных наборах данных CommonCrawl и RefinedWeb есть токены 5T. Ходят слухи, что остальные поступают из Twitter, Reddit и YouTube; в некоторых судебных процессах также утверждается, что OpenAI использовал пиратские данные из «теневых библиотек», таких как LibGen и SciHub.
Поэтому я думаю, что масштаб этих данных не является недостижимым.Кроме того, в самой стране накоплено много китайских ресурсов, поэтому данные для обучения не должны быть большой проблемой.
Для других вопросов, таких как предварительное обучение, тонкая настройка и китайское кодирование и декодирование, на самом деле технических секретов не так уж много, и методы относительно открыты. При наличии достаточных ресурсов она должна быть решена в течение полугода.
Итак, последний оставшийся порог — параллелизм. На самом деле, в этом слухе было использовано огромное количество места для представления соответствующего контента, а профессиональный уровень все еще относительно высок.Я могу дать здесь лишь некоторые поверхностные пояснения.
Грубо говоря, так называемая параллельная проблема заключается в том, что у вас есть большая модель, как дать ей пользоваться одновременно как можно большему количеству людей с наименьшими затратами. Это связано с множеством вопросов профессионального проектирования.В случае с фиксированными вычислительными ресурсами, как распределить вычислительные ресурсы по разным ссылкам? Как справиться с параллелизмом? Как управлять памятью?
Возможность параллельной обработки напрямую определяет пользовательский опыт. В настоящее время ChatGPT и API на основе GPT-3.5 работают относительно гладко, что является очень мощным. Здесь все могут сказать, что другие отечественные LLM или испытанные мной Клоды быстрее GPT-3.5. Однако все не учитывали масштабы использования. GPT-3.5 имеет такую производительность при таком высоком уровне параллелизма. Если другие производители не смогут сравниться с возможностями OpenAI, они не смогут захватить рынок OpenAI.
Таким образом, параллельные возможности могут стать одним из ключевых моментов конкуренции для различных конкурентов OpenAI.
GPT-5 фокусируется на мультимодальности
Как упоминалось ранее, ходят слухи, что GPT-4 представляет собой модель «смеси экспертов» (MoE), состоящую из 16 экспертных моделей. Вот краткое объяснение того, что такое «смешивание экспертов», которое относится к разделению «проблемы» пользователя на несколько подзадач, и каждая подзадача передается меньшей модели (то есть «эксперту») для решить, а затем через "Модель маршрутизации" выбирается и объединяется, а затем выводится пользователю.
Далее ходят слухи, что каждый «эксперт» GPT-4 имеет 111 миллиардов параметров, эквивалентных GPT-3 (это согласуется с параметрами GPT-4, которые, как сказал ранее Сэм Альтман, даже меньше, чем GPT-3.5), из которых есть 55 миллиардов параметров являются общими. Каждый прямой проход логического вывода (генерация вывода токена) использует двух «экспертов», эффективно потребляющих около 280 миллиардов параметров. Это число значительно меньше, чем число, необходимое без MoE, и оно также похоже на прогнозы многих ученых на ранней стадии.
Стоит отметить, что, по слухам, текстовые и кодовые данные, использованные для обучения GPT-4, используются повторно. В сочетании с выбором использования фреймворка MoE лично я предполагаю: либо качественные текстовые данные, которые можно легко получить в настоящее время, близки к исчерпанию, либо улучшение производительности LLM за счет неограниченного увеличения объема данных уже очень ограниченное.
Тем не менее, независимо от ситуации, если GPT-5 хочет совершить большой прорыв в производительности, он должен быть в состоянии в полной мере использовать существующий большой объем видео, изображений и аудиоданных, другими словами, это « мультимодальная» модель.
Проблема в том, что, согласно этому слуху, текущая визуальная мультимодальность OpenAI не может предложить многого. Это независимый визуальный кодировщик, который использует текст в качестве входных данных для предварительного обучения, а затем использует около 2 триллионов токенов для тонкой настройки. Этот метод обучения, очевидно, не может в полной мере использовать существующие видео, изображения и аудиоданные.
Поэтому в OpenAI всегда подчеркивали, что GPT-5 не обучался, и вероятность верна. Перед обучением GPT-5 им нужно было найти лучшую архитектуру мультимодальной модели, чтобы модель могла в полной мере использовать аудио- и видеоданные. Только имея возможность использовать эти высококачественные обучающие данные, GPT-5 сможет добиться достаточного повышения пропускной способности. (В то же время, если GPT-5 действительно сможет в полной мере использовать эти аудио- и видеоданные, то, будь то AGI или недавно предложенное OpenAI «тело сверхразума», кажется, что это не так далеко.)
OpenAI мог преднамеренно распространить этот слух
Этот вывод является сугубо личным предположением. Фактов недостаточно, просто взгляните.
Насколько я понимаю, OpenAI хорошо понимает, что ров GPT-4 не глубок; в сегодняшнем помешательстве конкурентам нетрудно догнать. И как проанализировано выше, их текущая мультимодальная крупномасштабная модельная структура не должна быть доработана.В это время, если новые игроки придут и прорвутся из мультимодальности, вероятность того, что OpenAI обойдет кривую, также очень высока. .
Итак, это может быть план OpenAI по замедлению войны — я раскрою вам некоторую информацию о GPT-4, пусть главные игроки сначала проведут работу по реконструкции GPT-4, и пройдут путь, по которому уже прошел OpenAI.
Если в ходе этого процесса OpenAI заложит основу для обучения GPT-5 и завершит предварительное исследование мультимодальной большой модели, даже если GPT-4 превзойдет другие большие языковые модели, OpenAI не будет паниковать. Лично я думаю, что мультимодальность, скорее всего, станет последним поколением человеческого участия, и ОИИ может стать главной силой в будущей разработке и эволюции моделей. Другими словами, если вы выиграете на этот раз, вы можете выиграть до конца.