Був звичайний ранок кілька днів тому. Я щодня перебирав цеглинки, і раптом посипалася всяка інформація: «Поспішайте, структура моделі ГПТ-4 злилася, і велика модель вітчизняного виробництва знову її перевершить!»
Увімкніть соцмережі і подивіться, добре, вам не потрібно говорити англійською, а домашні люди вже вийшли в Інтернет, я дуже переконаний у цій швидкості. Однак, коли я пішов відстежити джерело та перевірити, наскільки достовірна інформація, я раптом відчув, що вийшов із кола технологій із кола розваг.
Зважаючи на поточний стан Інтернету, де «фейкові новини» літають по всьому небу, перше, що я зробив, побачивши цю новину, це відстежити джерело.
▍Входи та виходи
Відправною точкою для мого видобутку інформації був ланцюжок твітів, опублікованих на Hacker News, отриманих через Thread Reader (архівовано 11 липня). Натисніть, щоб відкрити його, і ви побачите два речення:
Деталі GPT-4 просочуються.
Це кінець.
Рівень цієї хедлайнерської вечірки не поступається китайському.
Як ми всі знаємо, OpenAI порушив своє зобов’язання відкрити під час випуску GPT-4, не розкрив жодної ваги чи технічних деталей і був широко розкритикований галуззю. Можливо, саме тому блогер використовує стебло It is over, щоб відобразити драматичний ефект «розвороту сюжету».
Дивлячись ще раз на вміст, це малослівні деталі навчання GPT-4 OpenAI. Було багато спекуляцій щодо цієї інформації, але чиновник не розголошував її. Коли вона згадується, вона дуже розпливчаста (оригінальний текст є відносно незрозумілим, використовує багато скорочень та жаргону, деякі будуть пояснені пізніше) :
Кількість параметрів моделі: 1,8 трильйона, приблизно в 10 разів більше, ніж GPT-3,5 (175 мільярдів).
Глибина шару моделі: 120 шарів.
Архітектура моделі: змішана експертна модель (MoE, пояснення див. нижче), загалом 16 «експертів», кожен із 111 мільярдами параметрів. При кожному прямому проходженні логічного висновку (генерації вихідного маркера) вибираються два експерта.
Навчальні дані: загалом 13 тис. (13 трильйонів) даних токенів. Текстові дані перенавчаються 2 рази, а дані коду – 4 рази. Ці дані насправді дуже важливі і будуть детально проаналізовані пізніше.
Паралельна стратегія: 8-сторонній тензорний паралелізм + 16-сторонній конвеєрний паралелізм. Існує кілька кластерів GPU, розташованих у різних центрах обробки даних, які навчаються одночасно, кожен кластер має 128 GPU.
Контекст перед навчанням: 8K. Версія 32K налаштована з 8K.
Вартість навчання: безперервне навчання протягом 90–100 днів на приблизно 25 000 A100 зі швидкістю приблизно 2,15e25 флопс. При 1 доларі за годину A100 це обійдеться приблизно в 63 мільйони доларів. (Це можна зробити сьогодні приблизно за 55 днів, використовуючи приблизно 8192 H100 за орієнтовною вартістю 21,5 мільйона доларів США.)
Питання в тому, як з’явилася ця інформація і чи вона достовірна?
Слідуйте за виноградною лозою, щоб торкнутися «дині», і я знайшов видавця цієї серії твітів - Яма Пелега.
Хоча я не слідкував за розповідями цього старого, я читав його попередні статті. Він є генеральним директором «стартап-компанії» в Ізраїлі (але вона була створена протягом 15 років, і її, можливо, недоречно називати стартап-компанією); я маю багатий інженерний досвід і розумію великі мовні моделі. Я пробував для зворотного злому GPT-4 та інтерпретатора коду ChatGPT. У червні цього року, коли учасники OpenAI відвідали Ізраїль, Пелег також поїхав, щоб взяти участь в обговоренні та спілкуванні, а також сфотографувався з генеральним директором Семом Альтманом.
Читаючи статтю цього літнього чоловіка, я не можу не згадати про Тома, студентського офіцера зі зв’язків, якого я зустрів в Ізраїлі, від якого може закипіти твоя кров, якщо ти щось скажеш.
Зліва направо: Сем Альтман, Ям Пелег (Джерело: @Yampeleg)
Враховуючи, що цей старий досліджував OpenAI і знає багато людей у OpenAI, тому, якщо він отримає якусь внутрішню інформацію, я думаю, що довіра до нього насправді досить висока.
Але коли я збирався уважно вивчати його пости вночі, я раптом виявив, що він видалив усі попередні пости. Спочатку я думав, що OpenAI мене охопив, але я був радий, що зберіг файл. Придивившись уважніше, я виявив, що це сталося не тому, що OpenAI подав запит на видалення, а тому, що він також повідомив про це в графі «Оплата» та поскаржився на порушення авторських прав.
Першим джерелом цього є колонка Substack під назвою SemiAnalysis.Вони опублікували статтю під назвою GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE раніше, позаду платного доступу.
Перевіривши це, я дізнався:
SemiAnalysis — це фірма, що спеціалізується на дослідженнях і консультаціях у галузі напівпровідників, і займається ланцюгом постачання напівпровідників від хімічної сировини до виробництва, розробки інтелектуальної власності та стратегії. Компанію заснував Ділан Патель, аналітик та інженер з багаторічним досвідом роботи в галузі напівпровідників. Патель займав різні посади від інженера-конструктора до менеджера з маркетингу в Intel, AMD, Qualcomm тощо.
Команда SemiAnalysis також включає ряд професійних аналітиків і консультантів з напівпровідників. Кожен з них має різні сфери знань, такі як штучний інтелект, хмарні обчислення, мережі, сховище, електромобілі, радіочастоти, Інтернет речей тощо. Вони надають клієнтам комплексний аналіз ланцюга постачання напівпровідників і консультаційні послуги від хімічної сировини до фабрик для розробки інтелектуальної власності та стратегії.
Раніше SemiAnalysis також опублікував статтю, в якій розкривається, що інженери Google заявили у внутрішніх комунікаціях, що «У нас немає ні Moat, ні OpenAI» (У нас немає ні Moat, ні OpenAI), що викликало багато дискусій. Пізніше було підтверджено правдивість цієї статті.
З цієї точки зору брат Ділан Пател справді може мати деяких інсайдерів, і достовірність наданої ними інформації має бути прийнятною.
Щодо того, чому вони так прагнули змусити брата Яма видаляти твіти – тому що ця «внутрішня інформація» справді цінна, а підписка на платні статті SemiAnalysis коштує 500 доларів на рік. Підписка брата Яма на елітну версію коштує 1000 доларів.
▍Аналіз карток
Відповідно до цих тонкощів і виходів, я вважаю, що ці чутки все ще мають певний ступінь довіри. Нижче наведено деякі з моїх аналізів, заснованих на цій інформації, які я пропоную для обговорення.
Конкуренція за приватні моделі буде зосереджена на паралелізмі
Згідно з цими чутками, якщо ви хочете навчити конкурента GPT-4, за оцінками, використовуючи приблизно 8192 мікросхеми H100 за ціною 2 долари за годину, попереднє навчання можна завершити приблизно за 55 днів, а вартість становить близько 21,5 мільйонів доларів (150 мільйонів юанів).
Ця вартість справді не надто велика для нинішнього турбулентного ринку LLM. Нинішні великі вітчизняні гравці можуть легко провести кілька тренувань. Отже, чесно кажучи цього разу, можливо, справді не буде похвалитися тестуванням GPT-4 за півроку з можливостями моделі (принаймні за шкалою параметрів).
Якщо вартість навчання не є проблемою, чи будуть проблемою дані навчання? Я теж так не думаю. Подейкують, що навчальні дані GPT-4 містять загалом 13 Т (13 трильйонів) токенів. Для порівняння, як загальнодоступні набори даних CommonCrawl, так і RefinedWeb мають токени 5 T. Ходять чутки, що решта походять із Twitter, Reddit і YouTube; деякі судові процеси також стверджують, що OpenAI використовував піратські дані з «тіньових бібліотек», таких як LibGen і SciHub.
Тому я вважаю, що масштаб цих даних не є недосяжним.Крім того, сама країна накопичила багато китайських ресурсів, тому дані про навчання не повинні бути великою проблемою.
Щодо інших питань, таких як попереднє навчання, тонке налаштування та китайське кодування та декодування, насправді не надто багато технічних секретів, а методи відносно відкриті. За достатнього ресурсу це має бути вирішено за півроку.
Отже, останній поріг, що залишився, — це паралельність. Насправді в цій чутці було використано величезний простір для внесення відповідного контенту, а професійний рівень все ще відносно високий, я можу дати тут лише поверхневі пояснення.
Грубо кажучи, так звана паралельна проблема полягає в тому, що у вас є велика модель, як дозволити більшості людей використовувати її одночасно за найменших витрат. Це пов’язано з багатьма проблемами професійного проектування.Як розподілити обчислювальні ресурси в різних зв’язках у випадку фіксованих обчислювальних ресурсів? Як працювати з паралелізмом? Як керувати пам'яттю?
Можливість паралельної обробки безпосередньо визначає взаємодію з користувачем. Зараз ChatGPT і API на основі GPT-3.5 відносно гладкі, що є дуже потужним. Кожен тут може сказати, що інші вітчизняні LLM або Claude, які я відчував, працюють швидше, ніж GPT-3.5. Однак не всі враховували масштаби використання. GPT-3.5 має таку продуктивність за такого високого паралелізму. Якщо інші виробники не зможуть зрівнятися з OpenAI, вони не зможуть захопити ринок OpenAI.
Таким чином, паралельні можливості можуть стати однією з ключових точок конкуренції для різних конкурентів OpenAI.
GPT-5 фокусується на мультимодальності
Як згадувалося раніше, за чутками, GPT-4 — це модель «суміші експертів» (MoE), яка складається з 16 експертних моделей. Ось коротке пояснення того, що таке «експертне змішування», яке означає поділ «проблеми» користувача на кілька підпроблем, і кожна підпроблема передається меншій моделі (тобто «експерту») для розв’язати, а потім через a. «Модель маршрутизації» вибирається та комбінується, а потім виводиться користувачеві.
Далі чутки стверджують, що кожен «експерт» GPT-4 має 111 мільярдів параметрів, еквівалентних GPT-3 (це узгоджується з параметрами GPT-4, які, за словами Сема Альтмана, навіть менші, ніж GPT-3.5), з яких є 55 мільярдів параметрів є спільними. Кожен прямий прохід логічного висновку (генерування вихідного маркера) використовує двох «експертів», фактично споживаючи близько 280 мільярдів параметрів. Це число значно менше, ніж необхідне число без MoE, і воно також схоже на прогнози багатьох вчених на ранній стадії.
Варто зазначити, що чутки свідчать про те, що текстові та кодові дані, які використовуються для навчання GPT-4, використовуються повторно. У поєднанні з вибором використання фреймворку MoE я особисто припускаю: або високоякісні текстові дані, які зараз можна легко отримати, близькі до вичерпання, або покращення продуктивності LLM шляхом збільшення обсягу даних без обмежень вже дуже обмежений.
Однак, незалежно від ситуації, якщо GPT-5 хоче досягти значного прориву в продуктивності, він повинен мати можливість повною мірою використовувати існуючу велику кількість відео, зображень і аудіоданих, іншими словами, це " мультимодальна модель.
Проблема полягає в тому, що, згідно з цими чутками, поточна візуальна мультимодальність OpenAI не може багато чого запропонувати. Це незалежний візуальний кодер, який використовує текст як вхідні дані для попереднього навчання, а потім використовує близько 2 трильйонів токенів для точного налаштування. Цей метод навчання, очевидно, не може повністю використовувати існуючі відео, зображення та аудіодані.
Тому OpenAI завжди підкреслював, що GPT-5 не пройшов навчання, і ймовірність вірна. Перед навчанням GPT-5 їм потрібно було знайти кращу архітектуру мультимодальної моделі, щоб модель могла повністю використовувати аудіо- та відеодані. Тільки маючи можливість використовувати ці високоякісні навчальні дані, GPT-5 зможе отримати достатнє підвищення потужності. (У той же час, якщо GPT-5 справді може повною мірою використовувати ці аудіо- та відеодані, то чи це AGI, чи нещодавно запропонований OpenAI «Super Intelligence Body», здається, що це не так вже й далеко.)
OpenAI, можливо, навмисно оприлюднив цей слух
Цей висновок є суто особистим припущенням. Фактів недостатньо, просто подивіться.
Наскільки я розумію, OpenAI добре знає, що рів GPT-4 не глибокий; у сучасному божевілля конкурентам не важко наздогнати. І, як було проаналізовано вище, їхня поточна мультимодальна широкомасштабна модельна структура не повинна бути завершена. Наразі, якщо з’являться нові гравці та проб’ються з мультимодального режиму, ймовірність того, що OpenAI наздожене криву, також дуже висока. .
Отже, це може бути план OpenAI, щоб уповільнити війну — я розкрию вам деяку інформацію про GPT-4, нехай головні гравці спочатку виконають роботу з відтворення GPT-4 і пройдуть дорогу, якою OpenAI вже пройшов.
Якщо під час цього процесу OpenAI заклав основу для навчання GPT-5 і завершив попередні дослідження мультимодальної великої моделі, навіть якщо GPT-4 перевершили інші великі мовні моделі, OpenAI не буде панікувати. Особисто я вважаю, що мультимодальність, швидше за все, буде останнім поколінням залучення людини, а AGI може стати головною силою в майбутньому розвитку та еволюції моделей. Іншими словами, якщо ви виграєте цього разу, ви можете вигравати до кінця.
Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Опубліковано деталі навчання OpenAI GPT-4 щодо «не згадувати про смерть», це моя інтерпретація
Джерело: Minority
Був звичайний ранок кілька днів тому. Я щодня перебирав цеглинки, і раптом посипалася всяка інформація: «Поспішайте, структура моделі ГПТ-4 злилася, і велика модель вітчизняного виробництва знову її перевершить!»
Увімкніть соцмережі і подивіться, добре, вам не потрібно говорити англійською, а домашні люди вже вийшли в Інтернет, я дуже переконаний у цій швидкості. Однак, коли я пішов відстежити джерело та перевірити, наскільки достовірна інформація, я раптом відчув, що вийшов із кола технологій із кола розваг.
Зважаючи на поточний стан Інтернету, де «фейкові новини» літають по всьому небу, перше, що я зробив, побачивши цю новину, це відстежити джерело.
▍Входи та виходи
Відправною точкою для мого видобутку інформації був ланцюжок твітів, опублікованих на Hacker News, отриманих через Thread Reader (архівовано 11 липня). Натисніть, щоб відкрити його, і ви побачите два речення:
Рівень цієї хедлайнерської вечірки не поступається китайському.
Як ми всі знаємо, OpenAI порушив своє зобов’язання відкрити під час випуску GPT-4, не розкрив жодної ваги чи технічних деталей і був широко розкритикований галуззю. Можливо, саме тому блогер використовує стебло It is over, щоб відобразити драматичний ефект «розвороту сюжету».
Дивлячись ще раз на вміст, це малослівні деталі навчання GPT-4 OpenAI. Було багато спекуляцій щодо цієї інформації, але чиновник не розголошував її. Коли вона згадується, вона дуже розпливчаста (оригінальний текст є відносно незрозумілим, використовує багато скорочень та жаргону, деякі будуть пояснені пізніше) :
Питання в тому, як з’явилася ця інформація і чи вона достовірна?
Слідуйте за виноградною лозою, щоб торкнутися «дині», і я знайшов видавця цієї серії твітів - Яма Пелега.
Читаючи статтю цього літнього чоловіка, я не можу не згадати про Тома, студентського офіцера зі зв’язків, якого я зустрів в Ізраїлі, від якого може закипіти твоя кров, якщо ти щось скажеш.
Враховуючи, що цей старий досліджував OpenAI і знає багато людей у OpenAI, тому, якщо він отримає якусь внутрішню інформацію, я думаю, що довіра до нього насправді досить висока.
Але коли я збирався уважно вивчати його пости вночі, я раптом виявив, що він видалив усі попередні пости. Спочатку я думав, що OpenAI мене охопив, але я був радий, що зберіг файл. Придивившись уважніше, я виявив, що це сталося не тому, що OpenAI подав запит на видалення, а тому, що він також повідомив про це в графі «Оплата» та поскаржився на порушення авторських прав.
Перевіривши це, я дізнався:
Раніше SemiAnalysis також опублікував статтю, в якій розкривається, що інженери Google заявили у внутрішніх комунікаціях, що «У нас немає ні Moat, ні OpenAI» (У нас немає ні Moat, ні OpenAI), що викликало багато дискусій. Пізніше було підтверджено правдивість цієї статті.
З цієї точки зору брат Ділан Пател справді може мати деяких інсайдерів, і достовірність наданої ними інформації має бути прийнятною.
Щодо того, чому вони так прагнули змусити брата Яма видаляти твіти – тому що ця «внутрішня інформація» справді цінна, а підписка на платні статті SemiAnalysis коштує 500 доларів на рік. Підписка брата Яма на елітну версію коштує 1000 доларів.
▍Аналіз карток
Відповідно до цих тонкощів і виходів, я вважаю, що ці чутки все ще мають певний ступінь довіри. Нижче наведено деякі з моїх аналізів, заснованих на цій інформації, які я пропоную для обговорення.
Конкуренція за приватні моделі буде зосереджена на паралелізмі
Згідно з цими чутками, якщо ви хочете навчити конкурента GPT-4, за оцінками, використовуючи приблизно 8192 мікросхеми H100 за ціною 2 долари за годину, попереднє навчання можна завершити приблизно за 55 днів, а вартість становить близько 21,5 мільйонів доларів (150 мільйонів юанів).
Ця вартість справді не надто велика для нинішнього турбулентного ринку LLM. Нинішні великі вітчизняні гравці можуть легко провести кілька тренувань. Отже, чесно кажучи цього разу, можливо, справді не буде похвалитися тестуванням GPT-4 за півроку з можливостями моделі (принаймні за шкалою параметрів).
Якщо вартість навчання не є проблемою, чи будуть проблемою дані навчання? Я теж так не думаю. Подейкують, що навчальні дані GPT-4 містять загалом 13 Т (13 трильйонів) токенів. Для порівняння, як загальнодоступні набори даних CommonCrawl, так і RefinedWeb мають токени 5 T. Ходять чутки, що решта походять із Twitter, Reddit і YouTube; деякі судові процеси також стверджують, що OpenAI використовував піратські дані з «тіньових бібліотек», таких як LibGen і SciHub.
Тому я вважаю, що масштаб цих даних не є недосяжним.Крім того, сама країна накопичила багато китайських ресурсів, тому дані про навчання не повинні бути великою проблемою.
Щодо інших питань, таких як попереднє навчання, тонке налаштування та китайське кодування та декодування, насправді не надто багато технічних секретів, а методи відносно відкриті. За достатнього ресурсу це має бути вирішено за півроку.
Отже, останній поріг, що залишився, — це паралельність. Насправді в цій чутці було використано величезний простір для внесення відповідного контенту, а професійний рівень все ще відносно високий, я можу дати тут лише поверхневі пояснення.
Грубо кажучи, так звана паралельна проблема полягає в тому, що у вас є велика модель, як дозволити більшості людей використовувати її одночасно за найменших витрат. Це пов’язано з багатьма проблемами професійного проектування.Як розподілити обчислювальні ресурси в різних зв’язках у випадку фіксованих обчислювальних ресурсів? Як працювати з паралелізмом? Як керувати пам'яттю?
Можливість паралельної обробки безпосередньо визначає взаємодію з користувачем. Зараз ChatGPT і API на основі GPT-3.5 відносно гладкі, що є дуже потужним. Кожен тут може сказати, що інші вітчизняні LLM або Claude, які я відчував, працюють швидше, ніж GPT-3.5. Однак не всі враховували масштаби використання. GPT-3.5 має таку продуктивність за такого високого паралелізму. Якщо інші виробники не зможуть зрівнятися з OpenAI, вони не зможуть захопити ринок OpenAI.
Таким чином, паралельні можливості можуть стати однією з ключових точок конкуренції для різних конкурентів OpenAI.
GPT-5 фокусується на мультимодальності
Як згадувалося раніше, за чутками, GPT-4 — це модель «суміші експертів» (MoE), яка складається з 16 експертних моделей. Ось коротке пояснення того, що таке «експертне змішування», яке означає поділ «проблеми» користувача на кілька підпроблем, і кожна підпроблема передається меншій моделі (тобто «експерту») для розв’язати, а потім через a. «Модель маршрутизації» вибирається та комбінується, а потім виводиться користувачеві.
Далі чутки стверджують, що кожен «експерт» GPT-4 має 111 мільярдів параметрів, еквівалентних GPT-3 (це узгоджується з параметрами GPT-4, які, за словами Сема Альтмана, навіть менші, ніж GPT-3.5), з яких є 55 мільярдів параметрів є спільними. Кожен прямий прохід логічного висновку (генерування вихідного маркера) використовує двох «експертів», фактично споживаючи близько 280 мільярдів параметрів. Це число значно менше, ніж необхідне число без MoE, і воно також схоже на прогнози багатьох вчених на ранній стадії.
Варто зазначити, що чутки свідчать про те, що текстові та кодові дані, які використовуються для навчання GPT-4, використовуються повторно. У поєднанні з вибором використання фреймворку MoE я особисто припускаю: або високоякісні текстові дані, які зараз можна легко отримати, близькі до вичерпання, або покращення продуктивності LLM шляхом збільшення обсягу даних без обмежень вже дуже обмежений.
Однак, незалежно від ситуації, якщо GPT-5 хоче досягти значного прориву в продуктивності, він повинен мати можливість повною мірою використовувати існуючу велику кількість відео, зображень і аудіоданих, іншими словами, це " мультимодальна модель.
Проблема полягає в тому, що, згідно з цими чутками, поточна візуальна мультимодальність OpenAI не може багато чого запропонувати. Це незалежний візуальний кодер, який використовує текст як вхідні дані для попереднього навчання, а потім використовує близько 2 трильйонів токенів для точного налаштування. Цей метод навчання, очевидно, не може повністю використовувати існуючі відео, зображення та аудіодані.
Тому OpenAI завжди підкреслював, що GPT-5 не пройшов навчання, і ймовірність вірна. Перед навчанням GPT-5 їм потрібно було знайти кращу архітектуру мультимодальної моделі, щоб модель могла повністю використовувати аудіо- та відеодані. Тільки маючи можливість використовувати ці високоякісні навчальні дані, GPT-5 зможе отримати достатнє підвищення потужності. (У той же час, якщо GPT-5 справді може повною мірою використовувати ці аудіо- та відеодані, то чи це AGI, чи нещодавно запропонований OpenAI «Super Intelligence Body», здається, що це не так вже й далеко.)
OpenAI, можливо, навмисно оприлюднив цей слух
Цей висновок є суто особистим припущенням. Фактів недостатньо, просто подивіться.
Наскільки я розумію, OpenAI добре знає, що рів GPT-4 не глибокий; у сучасному божевілля конкурентам не важко наздогнати. І, як було проаналізовано вище, їхня поточна мультимодальна широкомасштабна модельна структура не повинна бути завершена. Наразі, якщо з’являться нові гравці та проб’ються з мультимодального режиму, ймовірність того, що OpenAI наздожене криву, також дуже висока. .
Отже, це може бути план OpenAI, щоб уповільнити війну — я розкрию вам деяку інформацію про GPT-4, нехай головні гравці спочатку виконають роботу з відтворення GPT-4 і пройдуть дорогу, якою OpenAI вже пройшов.
Якщо під час цього процесу OpenAI заклав основу для навчання GPT-5 і завершив попередні дослідження мультимодальної великої моделі, навіть якщо GPT-4 перевершили інші великі мовні моделі, OpenAI не буде панікувати. Особисто я вважаю, що мультимодальність, швидше за все, буде останнім поколінням залучення людини, а AGI може стати головною силою в майбутньому розвитку та еволюції моделей. Іншими словами, якщо ви виграєте цього разу, ви можете вигравати до кінця.