GPT-4 это смешанная модель 8x220 миллиардов параметров? Сегодня эта сплетня сошла с ума

Question

Источник: Сердце машины> Джордж Хотц: За исключением Apple, причина, по которой большинство компаний хранят секреты, заключается не в том, чтобы скрыть какую-то черную технологию, а в том, чтобы скрыть некоторые «не очень крутые» вещи.«Объем параметров GPT-4 достигает 100 трлн.» Думаю, многие еще помнят «тяжелые» новости, которые захлестнули экраны в начале этого года, и график, который был распространен вирусом.![](https://img.gateio.im/social/moments-bab2147faf-c6ea22b629-dd1a6f-62a40f) Но вскоре генеральный директор OpenAI Сэм Альтман опроверг слухи, подтвердив, что это фейковая новость, и сказал: «Слухи о GPT-4 нелепы. Я даже не знаю, откуда они взялись».На самом деле, многие люди верят и распространяют такие слухи, потому что сообщество ИИ в последние годы увеличивает размер параметров моделей ИИ. Switch Transformer, выпущенный Google в январе 2021 года, поднял параметры большой модели ИИ до 1,6 трлн. С тех пор многие учреждения последовательно запустили свои собственные большие модели с триллионами параметров. Исходя из этого, у людей есть все основания полагать, что GPT-4 будет огромной моделью с триллионами параметров, а 100 триллионов параметров не являются невозможными.Хотя слух Сэма Альтмана помог нам избавиться от неправильного ответа, стоящая за ним команда OpenAI хранит молчание о реальных параметрах GPT-4, и даже официальный технический отчет GPT-4 не раскрывает никакой информации.До недавнего времени в этой тайне подозревали «гениального хакера» Джорджа Хотца.Джордж Хотц известен взломом iPhone в возрасте 17 лет и взломом Sony PS3 в возрасте 21 года. В настоящее время он является боссом компании (comma.ai), разрабатывающей автоматические системы помощи при вождении.Недавно он дал интервью подкасту о технологиях искусственного интеллекта под названием Latent Space. В интервью он рассказал о ГПТ-4, сказав, что ГПТ-4 на самом деле является гибридной моделью. В частности, он использует ансамблевую систему из 8 экспертных моделей, каждая из которых имеет 220 миллиардов параметров (чуть больше, чем 175 миллиардов параметров GPT-3), и эти модели были обучены на разных данных и распределении задач.![](https://img.gateio.im/social/moments-bab2147faf-7913ab5955-dd1a6f-62a40f) После того, как этот подкаст был показан в эфире, создатель PyTorch Сумит Чинтала сказал, что он, похоже, слышал тот же «слух», и многие люди, возможно, слышали его, но только Джордж Хотц сказал это публично.![](https://img.gateio.im/social/moments-bab2147faf-e857d562e9-dd1a6f-62a40f) "Гибридные модели — это те, которые вы рассматриваете, когда вам нечего делать, — пошутил Джордж Хотц. — Гибридные модели возникают потому, что вы не можете сделать модель больше, чем 220 миллиардов параметров. Они хотят, чтобы модель была лучше, но если она Просто время обучения увеличилось, а эффект уменьшился, поэтому они приняли восемь экспертных моделей для повышения производительности».![](https://img.gateio.im/social/moments-bab2147faf-20616686e1-dd1a6f-62a40f) Почему OpenAI так скрывает это? Джордж Хотц считает, что, за исключением Apple, причина, по которой большинство компаний хранят секреты, заключается не в том, чтобы скрыть какую-то черную технологию, а в том, чтобы скрыть некоторые «не очень крутые» вещи и не хотеть, чтобы другие знали, что «пока вы тратите В 8 раз больше денег, вы можете получить эту модель».Что касается будущей тенденции, он считает, что люди будут обучать модели меньшего размера и улучшать производительность за счет долгосрочной тонкой настройки и открытия различных трюков. Он упомянул, что по сравнению с прошлым эффект обучения значительно улучшился, хотя вычислительные ресурсы не изменились, что показывает, что улучшение метода обучения сыграло большую роль.В настоящее время «срочные новости» Джорджа Хотца о GPT-4 широко распространяются в Твиттере.![](https://img.gateio.im/social/moments-bab2147faf-195a7471f0-dd1a6f-62a40f) Кто-то этим вдохновился и заявил, что тренирует ансамбль LLaMA против GPT-4.![](https://img.gateio.im/social/moments-bab2147faf-caf5535cca-dd1a6f-62a40f) Также говорится, что если, как сказал Джордж Хотц, GPT-4 представляет собой гибридную модель, состоящую из 8 экспертных моделей с 220 миллиардами параметров, то трудно представить, насколько дорогим является обоснование, стоящее за этим.![](https://img.gateio.im/social/moments-bab2147faf-f62695f724-dd1a6f-62a40f) Следует отметить, что, поскольку Джордж Хотц не упомянул источник, мы не можем в настоящее время судить о том, верно ли приведенное выше утверждение.