GPT-4 é um modelo misto de 8x220 bilhões de parâmetros? Essa fofoca enlouqueceu hoje

Question

Fonte: Coração da Máquina See More> George Hotz: Com exceção da Apple, a razão pela qual a maioria das empresas mantém segredo não é para esconder alguma tecnologia negra, mas para esconder algumas coisas "não tão legais".“O volume do parâmetro de GPT-4 é tão alto quanto 100 trilhões.” Acredito que muitas pessoas ainda se lembram das notícias “pesadas” que passaram pela tela no início deste ano e de um gráfico que se espalhou viralmente.![](https://img.gateio.im/social/moments-bab2147faf-c6ea22b629-dd1a6f-62a40f) Mas logo, o CEO da OpenAI, Sam Altman, veio refutar os rumores, confirmando que esta é uma notícia falsa, e disse: "Os rumores sobre o GPT-4 são ridículos. Eu nem sei de onde veio."Na verdade, muitas pessoas acreditam e espalham tais rumores porque a comunidade de IA vem aumentando o tamanho dos parâmetros dos modelos de IA nos últimos anos. O Switch Transformer lançado pelo Google em janeiro de 2021 elevou os parâmetros do modelo grande de IA para 1,6 trilhão. Desde então, muitas instituições lançaram sucessivamente seus próprios modelos grandes de trilhões de parâmetros. Com base nisso, as pessoas têm todos os motivos para acreditar que o GPT-4 será um modelo enorme com trilhões de parâmetros, e 100 trilhões de parâmetros não são impossíveis.Embora o boato de Sam Altman tenha nos ajudado a nos livrar de uma resposta errada, a equipe OpenAI por trás dele manteve a boca fechada sobre os parâmetros reais do GPT-4, e mesmo o relatório técnico oficial do GPT-4 não divulgou nenhuma informação.Até recentemente, suspeitava-se que esse mistério havia sido desvendado pelo "hacker genial" George Hotz.George Hotz é famoso por quebrar o iPhone aos 17 anos e hackear o Sony PS3 aos 21. Atualmente, ele é o chefe de uma empresa (comma.ai) que desenvolve sistemas automáticos de assistência à direção.Ele foi recentemente entrevistado por um podcast de tecnologia de IA chamado Latent Space. Na entrevista, ele falou sobre o GPT-4, dizendo que o GPT-4 na verdade é um modelo híbrido. Especificamente, ele usa um sistema conjunto de 8 modelos especialistas, cada um com 220 bilhões de parâmetros (pouco mais do que os 175 bilhões de parâmetros do GPT-3), e esses modelos foram treinados em diferentes dados e treinamento de distribuição de tarefas.![](https://img.gateio.im/social/moments-bab2147faf-7913ab5955-dd1a6f-62a40f) Depois que este podcast foi transmitido, o criador do PyTorch, Soumith Chintala, disse que parecia ter ouvido o mesmo "rumor", e muitas pessoas podem ter ouvido, mas apenas George Hotz disse isso em público.![](https://img.gateio.im/social/moments-bab2147faf-e857d562e9-dd1a6f-62a40f) "Os modelos híbridos são aqueles que você considera quando está no limite", brinca George Hotz. "Os modelos híbridos surgem porque você não pode fazer o modelo maior que 220 bilhões de parâmetros. Eles querem que o modelo seja melhor , mas se for apenas O tempo de treinamento é mais longo e o efeito diminuiu. Portanto, eles adotaram oito modelos de especialistas para melhorar o desempenho.” Sobre como esse modelo híbrido funciona, George Hotz não entrou em detalhes.![](https://img.gateio.im/social/moments-bab2147faf-20616686e1-dd1a6f-62a40f) Por que a OpenAI é tão secreta sobre isso? George Hotz acredita que, com exceção da Apple, a razão pela qual a maioria das empresas mantém segredo não é para esconder alguma tecnologia negra, mas para esconder algumas coisas "não tão legais", e não quer que os outros saibam que "enquanto você gasta 8 vezes o dinheiro, você pode obter este modelo".Quanto à tendência futura, ele acredita que as pessoas treinarão modelos menores e melhorarão o desempenho por meio de ajustes finos de longo prazo e descoberta de vários truques. Ele mencionou que, em comparação com o passado, o efeito do treinamento melhorou significativamente, embora os recursos de computação não tenham mudado, o que mostra que a melhoria do método de treinamento desempenhou um grande papel.No momento, as "últimas notícias" de George Hotz sobre o GPT-4 foram amplamente divulgadas no Twitter.![](https://img.gateio.im/social/moments-bab2147faf-195a7471f0-dd1a6f-62a40f) Alguém se inspirou nisso e afirmou treinar um conjunto LLaMA contra GPT-4.![](https://img.gateio.im/social/moments-bab2147faf-caf5535cca-dd1a6f-62a40f) Diz-se também que se, como disse George Hotz, o GPT-4 é um modelo híbrido composto por 8 modelos especialistas com 220 bilhões de parâmetros, é difícil imaginar o quão caro é o raciocínio por trás dele.![](https://img.gateio.im/social/moments-bab2147faf-f62695f724-dd1a6f-62a40f) Deve-se ressaltar que, como George Hotz não mencionou a fonte, não podemos julgar se a afirmação acima está correta.