Os detalhes do treinamento GPT-4 da OpenAI de "para não mencionar a morte" foram divulgados, esta é a minha interpretação

2023-07-17 05:58:58

Fonte Original: Minority

Fonte da imagem: Gerada por Unbounded AI

Era uma manhã comum alguns dias atrás. Eu estava movendo tijolos diariamente e, de repente, todos os tipos de informações surgiram: "Apresse-se, a estrutura do modelo GPT-4 vazou e o modelo grande produzido nacionalmente o superará novamente!"

Ligue as redes sociais e veja, tudo bem, você não precisa falar inglês e o pessoal da casa já entrou na internet, estou realmente convencido com essa velocidade. No entanto, quando fui rastrear a fonte e ver se as informações eram confiáveis, de repente senti que havia saído do círculo da tecnologia do círculo do entretenimento.

Tendo em vista o estado atual da Internet onde "Fake News" está voando por todo o céu, a primeira coisa que fiz depois de ver esta notícia foi rastrear a fonte.

▍Entradas e saídas

O ponto de partida para minha mineração de informações foi um encadeamento de tweets compartilhados no Hacker News extraídos por meio do Thread Reader (arquivado em 11 de julho). Clique para abri-lo, e há duas frases:

Os detalhes do GPT-4 vazaram. acabou.

O nível deste partido principal não é inferior ao da China.

Como todos sabemos, a OpenAI quebrou seu compromisso de abertura ao liberar o GPT-4, não divulgou nenhum peso ou detalhes técnicos e foi amplamente criticada pela indústria. É provavelmente por isso que o blogueiro usa o talo Acabou para renderizar o efeito dramático da "reversão da trama".

Olhando para o conteúdo novamente, são os detalhes de treinamento GPT-4 de boca fechada da OpenAI. Tem havido muitas especulações sobre esta informação, mas o oficial não a divulgou. Quando é mencionada, é muito vaga (o texto original é relativamente obscuro, usando muitas abreviaturas e jargões, alguns serão explicados mais tarde) :

Quantidade de parâmetros do modelo: 1,8 trilhão, cerca de 10 vezes maior que o GPT-3,5 (175 bilhões).
Profundidade da camada do modelo: 120 camadas.
Arquitetura de modelo: Modelo de especialista misto (MoE, veja abaixo a explicação), um total de 16 "especialistas", cada um com 111 bilhões de parâmetros. Cada passagem de inferência (gerando uma saída de token) seleciona dois especialistas.
Dados de treinamento: Um total de 13T (13 trilhões) de dados de token. Os dados de texto são treinados novamente 2 vezes e os dados de código são treinados novamente 4 vezes. Esses dados são realmente muito importantes e serão analisados em detalhes posteriormente.
Estratégia paralela: paralelismo de tensor de 8 vias + paralelismo de pipeline de 16 vias. Existem vários clusters de GPU localizados em diferentes data centers treinando simultaneamente, cada cluster possui 128 GPUs.
Contexto pré-treino: 8K. A versão 32K é ajustada a partir de 8K.
Custo de treinamento: Treinamento contínuo por 90 a 100 dias em cerca de 25.000 A100s a uma taxa de cerca de 2,15e25 flops. A US$ 1 por hora A100, custaria cerca de US$ 63 milhões. (Pode ser feito hoje em cerca de 55 dias usando cerca de 8.192 H100s a um custo estimado de US$ 21,5 milhões.)

A questão é: como surgiu essa informação e ela é confiável?

Siga a videira para tocar o "melão", e encontrei o editor desta série de tweets - Yam Peleg.

Embora não tenha seguido o relato desse velho, li seus artigos anteriores. Ele é o CEO de uma "empresa iniciante" em Israel (mas ela está estabelecida há 15 anos e pode não ser apropriado chamá-la de empresa iniciante); Tenho uma vasta experiência em engenharia e entendo grandes modelos de linguagem. Tentei para reverter crack GPT-4 e intérprete de código ChatGPT. Em junho deste ano, quando os membros da OpenAI visitaram Israel, Peleg também foi participar da discussão e comunicação e também tirou uma foto com o CEO Sam Altman.

Lendo o artigo desse velho, não consigo deixar de pensar em Tom, um oficial de ligação estudantil que conheci em Israel, que pode fazer seu sangue ferver se você disser alguma coisa.

A partir da esquerda: Sam Altman, Yam Peleg (Fonte: @Yampeleg)

Considerando que esse velho tem pesquisado o OpenAI e conhece muitas pessoas dentro do OpenAI, então, se ele obtiver alguma informação interna, acho que a credibilidade é realmente muito alta.

Mas quando eu estava prestes a estudar suas postagens cuidadosamente à noite, de repente descobri que ele havia excluído todas as postagens anteriores. A princípio, pensei que estava coberto pelo OpenAI, mas fiquei feliz por ter guardado o arquivo. Depois de olhar mais de perto, descobri que não foi porque OpenAI solicitou a exclusão, mas porque ele também denunciou em uma coluna paga e reclamou de violação de direitos autorais.

A fonte original disso é uma coluna Substack chamada SemiAnalysis.Eles publicaram um artigo intitulado GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE anterior, por trás de um acesso pago.

Depois de verificar, descobri:

A SemiAnalysis é uma empresa boutique de pesquisa e consultoria de semicondutores focada na cadeia de suprimentos de semicondutores, desde a matéria-prima química até a fábrica, para projetar IP e estratégia. A empresa foi fundada por Dylan Patel, analista e engenheiro com muitos anos de experiência na indústria de semicondutores. Patel ocupou cargos que vão desde engenheiro de design até gerente de marketing na Intel, AMD, Qualcomm e muito mais. A equipe da SemiAnalysis também inclui vários analistas e consultores profissionais de semicondutores. Cada um deles possui diferentes áreas de especialização, como IA, computação em nuvem, rede, armazenamento, veículos elétricos, radiofrequência, Internet das Coisas, etc. Eles fornecem aos clientes análises abrangentes da cadeia de suprimentos de semicondutores e serviços de consultoria, desde matérias-primas químicas até fábricas para projetar IP e estratégia.

Anteriormente, a SemiAnalysis também publicou um artigo revelando que os engenheiros do Google disseram em comunicações internas que "We Have No Moat, And Nem Does OpenAI" (Não Temos Fosso, E Nem o OpenAI), o que causou muita discussão. Este artigo foi posteriormente confirmado como verdadeiro.

Deste ponto de vista, o irmão Dylan Patel pode realmente ter alguns insiders, e a credibilidade da informação que eles deram ainda deve ser aceitável.

Por que eles estavam tão ansiosos para que o irmão Yam excluísse os tweets - porque essas "informações privilegiadas" são realmente valiosas e as assinaturas dos artigos pagos da SemiAnalysis custam US $ 500 por ano. A assinatura do irmão Yam para a versão elite custa US$ 1.000.

▍Análise de cartas

De acordo com esses meandros, minha opinião é que esse boato ainda tem um certo grau de credibilidade. A seguir, algumas de minhas análises com base nessas informações, que proponho para discussão.

A competição por modelos privados terá como foco o paralelismo

De acordo com esse boato, se você deseja treinar um competidor GPT-4, estima-se que usando cerca de 8.192 chips H100, ao preço de $ 2 por hora, o pré-treinamento pode ser concluído em cerca de 55 dias, e o custo é de cerca de $ 21,5 milhões (150 milhões de RMB).

Esse custo realmente não é muito alto para o atual mercado turbulento de LLM. Os atuais grandes jogadores nacionais podem facilmente realizar várias sessões de treinamento. Portanto, para ser honesto desta vez, pode realmente não ser uma vanglória comparar o GPT-4 daqui a meio ano com recursos de modelo (pelo menos escala de parâmetro).

Se o custo de treinamento não for um problema, os dados de treinamento serão um problema? Eu também não acho. Há rumores de que os dados de treinamento do GPT-4 têm um total de 13T (13 trilhões) de tokens. Para comparação, os conjuntos de dados públicos CommonCrawl e RefinedWeb têm tokens 5T. Há rumores de que o restante vem do Twitter, Reddit e YouTube; alguns processos também afirmam que OpenAI usou dados piratas de "bibliotecas sombra", como LibGen e SciHub.

Portanto, acho que a escala desses dados não é inatingível. Além disso, o próprio país acumulou muitos recursos chineses, portanto os dados de treinamento não devem ser um grande problema.

Para outras questões, como pré-treinamento, ajuste fino e codificação e decodificação chinesa, na verdade, não há muitos segredos técnicos e os métodos são relativamente abertos. Com recursos suficientes, deve ser resolvido em meio ano.

Portanto, o último limite restante é o paralelismo. Na verdade, um grande espaço foi usado neste boato para apresentar conteúdo relevante, e o nível profissional ainda é relativamente alto, só posso dar algumas explicações superficiais aqui.

Grosso modo, o chamado problema do paralelo é que você tem um modelo grande, como deixar o maior número de pessoas usar ao mesmo tempo com o menor custo. Isso envolve muitas questões de design profissional.No caso de recursos de computação fixos, como alocar recursos de computação em diferentes links? Como lidar com a simultaneidade? Como gerenciar a memória?

A capacidade de processamento paralelo determina diretamente a experiência do usuário. No momento, ChatGPT e API baseados em GPT-3.5 são relativamente suaves, o que é muito poderoso. Todos aqui podem dizer que outros LLMs domésticos ou Claude que experimentei são mais rápidos que GPT-3.5. No entanto, nem todos consideraram a magnitude do uso. O GPT-3.5 tem esse desempenho sob uma simultaneidade tão alta. Se outros fabricantes não puderem igualar a capacidade do OpenAI, eles não conseguirão conquistar o mercado do OpenAI.

Portanto, as capacidades paralelas podem se tornar um dos principais pontos de competição para vários concorrentes da OpenAI.

GPT-5 foca na multimodalidade

Conforme mencionado anteriormente, há rumores de que o GPT-4 é um modelo de "mistura de especialistas" (MoE) composto por 16 modelos de especialistas. Aqui está uma breve explicação do que é "mixagem especializada", que se refere a dividir o "problema" do usuário em vários subproblemas, e cada subproblema é entregue a um modelo menor (ou seja, um "expert") para resolver e, em seguida, através de um O "modelo de roteamento" é selecionado e combinado e, em seguida, enviado para o usuário.

Rumores afirmam ainda que cada "especialista" do GPT-4 tem 111 bilhões de parâmetros equivalentes ao GPT-3 (isso é consistente com os parâmetros do GPT-4 que Sam Altman disse anteriormente serem ainda menores que o GPT-3.5), dos quais existem 55 bilhões de parâmetros são compartilhados. Cada passagem direta de inferência (gerando uma saída de token) usa dois "especialistas", consumindo efetivamente cerca de 280 bilhões de parâmetros. Esse número é significativamente menor do que o número necessário sem o MoE e também é semelhante às previsões de muitos estudiosos no estágio inicial.

Vale a pena notar que os rumores indicam que os dados de texto e código usados para o treinamento GPT-4 são reutilizados. Combinado com a escolha de usar a estrutura do MoE, eu pessoalmente acho: ou os dados de texto de alta qualidade que podem ser facilmente obtidos no momento estão quase esgotados ou a melhoria do desempenho do LLM aumentando a quantidade de dados sem limite já é muito limitado.

No entanto, não importa qual seja a situação, se o GPT-5 deseja ter um grande avanço no desempenho, ele deve ser capaz de fazer pleno uso da grande quantidade existente de dados de vídeo, imagem e áudio, em outras palavras, é um " modelo multimodal".

O problema é que, de acordo com esse boato, a atual multimodalidade visual do OpenAI não tem muito a oferecer. É um codificador visual independente que usa texto como entrada para pré-treinamento e, em seguida, usa cerca de 2 trilhões de tokens para ajuste fino. Este método de treinamento obviamente não pode fazer pleno uso dos dados de vídeo, imagem e áudio existentes.

Portanto, a OpenAI sempre enfatizou que o GPT-5 não foi treinado e a probabilidade é verdadeira. Antes de treinar o GPT-5, eles precisavam encontrar uma arquitetura de modelo multimodal melhor para que o modelo pudesse fazer pleno uso dos dados de áudio e vídeo. Somente sendo capaz de usar esses dados de treinamento de alta qualidade, o GPT-5 pode obter melhoria de capacidade suficiente. (Ao mesmo tempo, se o GPT-5 pode realmente fazer pleno uso desses dados de áudio e vídeo, então, seja AGI ou o recentemente proposto "Super Intelligence Body" da OpenAI, parece que não está tão longe.)

A OpenAI pode ter divulgado este boato intencionalmente

Esta inferência é uma especulação puramente pessoal. Fatos não são suficientes, basta dar uma olhada.

Meu entendimento é que a OpenAI está bem ciente de que o fosso do GPT-4 não é profundo; na mania de hoje, não é difícil para os concorrentes alcançá-lo. E como analisado acima, sua atual estrutura de modelo multimodal em grande escala não deve ser finalizada. Neste momento, se novos jogadores surgirem e saírem do multimodal, a probabilidade de OpenAI ser ultrapassado pela curva também é muito alta .

Portanto, este pode ser o plano da OpenAI para desacelerar a guerra - revelarei algumas informações do GPT-4 para você, deixarei que os principais jogadores façam o trabalho de reencenação do GPT-4 e caminhe pela estrada que o OpenAI já percorreu. .

Se, durante esse processo, a OpenAI tiver estabelecido as bases para o treinamento do GPT-5 e concluído a pesquisa preliminar do grande modelo multimodal, mesmo que o GPT-4 tenha sido superado por outros grandes modelos de linguagem, o OpenAI não entrará em pânico. Pessoalmente, acho que a multimodalidade provavelmente será a última geração de envolvimento humano, e a AGI pode ser a principal força no futuro desenvolvimento e evolução do modelo. Em outras palavras, se você vencer desta vez, poderá vencer até o fim.

Ver original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Recompensa
curtir
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
Pump.Fun Debuts on Gate
22 Popularidade
Join Gate VIP to Win MacBook
28k Popularidade
Trump Tariff Hikes
14k Popularidade
4HK Stablecoin Rules
11k Popularidade
5Truth Social Crypto ETF
957 Popularidade
6Gate Square Writing Contest Phase 1
5k Popularidade
7Altcoin ETF Watch
4k Popularidade
8Gate Alpha Trading Share
11k Popularidade
9Dr.Han Joins Gate Square
45k Popularidade
10Gate Square Creator Spark Program
152k Popularidade

Marcar

sitemap