Os grandes modelos chineses custam mais dinheiro do que os ingleses. Isso é realmente determinado pelos princípios subjacentes da IA?

Question

Fonte: Poder da Tecnologia FuturaAutor: Li XinshuaiO uso de ferramentas de IA como o ChatGPT está se tornando cada vez mais comum. Ao interagir com a IA, sabemos que as diferenças nas palavras do prompt de entrada afetarão os resultados de saída. Então, se palavras com o mesmo significado forem expressas em idiomas diferentes, os resultados serão significativamente diferentes? Além disso, a entrada e a saída das palavras de prompt estão diretamente ligadas ao valor do cálculo por trás do modelo. Portanto, existem diferenças naturais ou "injustiças" entre diferentes idiomas em termos de produção de IA e consumo de custos? Como surge essa “injustiça”?Entende-se que o que está por trás da dica não é, na verdade, um texto, mas um token. Depois de receber as palavras de prompt inseridas pelo usuário, o modelo converterá a entrada em uma lista de tokens para processamento e previsão e, ao mesmo tempo, converterá os tokens previstos nas palavras que vemos na saída. Ou seja, token é a unidade básica de processamento do modelo de linguagem e geração de texto ou código. Pode-se notar que vários fabricantes declaram quantos contextos de token seus modelos suportam, em vez do número de palavras ou caracteres chineses suportados.## Fatores que afetam o cálculo do tokenEm primeiro lugar, um token não corresponde a uma palavra inglesa ou a um caracter chinês e não existe uma relação de conversão específica entre o token e a palavra. Por exemplo, de acordo com a ferramenta de cálculo de tokens divulgada pela OpenAI, a palavra hambúrguer é dividida em presunto, hambúrguer e ger, com um total de 3 tokens. Além disso, se a mesma palavra tiver estruturas diferentes em duas frases, ela será registrada como um número diferente de tokens.A forma como o token específico é calculado depende principalmente do método de tokenização usado pelo fabricante. Tokenização é o processo de divisão do texto de entrada e saída em tokens que podem ser processados por um modelo de linguagem. Esse processo ajuda o modelo a lidar com diferentes idiomas, vocabulários e formatos. Por trás do ChatGPT está um método de tokenização chamado "Byte-Pair Encoding" (BPE).Atualmente, o número de tokens em que uma palavra é decomposta está relacionado à sua pronúncia e estrutura na frase. E as diferenças de cálculo entre os diferentes idiomas parecem ser grandes.Tomando como exemplo o "hambúrguer" chinês correspondente a "hambúrguer", esses três caracteres chineses são contados como 8 fichas, ou seja, são divididos em 8 partes.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-272da11621-dd1a6f-6d2ef1) Fonte: captura de tela do site oficial da OpenAIVamos pegar outro parágrafo para comparar a “injustiça” dos cálculos de tokens nos idiomas chinês e inglês.A seguir está uma frase do site oficial da OpenAI: Você pode usar a ferramenta abaixo para entender como um trecho de texto seria tokenizado pela API e a contagem total de tokens nesse trecho de texto. Existem 33 tokens no total em esta passagem.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0ac72bb8c6-dd1a6f-6d2ef1) Fonte: Captura de tela do site oficial da OpenAIO chinês correspondente é: Você pode usar as seguintes ferramentas para entender como a API tokeniza um trecho de texto e o número total de tokens nesse trecho de texto. Um total de 76 fichas.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-91d7ad7105-dd1a6f-6d2ef1) Fonte: captura de tela do site oficial da OpenAI## Os idiomas chinês e inglês são naturalmente "injustos" na IAPode-se observar que o número de tokens chineses com o mesmo significado é mais que o dobro do inglês. A "injustiça" entre o chinês e o inglês no treinamento e no raciocínio pode ser devida ao fato de que uma única palavra em chinês pode expressar múltiplos significados, e a composição da língua é relativamente flexível. O chinês também tem profundas conotações culturais e ricos significados contextuais, o que é extremamente Aumenta muito a ambiguidade e a dificuldade de processamento da linguagem; a estrutura gramatical do inglês é relativamente simples, o que torna o inglês mais fácil de ser processado e compreendido do que o chinês em algumas tarefas de linguagem natural.Os chineses precisam processar mais tokens, mais memória e recursos computacionais o modelo consome e, claro, maior será o custo.Ao mesmo tempo, embora o ChatGPT possa reconhecer vários idiomas, incluindo o chinês, a maioria dos conjuntos de dados que utiliza para treinamento são textos em inglês. Ao lidar com idiomas diferentes do inglês, pode enfrentar desafios na estrutura e na gramática do idioma, o que afetará o efeito de saída. Um artigo recente intitulado "Os modelos de idiomas multilíngues têm melhor desempenho em inglês?" "(Do Multilingual Language Models Think Better in English?) O artigo mencionou que quando o idioma diferente do inglês é traduzido para o inglês, o resultado da saída é melhor do que o resultado do uso direto do idioma diferente do inglês como palavra de alerta.Para os usuários chineses, parece que traduzir primeiro o chinês para o inglês e depois interagir com a IA parece ser mais eficaz e econômico. Afinal, usar a API do modelo GPT-4 da OpenAI custa pelo menos US$ 0,03 para cada entrada de 1.000 tokens.Devido à complexidade da língua chinesa, os modelos de IA podem enfrentar desafios na utilização de dados chineses para formação e inferência precisas, e aumentar a dificuldade de aplicação e manutenção de modelos chineses. Ao mesmo tempo, para as empresas que desenvolvem modelos de grande porte, a fabricação de grandes modelos chineses pode ter que arcar com custos maiores porque exigem recursos adicionais.