Los grandes modelos chinos queman más dinero que los ingleses, ¿está esto realmente determinado por los principios subyacentes de la IA?

Question

Fuente: Poder tecnológico futuroAutor: Li XinshuaiEl uso de herramientas de inteligencia artificial como ChatGPT es cada vez más común. Al interactuar con la IA, sabemos que las diferencias en las palabras clave de entrada afectarán los resultados de salida. Entonces, si se expresan palabras con el mismo significado en diferentes idiomas, ¿los resultados serán significativamente diferentes? Además, la entrada y salida de palabras clave están directamente vinculadas al monto calculado detrás del modelo. Por lo tanto, ¿existen diferencias naturales o "injusticias" entre diferentes idiomas en términos de producción de IA y consumo de costos? ¿Cómo surge esta "injusticia"?Se entiende que lo que hay detrás de la pista en realidad no es un texto, sino una ficha. Después de recibir las palabras ingresadas por el usuario, el modelo convertirá la entrada en una lista de tokens para procesamiento y predicción, y al mismo tiempo convertirá los tokens predichos en las palabras que vemos en la salida. Es decir, el token es la unidad básica de procesamiento del modelo de lenguaje y generación de texto o código. Se puede observar que varios fabricantes declararán cuántos contextos simbólicos admiten sus modelos, en lugar de la cantidad de palabras o caracteres chinos admitidos.## Factores que afectan el cálculo del tokenEn primer lugar, un token no corresponde a una palabra inglesa o un carácter chino, y no existe una relación de conversión específica entre el token y la palabra. Por ejemplo, según la herramienta de cálculo de tokens publicada por OpenAI, la palabra hamburguesa se descompone en jamón, fresa y ger, con un total de 3 tokens. Además, si una misma palabra tiene estructuras diferentes en dos frases, se registrará como un número diferente de fichas.La forma de calcular el token específico depende principalmente del método de tokenización utilizado por el fabricante. La tokenización es el proceso de dividir el texto de entrada y salida en tokens que pueden ser procesados por un modelo de lenguaje. Este proceso ayuda al modelo a manejar diferentes idiomas, vocabularios y formatos. Detrás de ChatGPT hay un método de tokenización llamado codificación de pares de bytes (BPE).En la actualidad, el número de tokens en los que se descompone una palabra está relacionado con su pronunciación y estructura en la oración. Las diferencias computacionales entre idiomas parecen ser mayores.Tomemos como ejemplo la "hamburguesa" china correspondiente a "hamburguesa", estos tres caracteres chinos se cuentan como 8 fichas, es decir, se dividen en 8 partes.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-272da11621-dd1a6f-6d2ef1) Fuente: captura de pantalla del sitio web oficial de OpenAITomemos otro párrafo para comparar la "injusticia" de los cálculos de tokens en chino e inglés.La siguiente es una oración del sitio web oficial de OpenAI: Puede utilizar la siguiente herramienta para comprender cómo la API tokenizaría un fragmento de texto y el recuento total de tokens en ese fragmento de texto. Esta oración tiene un total de 33 fichas.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0ac72bb8c6-dd1a6f-6d2ef1) Fuente: Captura de pantalla del sitio web oficial de OpenAIEl chino correspondiente es: Puede utilizar las siguientes herramientas para comprender cómo la API tokeniza un fragmento de texto y el número total de tokens en este fragmento de texto. Un total de 76 fichas.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-91d7ad7105-dd1a6f-6d2ef1) Fuente: captura de pantalla del sitio web oficial de OpenAI## Los idiomas chino e inglés son naturalmente "injustos" con la IASe puede ver que la cantidad de tokens chinos con el mismo significado es más del doble que la del inglés. La "injusticia" entre el chino y el inglés en el entrenamiento y el razonamiento puede deberse al hecho de que una sola palabra en chino puede expresar múltiples significados y la composición del idioma es relativamente flexible. El chino también tiene profundas connotaciones culturales y ricos significados contextuales, lo cual es extremadamente Aumenta en gran medida la ambigüedad y la dificultad de procesamiento del lenguaje; la estructura gramatical del inglés es relativamente simple, lo que hace que el inglés sea más fácil de procesar y comprender que el chino en algunas tareas del lenguaje natural.Los chinos necesitan procesar más tokens y el modelo consume más memoria y recursos informáticos y, por supuesto, mayor es el costo.Al mismo tiempo, aunque ChatGPT puede reconocer varios idiomas, incluido el chino, la mayoría de los conjuntos de datos que utiliza para el entrenamiento son textos en inglés. Cuando se trata de idiomas distintos del inglés, puede enfrentar desafíos en la estructura y gramática del idioma, lo que afectará el efecto de salida. Un artículo reciente titulado "¿Los modelos de lenguaje multilingüe funcionan mejor en inglés?" "(¿Los modelos de lenguaje multilingüe piensan mejor en inglés?) Mencionó que cuando el idioma distinto del inglés se traduce al inglés, el resultado de salida es mejor que el resultado de usar directamente el idioma distinto del inglés como palabra clave.Para los usuarios chinos, parece que traducir primero del chino al inglés y luego interactuar con la IA parece ser más efectivo y rentable. Después de todo, usar la API del modelo GPT-4 de OpenAI cobrará al menos 0,03 dólares estadounidenses por cada 1.000 tokens introducidos.Debido a la complejidad del idioma chino, los modelos de IA pueden enfrentar desafíos al utilizar datos chinos para un entrenamiento y razonamiento precisos, y aumentar la dificultad de aplicar y mantener los modelos chinos. Al mismo tiempo, las empresas que desarrollan modelos a gran escala pueden tener que soportar mayores costos debido a la necesidad de recursos adicionales para fabricar modelos a gran escala en chino.