Desigualdad en el modelo de IA: ¡la formación en chino cuesta el doble que en inglés!

2023-08-03 05:55:41

Fuente: Ifanr

Autor: Mo Chong Yu

Recientemente, el usuario de X (anteriormente Twitter) @Dylan Patel mostró un estudio de la Universidad de Oxford: al estudiar el lenguaje de GPT-4 y la mayoría de los otros LLM comunes, el estudio encontró que el costo de la inferencia de LLM (modelo de lenguaje grande) es muy diferente. grande.

Entre ellos, la entrada y salida en inglés son mucho más baratas que en otros idiomas. El costo del chino simplificado es aproximadamente 2 veces mayor que el del inglés, el costo del español es 1,5 veces mayor que el del inglés y el costo del shan birmano es 15 veces mayor que el del inglés. .

El principio se remonta a un artículo publicado por la Universidad de Oxford en arXiv en mayo de este año.

Léxico es el proceso de convertir texto de lenguaje natural en una secuencia de tokens, que es el primer paso en el procesamiento de texto de modelo de lenguaje. En el cálculo del costo de la potencia de cómputo de LLM, cuantos más tokens, mayor será el costo de la potencia de cómputo.

Sin duda, bajo la tendencia de comercialización de la IA generativa, el costo del poder de cómputo también recaerá sobre los usuarios.Muchos servicios actuales de IA se facturan de acuerdo con la cantidad de palabras que deben procesarse.

El artículo muestra que después de analizar 17 métodos de lematización, los investigadores encontraron que la longitud del mismo texto se convierte en secuencias de lemas en diferentes idiomas.La longitud es totalmente justa.

Por ejemplo, según el tokenizador GPT3 de OpenAI, si tokenizas "tu amor", solo se necesitan dos tokens en inglés, mientras que en chino simplificado se requieren ocho tokens. Aunque el texto en chino simplificado tiene solo 4 caracteres y el texto en inglés tiene 14 caracteres.

De las imágenes expuestas por el usuario X @Dylan Patel, también se puede ver intuitivamente que se necesitan 17 tokens (tokens) para que LLM procese una oración en inglés y 198 tokens (tokens) para que LLM procese una oración en birmano con el mismo significado. Esto significa que el birmano será 11 veces más caro de procesar que el inglés.

Hay muchas situaciones similares. El sitio web de Aleksandar Petrov proporciona muchos íconos y datos relacionados. Los amigos interesados pueden hacer clic en "Entrar para ver las diferencias entre idiomas".

También hay una página similar en el sitio web oficial de OpenAI, que explica cómo la API lematiza un fragmento de texto y muestra la cantidad total de tokens en el texto. El sitio web oficial también menciona que un lema generalmente corresponde a unos 4 caracteres en un texto en inglés, y 100 lemas equivalen a unas 75 palabras.

Gracias a la corta longitud de las secuencias léxicas en inglés, el inglés es el mayor ganador en cuanto a la rentabilidad de la capacitación previa en inteligencia artificial generativa, lo que deja muy atrás a otros usuarios del idioma, creando indirectamente una situación injusta.

Entre otras cosas, esta diferencia en la longitud de la secuencia del token puede generar una latencia de procesamiento injusta (algunos idiomas tardan más en procesar el mismo contenido) y un modelado injusto de dependencias de secuencia larga (algunos idiomas solo pueden procesar texto más corto).

En pocas palabras, los usuarios de ciertos idiomas deben pagar costos más altos, sufrir mayores retrasos y obtener un rendimiento más bajo, lo que reduce su acceso justo a las oportunidades de tecnología del idioma, lo que indirectamente lleva a los usuarios de habla inglesa y una IA se divide entre el resto del uso del idioma del mundo.

Solo por el costo de producción, el costo del chino simplificado es el doble que el del inglés. Con el desarrollo profundo del campo de la IA, el chino simplificado, que siempre está "a un paso", obviamente no es amigable. Bajo el equilibrio de factores superpuestos como el costo, los países de habla no inglesa también están tratando de desarrollar sus propios modelos de idioma nativo.

Tomando a China como ejemplo, como uno de los primeros gigantes nacionales en explorar la IA, el 20 de marzo de 2023, Baidu lanzó oficialmente la IA generativa Wenxin Yiyan.

Posteriormente, surgieron lotes de excelentes modelos a gran escala, como el modelo a gran escala Tongyi Qianwen de Alibaba y el modelo a gran escala Pangu de Huawei, uno tras otro.

Entre ellos, el modelo grande de NLP en el modelo grande Pangu de Huawei es el primer modelo grande chino de la industria con 100 mil millones de parámetros, que tiene 110 mil millones de parámetros densos y está entrenado con 40 TB de datos masivos.

Como advirtió una vez en la Asamblea General de la ONU la vicesecretaria general de las Naciones Unidas, Amina Mohamed, si la comunidad internacional no actúa con decisión, la brecha digital se convertirá en “la nueva cara de la desigualdad”.

De la misma manera, con el rápido desarrollo de la IA generativa, es probable que la brecha de la IA se convierta en una nueva ronda de "nuevas caras de la desigualdad" dignas de atención.

Afortunadamente, los gigantes tecnológicos domésticos que suelen estar "disgustados" ya han tomado medidas.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
Gate 2025 Q2 Report Released
4k Popularidad
Gate Derivatives Volume Hits New High
6k Popularidad
CPI Data Incoming
3k Popularidad
4Join Gate VIP to Win MacBook
29k Popularidad
5MicroStrategy Buys More Bitcoin
496 Popularidad
6BTC Hits New High
95k Popularidad
7My Gate Moments
27k Popularidad
8VIP Exclusive Airdrop Carnival
26k Popularidad
9Fed June Meeting Minutes
7k Popularidad
10Gate Alpha Trading Share
14k Popularidad

Anclado