Con grandes datos, grandes parámetros y gran potencia de cómputo, "surgirán" ciertas capacidades de los grandes modelos, que están ampliamente difundidas en el círculo tecnológico.
La idea principal de hacer un modelo grande es: no digas fácilmente que el modelo "no funciona", si "aún no funciona", entonces hazlo más grande.
Por lo tanto, en menos de un año, la escala de parámetros del modelo grande ha aumentado 100 veces, y ahora ha superado el nivel de billones, el consumo de recursos es enorme y también ha traído costos de almacenamiento cada vez más altos, costos de inferencia, costos de operación y mantenimiento y costos de aterrizaje. y los costos sociales.
En la actualidad, el modelo grande todavía está en los albores de la comercialización, y todavía hay muchas incógnitas e incertidumbres sobre cómo recuperar la inversión en el modelo grande, y el modelo grande se ha ido haciendo más grande y se ha convertido en un negocio extremadamente quemador de dinero, respaldado por Open AI de Microsoft, que perderá alrededor de $ 540 millones en 2022.
El costo cada vez mayor es la factura del dinero real, y la "gota que colma el vaso" sobre las grandes empresas modelo. El CEO de Anthropic, Dario Amodei, predijo recientemente que su modelo costará 10.000 millones de dólares en los próximos dos años.
Además de las propias empresas, la sociedad también soporta los costes ocultos de los grandes modelos. Google ha informado de que la formación PaLM consume unos 3,4 kWh de electricidad en unos dos meses, lo que equivale al consumo total anual de energía de 300 hogares. La carga y el coste del elevado consumo de energía sobre el medio ambiente que supone el gran modelo son pagados en última instancia por toda la sociedad.
Obviamente, tanto desde el punto de vista comercial como medioambiental, el tamaño del modelo de competencia es insostenible.
La era de la búsqueda ciega de la grandeza ha pasado.
La pregunta es, ¿cómo "reducir la carga" del modelo grande?
De hecho, los principales fabricantes de modelos grandes en general han estado llevando a cabo activamente la campaña de "reducción de costes".
Por ejemplo, Microsoft anunció en Microsoft Build 2020 que la supercomputadora de supercomputación de IA que impulsa GPT-3 puede hacer que los modelos de IA sean 16 veces más eficientes que otras plataformas, y un entrenamiento más rápido puede reducir el tiempo y los costos de riesgo.
Los modelos domésticos grandes no son una excepción.
Ya en la versión 2.0, el modelo grande de Pangu intentó adoptar una arquitectura dispersa + densa para reducir el costo de entrenamiento. Un mes después de su lanzamiento, Wenxin Yiyan también mejoró el rendimiento de inferencia del modelo grande en casi 10 veces a través de medios técnicos, y el costo de inferencia se redujo a una décima parte del costo original.
Para evitar hincharse y pesar, es imperativo convertirse en una herramienta que todos puedan usar, y el "movimiento de adelgazamiento de costos" de los modelos grandes. ¿Cómo? Este artículo hablará sobre este tema.
Un bocado no puede hacer a un hombre gordo
¿Qué costes de los modelos grandes se pueden optimizar, qué costes no se pueden reducir y qué costes hay que seguir invirtiendo? Antes de que te des cuenta de esto, primero tienes que saber cómo engordar. Con el fin de garantizar el rendimiento y la experiencia del usuario (salud) del modelo grande, la "reducción de costos" se puede llevar a cabo de manera razonable y precisa.
En pocas palabras, los tres elementos de la IA (datos, potencia informática y algoritmos) siguen siendo los factores más críticos para determinar el coste de los grandes modelos.
Empecemos por los datos. ** Basura que entra, basura que sale, todavía aplicable en la era de los modelos grandes.
La calidad de los datos determina directamente las capacidades del modelo grande. OpenAI ha reclutado a varios doctores para procesar datos profesionales en diversas industrias, y ha contratado a varias empresas de anotación de datos, como la empresa unicornio Scale AI, para alimentar a GPT-3 con conjuntos de datos a gran escala. Al mismo tiempo, el modelo de algoritmo continuará actualizándose de forma iterativa y la demanda de volumen de datos continuará durante un breve período de tiempo con el aumento del uso y la optimización del rendimiento.
Una de las principales razones del alto costo de los modelos grandes chinos es que todavía existe una brecha entre la cantidad y la calidad de los datos chinos y el inglés, y es necesario recopilar y procesar más datos en idioma chino para entrenar modelos grandes chinos. Por otro lado, la estructura gramatical del inglés es más simple que la del chino, la complejidad y diversidad de los textos chinos, algunas palabras chinas pueden expresar una variedad de significados, un contexto rico y muchas ambigüedades y dificultades en la comprensión del contexto, lo que también aumenta la dificultad de entrenamiento de los modelos chinos y requiere recursos adicionales para apoyar el entrenamiento de los modelos chinos grandes.
Hablemos de la potencia de cómputo. **
Los recursos deben calcularse y almacenarse a lo largo del entrenamiento, la operación, el servicio y la iteración de modelos grandes.
El entrenamiento de modelos grandes se centra en una "estética violenta", y cuanto mayores son los parámetros, más recursos informáticos se utilizan para el entrenamiento. GPT-3 utiliza un superordenador que contiene 10.000 GPU y 285.000 núcleos de procesador. El Wenxin 4.0 doméstico también se entrena en el clúster Vanka basado en la plataforma de remo.
Y eso no es todo. Los modelos grandes se exponen a los servicios después de la implementación y, a medida que aumenta el uso, es necesario completar más y más tareas de inferencia. El proceso de razonamiento de "pensar" y "producir" en 24 horas también continuará consumiendo recursos informáticos, al igual que el cerebro humano necesita consumir glucógeno cuando se enfrenta a una gran cantidad de tareas complejas, y es fácil sentir hambre y tener que comer una comida abundante para reponer energía. Por lo tanto, el costo de inferencia de los modelos grandes también es muy alto.
La inferencia de GPT-3 después del despliegue de 175B requiere al menos cinco GPU A100, y se dice que los modelos grandes que están abiertos a toda la sociedad en China, como Wenxin Yiyan, tienen entre 8 y 10 veces el costo de inferencia que la generación anterior.
Por último, hablemos del algoritmo. **
Para reducir la enorme dependencia de los grandes modelos de los recursos informáticos, una solución convencional es optimizar el modelo, sobre la base de un rendimiento sin cambios, con una velocidad de inferencia más rápida, una latencia más pequeña y menores requisitos de recursos, lo que equivale a una mayor relación de entrada-salida de ROI, y el costo unitario de los recursos informáticos necesarios para el entrenamiento y la inferencia es menor.
Hay tanto trabajo como inteligencia, y es imposible hacer un gran modelo que realmente se pueda tocar sin talentos. El desarrollo de algoritmos, las pruebas, la iteración, la producción, etc., requieren una gran cantidad de talentos técnicos. Si el costo de mano de obra es alto o no depende de si el modelo de negocio del modelo grande es robusto.
El equipo de talentos con calificaciones académicas completas es bastante competitivo en la etapa de investigación y desarrollo. La pregunta es, ¿cómo se gana dinero? Llamadas a la API o cargos por uso, un token cuesta menos de un centavo y el retorno de la inversión puede estar muy lejos; Suscripción paga (versión profesional), el modelo grande de cabeza tiene un efecto de sifón, todos elegirán OpenAI o BATH y otros grandes fabricantes, se desconoce si su propio modelo grande puede ser aceptado por los usuarios y dispuesto a pagar; Para personalizar el desarrollo para los clientes de la industria, ToB debe tener un conocimiento profundo de la industria, la investigación, el desarrollo, las pruebas y la iteración, de modo que los ingenieros de algoritmos con un salario anual de decenas de millones puedan permanecer en el sitio de construcción durante unos meses, y se estima que el margen de beneficio bruto del proyecto no es muy bueno.
Por lo tanto, el éxito de un modelo grande depende no solo de la capacidad del algoritmo en sí, sino también de si el ciclo de negocio desde el desarrollo hasta la implementación es sostenible.
Cierra la boca y abre las piernas
Si comparamos el costo del modelo grande con el de una persona que quiere perder el exceso de grasa, entonces este objetivo se puede dividir en dos formas básicas:
Una de ellas es crear una "diferencia de calor". Es mantener la boca cerrada y abrir las piernas, controlar la inversión, restar el exceso de costos, acelerar la comercialización y aumentar los ingresos, y perder peso de forma natural.
La segunda es convertirse en un "fácil de perder peso". Comprenda completamente el mecanismo de los modelos grandes, use una nueva arquitectura para resolver el problema del mecanismo de atención del transformador y tenga el físico de "no importa cómo comas, no puedes engordar".
¿No te parece que la segunda es muy tentadora?
¿No tienes que controlar los costos, atraer usuarios, personalizar los servicios y acostarte fácilmente para ganar dinero, y este tipo de cosas buenas? Verdaderamente.
En la actualidad, todos los grandes modelos de lenguaje utilizan la arquitectura Transformer, que es difícil de procesar textos largos e imágenes de alta resolución, y el razonamiento lógico y la inducción de conocimiento se basan en "producir milagros vigorosamente", lo cual es costoso. Muchos de los principios básicos aún no están claros, lo que conduce a muchos problemas existentes, como la generación de "alucinaciones" y una capacidad de razonamiento limitada.
El ganador del Premio Turing, Yann LeCun, ha criticado el paradigma técnico de los grandes modelos de lenguaje más de una vez, diciendo que "los LLM tienen una comprensión muy superficial del mundo", y quiere construir un "modelo mundial" para aprender cómo funciona el mundo, luego formar un modelo interno y luego usar este modelo interno para realizar diversas tareas. Además, hay muchos científicos que discuten la inteligencia general de AGI desde sus respectivos campos de investigación.
En resumen, muchos de los principios de los grandes modelos lingüísticos actuales no están claros, y la tecnología aún está cambiando. En el futuro, pueden surgir otros paradigmas tecnológicos para subvertir el modelo actual de buscar ciegamente ser más grandes, y entonces puede que no haya necesidad de costos excesivos y dolorosos "adelgazamientos".
Es posible que se haya dado cuenta de que investigar los principios subyacentes y encontrar una tecnología AGI más poderosa suena bien, pero en realidad no es un marcador y aún no hay un cronograma claro. El paradigma técnico de esta ronda de grandes modelos lingüísticos es factible en la práctica de la ingeniería, puede funcionar en la industria y tiene un claro efecto de mejora de la calidad y la eficiencia. Usarlo primero y comprender el presente es la máxima prioridad para las empresas de tecnología.
Por lo tanto, las empresas modelo a gran escala solo pueden mantener la boca cerrada, abrir las piernas, controlar los costos lo antes posible, acelerar la comercialización y crear una "diferencia calorífica" para un desarrollo benigno y sostenible.
Movimiento de Cuatro Modernizaciones para Crear "Diferencia Calórica"
Entonces, ¿cómo se crea exactamente una "diferencia de calor"? **Basándonos en los métodos convencionales actualmente en el mercado, los resumimos como el "Movimiento de las Cuatro Modernizaciones": escala de datos, compresión de modelos, eficiencia informática y estratificación empresarial. **
La escala de datos es mejorar el beneficio marginal de los datos y obtener el mejor rendimiento de costos a través del efecto de escala. El efecto de escala se logra principalmente a través de tres formas, una es la escala de concentración industrial, y el nivel nacional ha propuesto claramente "acelerar el cultivo del mercado de elementos de datos", lo que implica la producción, recopilación, almacenamiento, procesamiento, análisis, servicio y otros vínculos de datos, la industrialización ayudará a reducir el costo de los datos de las grandes empresas modelo. La segunda es la aplicación de herramientas de IA, que reduce la participación manual en todos los aspectos de la ingeniería de datos, acelera el procesamiento de datos previamente entrenados y reduce los costos y mejora la eficiencia para el entrenamiento de modelos. La tercera es la escala de los datos de retroalimentación. Se espera que algunos modelos grandes que han abierto sus servicios a toda la sociedad antes, como Baidu Wenxin Yiyan, "SenseChat" de SenseTime, "Baichuan Model" de Baichuan Intelligence, "Spark Model" de iFLYTEK, etc., alcancen la escala de datos óptima con beneficios marginales más rápido.
Hay un beneficio marginal en los datos. OpenAl ya permite a los usuarios decidir si les permiten utilizar los datos del chat para el entrenamiento, lo que significa que ya no pueden confiar en los datos de los comentarios de los usuarios, por lo que se puede controlar el coste del almacenamiento y la computación de los datos.
La compresión del modelo consiste en mejorar el rendimiento del modelo, lograr un mayor rendimiento con menos recursos y transformar el modelo grande que consume muchos recursos en una versión más compacta y eficiente a través de la tecnología de compresión. Al igual que la conversión de grasa en músculo, el músculo es más denso y el peso (rendimiento) sigue siendo el mismo, mientras que la persona se vuelve más delgada (más pequeña).
En la actualidad, existen tres métodos comunes de compresión de modelos grandes: cuantificación, poda y destilación de conocimiento. **
La cuantificación, equivalente a la liposucción, es simple y cruda pero efectiva. Cuanto mayor sea la precisión del modelo, más espacio de almacenamiento se requiere. Sin embargo, en la inferencia, no es necesario capturar cambios de gradiente muy pequeños en modelos complejos, por lo que la cuantificación puede reducir directamente la precisión de los parámetros del modelo y "extraer" información detallada, reduciendo así el espacio ocupado y no reduciendo la capacidad de inferencia. Por ejemplo, Qualcomm AI Research utiliza tecnología de cuantificación para mantener la precisión del modelo en un nivel más bajo de precisión, y ha implementado Stable Diffusion en teléfonos inteligentes Android por primera vez. La tecnología cuantitativa también se ha aplicado en grandes modelos domésticos como Wenxin y Pangu.
La poda, similar a la "escisión", resta directamente algunas ramas laterales que tienen poco efecto en el efecto, como una gran cantidad de estructuras y neuronas redundantes, y se eliminan estos pesos más pequeños, lo que tiene poco impacto en el efecto del modelo y reduce el tamaño del modelo. Por supuesto, la poda es un "trabajo artesanal", y cuanto más precisa sea la poda, menor será la pérdida de precisión del modelo y mejor será el efecto de compresión.
La destilación de conocimiento es dejar que el modelo grande "sauna", y el modelo de 100 mil millones se destila en una sola pasada para producir varios modelos pequeños con un rendimiento similar y una estructura más simple, y el costo de aterrizaje es menor. El desafío es que la destilación modelo con una escala de 100 mil millones también consume recursos informáticos extremadamente altos, y la brecha de volumen de datos de 100 mil millones a decenas de millones es demasiado grande, lo que es fácil de afectar el efecto de destilación. La destilación no destructiva es uno de los puntos de competencia técnica de los principales fabricantes.
Dado que la tecnología de compresión de modelos también consume recursos informáticos, es especialmente importante mejorar la eficiencia informática de la infraestructura informática.
La eficiencia informática es la premisa para que los grandes fabricantes de modelos proporcionen servicios de modelos con mayor eficiencia.
El rendimiento de los chips y los clústeres de computación es el foco de la investigación y la optimización. Microsoft Cloud Azure ha creado una supercomputadora para computación de IA específicamente para OpenAI. Los fabricantes nacionales, como Baidu y Huawei, tienen chips de desarrollo propio y marcos de aprendizaje profundo, que pueden mejorar la eficiencia informática a través de la optimización de extremo a extremo, mejorar la velocidad de entrenamiento y la velocidad de inferencia de modelos grandes y reducir el tiempo y los costos de capacitación.
Sin embargo, en el caso de los modelos grandes no generales, como los modelos industriales y los modelos industriales, el efecto de escala y la tecnología de optimización de hardware son limitados, y el costo de crear y mantener la infraestructura por sí mismo es muy alto, por lo que el uso de servicios en la nube para entrenar e implementar servicios es una opción más rentable.
En el análisis final, los grandes modelos necesitan aumentar los ingresos comerciales para lograr el propósito de optimizar el ROI y recuperar los costos. En la actualidad, la comercialización de varios modelos de gran tamaño refleja evidentes características jerárquicas.
En pocas palabras, es un modelo grande con diferentes volúmenes, diferentes funciones y diferentes direcciones, y el camino de comercialización ha comenzado a estar claro.
El modelo general se basa en economías de escala y mercados de alto valor. OpenAI tiene una gran cantidad de usuarios, y el desarrollo de la economía de API tiene un efecto de escala, y la inversión inicial se puede compartir por igual con el crecimiento del volumen comercial. BATH (Baidu, Alibaba, Tencent, Huawei) y otros tienen sus propios negocios en la nube y han acumulado una rica experiencia en servicios industriales, especialmente las capacidades de alcance de clientes de grandes gobiernos y empresas, como finanzas, minería y asuntos gubernamentales, y tienen un gran potencial para la transformación comercial. Los altos requisitos de los clientes de ToB promueven la mejora de la experiencia y el efecto del modelo, y también pueden servir al mercado de TdC y amortizar aún más los costos a través de la escala.
El modelo de la gran industria restringe activamente los límites del producto y del negocio, se centra en el negocio y las funciones principales, y desarrolla pequeños modelos especializados con menos recursos, a fin de lograr un buen equilibrio entre el retorno de la inversión y la comercialización. Por ejemplo, en el campo financiero, el "Xuanyuan 70B" de Du Xiaoman ha incorporado una gran cantidad de corpus financieros profesionales para mejorar la comprensión del conocimiento financiero, cumplir con los requisitos especiales de los clientes financieros en términos de controlabilidad y seguridad, y ha sido solicitado para prueba por cientos de instituciones financieras.
Con todo, el modelo grande no solo es un camino universal y generalizado, sino que también la privatización y el despliegue personalizado de miles de industrias producirá factores de toma de decisiones como el precio, la privacidad y la seguridad, y también traerá una gran cantidad de oportunidades comerciales de segmentación. El modelo grande general, el modelo grande de la industria y el modelo pequeño propietario, los esfuerzos jerárquicos + conjuntos abren el camino a la comercialización. La armonía y la diferencia ponen a prueba la sabiduría de cada rol en la cadena industrial.
Para servicios sostenibles y a largo plazo, es necesario mantener la boca cerrada y abrir las piernas, y la "reducción de costos" del modelo grande es la única manera.
Este proceso puede ser doloroso, pero condensará un foso para proteger el desarrollo saludable de toda la industria.
En los años 40 del siglo XX, cuando recién nacían las computadoras, la gente se asombraba por el enorme cuerpo de este "monstruo de la máquina", pero luego comenzó el salto de la era de la información. Cuando nacieron los teléfonos inteligentes, los fabricantes de teléfonos básicos fueron extremadamente sarcásticos al respecto, pero no esperaban que este tipo de conexión inclusiva, donde todos pueden acceder a Internet, promoviera la prosperidad de Internet móvil.
A medida que los modelos grandes mejoren y bajen, la "IA para todos" ya no será un sueño lejano.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
El movimiento de "adelgazamiento de costes" de los modelos grandes
Fuente original: Cuerpo polar del cerebro
Con grandes datos, grandes parámetros y gran potencia de cómputo, "surgirán" ciertas capacidades de los grandes modelos, que están ampliamente difundidas en el círculo tecnológico.
La idea principal de hacer un modelo grande es: no digas fácilmente que el modelo "no funciona", si "aún no funciona", entonces hazlo más grande.
Por lo tanto, en menos de un año, la escala de parámetros del modelo grande ha aumentado 100 veces, y ahora ha superado el nivel de billones, el consumo de recursos es enorme y también ha traído costos de almacenamiento cada vez más altos, costos de inferencia, costos de operación y mantenimiento y costos de aterrizaje. y los costos sociales.
En la actualidad, el modelo grande todavía está en los albores de la comercialización, y todavía hay muchas incógnitas e incertidumbres sobre cómo recuperar la inversión en el modelo grande, y el modelo grande se ha ido haciendo más grande y se ha convertido en un negocio extremadamente quemador de dinero, respaldado por Open AI de Microsoft, que perderá alrededor de $ 540 millones en 2022.
El costo cada vez mayor es la factura del dinero real, y la "gota que colma el vaso" sobre las grandes empresas modelo. El CEO de Anthropic, Dario Amodei, predijo recientemente que su modelo costará 10.000 millones de dólares en los próximos dos años.
Además de las propias empresas, la sociedad también soporta los costes ocultos de los grandes modelos. Google ha informado de que la formación PaLM consume unos 3,4 kWh de electricidad en unos dos meses, lo que equivale al consumo total anual de energía de 300 hogares. La carga y el coste del elevado consumo de energía sobre el medio ambiente que supone el gran modelo son pagados en última instancia por toda la sociedad.
Obviamente, tanto desde el punto de vista comercial como medioambiental, el tamaño del modelo de competencia es insostenible.
La era de la búsqueda ciega de la grandeza ha pasado.
La pregunta es, ¿cómo "reducir la carga" del modelo grande?
De hecho, los principales fabricantes de modelos grandes en general han estado llevando a cabo activamente la campaña de "reducción de costes".
Por ejemplo, Microsoft anunció en Microsoft Build 2020 que la supercomputadora de supercomputación de IA que impulsa GPT-3 puede hacer que los modelos de IA sean 16 veces más eficientes que otras plataformas, y un entrenamiento más rápido puede reducir el tiempo y los costos de riesgo.
Los modelos domésticos grandes no son una excepción.
Ya en la versión 2.0, el modelo grande de Pangu intentó adoptar una arquitectura dispersa + densa para reducir el costo de entrenamiento. Un mes después de su lanzamiento, Wenxin Yiyan también mejoró el rendimiento de inferencia del modelo grande en casi 10 veces a través de medios técnicos, y el costo de inferencia se redujo a una décima parte del costo original.
Para evitar hincharse y pesar, es imperativo convertirse en una herramienta que todos puedan usar, y el "movimiento de adelgazamiento de costos" de los modelos grandes. ¿Cómo? Este artículo hablará sobre este tema.
Un bocado no puede hacer a un hombre gordo
¿Qué costes de los modelos grandes se pueden optimizar, qué costes no se pueden reducir y qué costes hay que seguir invirtiendo? Antes de que te des cuenta de esto, primero tienes que saber cómo engordar. Con el fin de garantizar el rendimiento y la experiencia del usuario (salud) del modelo grande, la "reducción de costos" se puede llevar a cabo de manera razonable y precisa.
En pocas palabras, los tres elementos de la IA (datos, potencia informática y algoritmos) siguen siendo los factores más críticos para determinar el coste de los grandes modelos.
Empecemos por los datos. ** Basura que entra, basura que sale, todavía aplicable en la era de los modelos grandes.
La calidad de los datos determina directamente las capacidades del modelo grande. OpenAI ha reclutado a varios doctores para procesar datos profesionales en diversas industrias, y ha contratado a varias empresas de anotación de datos, como la empresa unicornio Scale AI, para alimentar a GPT-3 con conjuntos de datos a gran escala. Al mismo tiempo, el modelo de algoritmo continuará actualizándose de forma iterativa y la demanda de volumen de datos continuará durante un breve período de tiempo con el aumento del uso y la optimización del rendimiento.
Una de las principales razones del alto costo de los modelos grandes chinos es que todavía existe una brecha entre la cantidad y la calidad de los datos chinos y el inglés, y es necesario recopilar y procesar más datos en idioma chino para entrenar modelos grandes chinos. Por otro lado, la estructura gramatical del inglés es más simple que la del chino, la complejidad y diversidad de los textos chinos, algunas palabras chinas pueden expresar una variedad de significados, un contexto rico y muchas ambigüedades y dificultades en la comprensión del contexto, lo que también aumenta la dificultad de entrenamiento de los modelos chinos y requiere recursos adicionales para apoyar el entrenamiento de los modelos chinos grandes.
Hablemos de la potencia de cómputo. **
Los recursos deben calcularse y almacenarse a lo largo del entrenamiento, la operación, el servicio y la iteración de modelos grandes.
El entrenamiento de modelos grandes se centra en una "estética violenta", y cuanto mayores son los parámetros, más recursos informáticos se utilizan para el entrenamiento. GPT-3 utiliza un superordenador que contiene 10.000 GPU y 285.000 núcleos de procesador. El Wenxin 4.0 doméstico también se entrena en el clúster Vanka basado en la plataforma de remo.
Y eso no es todo. Los modelos grandes se exponen a los servicios después de la implementación y, a medida que aumenta el uso, es necesario completar más y más tareas de inferencia. El proceso de razonamiento de "pensar" y "producir" en 24 horas también continuará consumiendo recursos informáticos, al igual que el cerebro humano necesita consumir glucógeno cuando se enfrenta a una gran cantidad de tareas complejas, y es fácil sentir hambre y tener que comer una comida abundante para reponer energía. Por lo tanto, el costo de inferencia de los modelos grandes también es muy alto.
La inferencia de GPT-3 después del despliegue de 175B requiere al menos cinco GPU A100, y se dice que los modelos grandes que están abiertos a toda la sociedad en China, como Wenxin Yiyan, tienen entre 8 y 10 veces el costo de inferencia que la generación anterior.
Por último, hablemos del algoritmo. **
Para reducir la enorme dependencia de los grandes modelos de los recursos informáticos, una solución convencional es optimizar el modelo, sobre la base de un rendimiento sin cambios, con una velocidad de inferencia más rápida, una latencia más pequeña y menores requisitos de recursos, lo que equivale a una mayor relación de entrada-salida de ROI, y el costo unitario de los recursos informáticos necesarios para el entrenamiento y la inferencia es menor.
Hay tanto trabajo como inteligencia, y es imposible hacer un gran modelo que realmente se pueda tocar sin talentos. El desarrollo de algoritmos, las pruebas, la iteración, la producción, etc., requieren una gran cantidad de talentos técnicos. Si el costo de mano de obra es alto o no depende de si el modelo de negocio del modelo grande es robusto.
El equipo de talentos con calificaciones académicas completas es bastante competitivo en la etapa de investigación y desarrollo. La pregunta es, ¿cómo se gana dinero? Llamadas a la API o cargos por uso, un token cuesta menos de un centavo y el retorno de la inversión puede estar muy lejos; Suscripción paga (versión profesional), el modelo grande de cabeza tiene un efecto de sifón, todos elegirán OpenAI o BATH y otros grandes fabricantes, se desconoce si su propio modelo grande puede ser aceptado por los usuarios y dispuesto a pagar; Para personalizar el desarrollo para los clientes de la industria, ToB debe tener un conocimiento profundo de la industria, la investigación, el desarrollo, las pruebas y la iteración, de modo que los ingenieros de algoritmos con un salario anual de decenas de millones puedan permanecer en el sitio de construcción durante unos meses, y se estima que el margen de beneficio bruto del proyecto no es muy bueno.
Por lo tanto, el éxito de un modelo grande depende no solo de la capacidad del algoritmo en sí, sino también de si el ciclo de negocio desde el desarrollo hasta la implementación es sostenible.
Cierra la boca y abre las piernas
Si comparamos el costo del modelo grande con el de una persona que quiere perder el exceso de grasa, entonces este objetivo se puede dividir en dos formas básicas:
Una de ellas es crear una "diferencia de calor". Es mantener la boca cerrada y abrir las piernas, controlar la inversión, restar el exceso de costos, acelerar la comercialización y aumentar los ingresos, y perder peso de forma natural.
La segunda es convertirse en un "fácil de perder peso". Comprenda completamente el mecanismo de los modelos grandes, use una nueva arquitectura para resolver el problema del mecanismo de atención del transformador y tenga el físico de "no importa cómo comas, no puedes engordar".
¿No te parece que la segunda es muy tentadora?
¿No tienes que controlar los costos, atraer usuarios, personalizar los servicios y acostarte fácilmente para ganar dinero, y este tipo de cosas buenas? Verdaderamente.
En la actualidad, todos los grandes modelos de lenguaje utilizan la arquitectura Transformer, que es difícil de procesar textos largos e imágenes de alta resolución, y el razonamiento lógico y la inducción de conocimiento se basan en "producir milagros vigorosamente", lo cual es costoso. Muchos de los principios básicos aún no están claros, lo que conduce a muchos problemas existentes, como la generación de "alucinaciones" y una capacidad de razonamiento limitada.
El ganador del Premio Turing, Yann LeCun, ha criticado el paradigma técnico de los grandes modelos de lenguaje más de una vez, diciendo que "los LLM tienen una comprensión muy superficial del mundo", y quiere construir un "modelo mundial" para aprender cómo funciona el mundo, luego formar un modelo interno y luego usar este modelo interno para realizar diversas tareas. Además, hay muchos científicos que discuten la inteligencia general de AGI desde sus respectivos campos de investigación.
En resumen, muchos de los principios de los grandes modelos lingüísticos actuales no están claros, y la tecnología aún está cambiando. En el futuro, pueden surgir otros paradigmas tecnológicos para subvertir el modelo actual de buscar ciegamente ser más grandes, y entonces puede que no haya necesidad de costos excesivos y dolorosos "adelgazamientos".
Es posible que se haya dado cuenta de que investigar los principios subyacentes y encontrar una tecnología AGI más poderosa suena bien, pero en realidad no es un marcador y aún no hay un cronograma claro. El paradigma técnico de esta ronda de grandes modelos lingüísticos es factible en la práctica de la ingeniería, puede funcionar en la industria y tiene un claro efecto de mejora de la calidad y la eficiencia. Usarlo primero y comprender el presente es la máxima prioridad para las empresas de tecnología.
Por lo tanto, las empresas modelo a gran escala solo pueden mantener la boca cerrada, abrir las piernas, controlar los costos lo antes posible, acelerar la comercialización y crear una "diferencia calorífica" para un desarrollo benigno y sostenible.
Movimiento de Cuatro Modernizaciones para Crear "Diferencia Calórica"
Entonces, ¿cómo se crea exactamente una "diferencia de calor"? **Basándonos en los métodos convencionales actualmente en el mercado, los resumimos como el "Movimiento de las Cuatro Modernizaciones": escala de datos, compresión de modelos, eficiencia informática y estratificación empresarial. **
La escala de datos es mejorar el beneficio marginal de los datos y obtener el mejor rendimiento de costos a través del efecto de escala. El efecto de escala se logra principalmente a través de tres formas, una es la escala de concentración industrial, y el nivel nacional ha propuesto claramente "acelerar el cultivo del mercado de elementos de datos", lo que implica la producción, recopilación, almacenamiento, procesamiento, análisis, servicio y otros vínculos de datos, la industrialización ayudará a reducir el costo de los datos de las grandes empresas modelo. La segunda es la aplicación de herramientas de IA, que reduce la participación manual en todos los aspectos de la ingeniería de datos, acelera el procesamiento de datos previamente entrenados y reduce los costos y mejora la eficiencia para el entrenamiento de modelos. La tercera es la escala de los datos de retroalimentación. Se espera que algunos modelos grandes que han abierto sus servicios a toda la sociedad antes, como Baidu Wenxin Yiyan, "SenseChat" de SenseTime, "Baichuan Model" de Baichuan Intelligence, "Spark Model" de iFLYTEK, etc., alcancen la escala de datos óptima con beneficios marginales más rápido.
Hay un beneficio marginal en los datos. OpenAl ya permite a los usuarios decidir si les permiten utilizar los datos del chat para el entrenamiento, lo que significa que ya no pueden confiar en los datos de los comentarios de los usuarios, por lo que se puede controlar el coste del almacenamiento y la computación de los datos.
La compresión del modelo consiste en mejorar el rendimiento del modelo, lograr un mayor rendimiento con menos recursos y transformar el modelo grande que consume muchos recursos en una versión más compacta y eficiente a través de la tecnología de compresión. Al igual que la conversión de grasa en músculo, el músculo es más denso y el peso (rendimiento) sigue siendo el mismo, mientras que la persona se vuelve más delgada (más pequeña).
En la actualidad, existen tres métodos comunes de compresión de modelos grandes: cuantificación, poda y destilación de conocimiento. **
La cuantificación, equivalente a la liposucción, es simple y cruda pero efectiva. Cuanto mayor sea la precisión del modelo, más espacio de almacenamiento se requiere. Sin embargo, en la inferencia, no es necesario capturar cambios de gradiente muy pequeños en modelos complejos, por lo que la cuantificación puede reducir directamente la precisión de los parámetros del modelo y "extraer" información detallada, reduciendo así el espacio ocupado y no reduciendo la capacidad de inferencia. Por ejemplo, Qualcomm AI Research utiliza tecnología de cuantificación para mantener la precisión del modelo en un nivel más bajo de precisión, y ha implementado Stable Diffusion en teléfonos inteligentes Android por primera vez. La tecnología cuantitativa también se ha aplicado en grandes modelos domésticos como Wenxin y Pangu.
La poda, similar a la "escisión", resta directamente algunas ramas laterales que tienen poco efecto en el efecto, como una gran cantidad de estructuras y neuronas redundantes, y se eliminan estos pesos más pequeños, lo que tiene poco impacto en el efecto del modelo y reduce el tamaño del modelo. Por supuesto, la poda es un "trabajo artesanal", y cuanto más precisa sea la poda, menor será la pérdida de precisión del modelo y mejor será el efecto de compresión.
La destilación de conocimiento es dejar que el modelo grande "sauna", y el modelo de 100 mil millones se destila en una sola pasada para producir varios modelos pequeños con un rendimiento similar y una estructura más simple, y el costo de aterrizaje es menor. El desafío es que la destilación modelo con una escala de 100 mil millones también consume recursos informáticos extremadamente altos, y la brecha de volumen de datos de 100 mil millones a decenas de millones es demasiado grande, lo que es fácil de afectar el efecto de destilación. La destilación no destructiva es uno de los puntos de competencia técnica de los principales fabricantes.
Dado que la tecnología de compresión de modelos también consume recursos informáticos, es especialmente importante mejorar la eficiencia informática de la infraestructura informática.
La eficiencia informática es la premisa para que los grandes fabricantes de modelos proporcionen servicios de modelos con mayor eficiencia.
El rendimiento de los chips y los clústeres de computación es el foco de la investigación y la optimización. Microsoft Cloud Azure ha creado una supercomputadora para computación de IA específicamente para OpenAI. Los fabricantes nacionales, como Baidu y Huawei, tienen chips de desarrollo propio y marcos de aprendizaje profundo, que pueden mejorar la eficiencia informática a través de la optimización de extremo a extremo, mejorar la velocidad de entrenamiento y la velocidad de inferencia de modelos grandes y reducir el tiempo y los costos de capacitación.
Sin embargo, en el caso de los modelos grandes no generales, como los modelos industriales y los modelos industriales, el efecto de escala y la tecnología de optimización de hardware son limitados, y el costo de crear y mantener la infraestructura por sí mismo es muy alto, por lo que el uso de servicios en la nube para entrenar e implementar servicios es una opción más rentable.
En el análisis final, los grandes modelos necesitan aumentar los ingresos comerciales para lograr el propósito de optimizar el ROI y recuperar los costos. En la actualidad, la comercialización de varios modelos de gran tamaño refleja evidentes características jerárquicas.
En pocas palabras, es un modelo grande con diferentes volúmenes, diferentes funciones y diferentes direcciones, y el camino de comercialización ha comenzado a estar claro.
El modelo general se basa en economías de escala y mercados de alto valor. OpenAI tiene una gran cantidad de usuarios, y el desarrollo de la economía de API tiene un efecto de escala, y la inversión inicial se puede compartir por igual con el crecimiento del volumen comercial. BATH (Baidu, Alibaba, Tencent, Huawei) y otros tienen sus propios negocios en la nube y han acumulado una rica experiencia en servicios industriales, especialmente las capacidades de alcance de clientes de grandes gobiernos y empresas, como finanzas, minería y asuntos gubernamentales, y tienen un gran potencial para la transformación comercial. Los altos requisitos de los clientes de ToB promueven la mejora de la experiencia y el efecto del modelo, y también pueden servir al mercado de TdC y amortizar aún más los costos a través de la escala.
El modelo de la gran industria restringe activamente los límites del producto y del negocio, se centra en el negocio y las funciones principales, y desarrolla pequeños modelos especializados con menos recursos, a fin de lograr un buen equilibrio entre el retorno de la inversión y la comercialización. Por ejemplo, en el campo financiero, el "Xuanyuan 70B" de Du Xiaoman ha incorporado una gran cantidad de corpus financieros profesionales para mejorar la comprensión del conocimiento financiero, cumplir con los requisitos especiales de los clientes financieros en términos de controlabilidad y seguridad, y ha sido solicitado para prueba por cientos de instituciones financieras.
Con todo, el modelo grande no solo es un camino universal y generalizado, sino que también la privatización y el despliegue personalizado de miles de industrias producirá factores de toma de decisiones como el precio, la privacidad y la seguridad, y también traerá una gran cantidad de oportunidades comerciales de segmentación. El modelo grande general, el modelo grande de la industria y el modelo pequeño propietario, los esfuerzos jerárquicos + conjuntos abren el camino a la comercialización. La armonía y la diferencia ponen a prueba la sabiduría de cada rol en la cadena industrial.
Para servicios sostenibles y a largo plazo, es necesario mantener la boca cerrada y abrir las piernas, y la "reducción de costos" del modelo grande es la única manera.
Este proceso puede ser doloroso, pero condensará un foso para proteger el desarrollo saludable de toda la industria.
En los años 40 del siglo XX, cuando recién nacían las computadoras, la gente se asombraba por el enorme cuerpo de este "monstruo de la máquina", pero luego comenzó el salto de la era de la información. Cuando nacieron los teléfonos inteligentes, los fabricantes de teléfonos básicos fueron extremadamente sarcásticos al respecto, pero no esperaban que este tipo de conexión inclusiva, donde todos pueden acceder a Internet, promoviera la prosperidad de Internet móvil.
A medida que los modelos grandes mejoren y bajen, la "IA para todos" ya no será un sueño lejano.