¿Gran batalla de modelos en pleno apogeo? El "modelo pequeño" puede ser la salida

Question

Texto: Qingcheng Finance, Autor: Qing Mu Editor: Liu Zi

Fuente de la imagen: Generada por Unbounded AI

El 26 de julio, OpenAI lanzó la versión para Android de ChatGPT, aunque actualmente solo está disponible en los Estados Unidos, India, Bangladesh y Brasil, OpenAI también dijo que promocionará la versión para Android de ChatGPT en más países la próxima semana. Esto trajo a ChatGPT, que ha sido un poco menos popular recientemente, de nuevo a la vista del público.

Al comienzo del lanzamiento de ChatGPT, solo tomó dos meses convertirse en la aplicación más rápida de la historia en superar los 100 millones de usuarios. El mercado tecnológico global que ha estado en silencio durante mucho tiempo está hirviendo nuevamente. Los inversores y empresarios nacionales vuelan a Silicon Preguntó Valle.

Ante esta turbulenta ola de IA, los empresarios e inversores chinos actuaron rápidamente. Unos meses después, la industria tecnológica de China ha mostrado una postura espectacular de "Guerra de los Cien Modelos". En la primera mitad de 2023, aparecieron en China más de 80 productos de modelos a gran escala. Según los últimos datos, 130 empresas ya están fabricando modelos a gran escala en el mercado nacional. A escala mundial, se lanzaron más de 400 modelos grandes en la primera mitad de este año.

Si bien los jugadores de modelos chinos a gran escala persiguen intereses comerciales y el futuro de la tecnología, también se los denomina sentimientos nacionales: ser la versión china de OpenAI.

Según las noticias del 24 de julio, antes de que se lanzara la versión para Android de ChatGPT, IDC publicó un informe de evaluación de la capacidad técnica del modelo a gran escala, que muestra que el modelo a gran escala 3.5 de Baidu Wenxin obtuvo 7 de 12 indicadores, ocupando el primer lugar en la puntuación general. . Wu Tian, vicepresidente de Baidu, dijo que la capacidad de la nueva versión de Wenxinyiyan 3.5 ha superado a la de ChatGPT 3.5, lo cual es un hito importante en el desarrollo del trabajo técnico relacionado en nuestro país.

HKUST Xunfei anunció previamente que llevará a cabo la tercera iteración del modelo grande de Xinghuo el 24 de octubre, evaluando completamente ChatGPT, la capacidad china ha superado GPT3.5 y la capacidad inglesa es equivalente a GPT3.5.

01 escena, escena

De hecho, como dijo Li Zhifei, excientífico de Google y fundador y director ejecutivo de Mobvoy, es posible que no haya una organización como OpenAI en China.

En comparación con los modelos a gran escala de uso general como ChatGPT, los productos de modelos a gran escala domésticos prestan más atención a las aplicaciones y los escenarios, es decir, modelos verticales a gran escala, modelos industriales a gran escala y modelos industriales a gran escala. En este sentido, las opiniones de los peces gordos en el círculo de capital de riesgo tecnológico casi expresaron el mismo significado.

Robin Li, el fundador de Baidu, ha declarado públicamente durante mucho tiempo: "No tiene mucho sentido que una empresa nueva recree ChatGPT. Creo que existe una gran oportunidad para desarrollar aplicaciones basadas en este gran modelo de lenguaje. Hay no hay necesidad de reinventar la rueda. Después de tener la rueda, es posible hacer un automóvil. ", Aviones, el valor puede ser mucho mayor que la rueda".

Zhu Xiaohu, director gerente de GSR Venture Capital, escribió en Moments: "No seas supersticioso sobre el modelo general, porque el próximo año GPT-3.5 se convertirá en mercancía (infraestructura general) y tres años después, GPT-4 también será Para la mayoría de los empresarios, los escenarios primero, ¡los datos son el rey!"

Fu Sheng, presidente y director ejecutivo de Cheetah Mobile, cree que habrá dos caminos para los modelos grandes. Un gran modelo llamado Mejorar es "Construir un Einstein". Pero muchos trabajos no requieren "Einstein", los graduados universitarios pueden hacerlo. Esta es otra manera. Creo que debe haber una gran cantidad de personas haciendo "grandes modelos civiles".

Zhang Pingan, CEO de Huawei Cloud, dijo en la conferencia de prensa Pangu Large Model 3.0: "El Pangu Large Model no tiene tiempo para escribir poemas y chatear. No importa cuántos parámetros haya y cuán buena sea la capacidad de diálogo, si puede Si no resuelve problemas prácticos, no será de mucha utilidad".

La mayoría de los modelos a gran escala lanzados recientemente en China están destinados a industrias verticales, como el modelo a gran escala Yanxi lanzado por JD, el modelo vertical a gran escala "Ziyue" en el campo de la educación lanzado por Dao.

El modelo grande de JD Yanxi ha acumulado el conocimiento acumulado de JD en comercio minorista, logística, salud, finanzas y otras industrias durante muchos años. Integra el 70% de los datos generales y el 30% de los datos originales de la cadena de suministro de JD para capacitación, brindando recomendaciones de productos, políticas financieras , Capacidades en áreas como reglas de gestión financiera y experiencia en logística. Cao Peng, presidente de JD Cloud Division, cree que una sola tecnología de modelo a gran escala no puede generar valor directamente por sí misma, y la tecnología solo puede generar valor real cuando se pone en escena.

El modelo de viaje de Ctrip solicita analizar 20 000 millones de datos de turismo no estructurados, combinar los datos estructurales en tiempo real existentes de Ctrip y los robots y algoritmos de búsqueda históricamente capacitados de Ctrip para llevar a cabo un entrenamiento de modelo vertical de desarrollo propio e invertir una gran cantidad de mano de obra. Generar y verificar la respuesta general. contenido de viaje. Liang Jianzhang, fundador y presidente de la junta directiva de Ctrip, dijo que Ctrip no escatimará esfuerzos para invertir en modelos grandes y que no hay límite para la cantidad de inversión.

En términos de aplicaciones, Baidu ha llegado recientemente a una cooperación con Lenovo en el campo de AIGC. El negocio de personalización privada de Lenovo ha introducido completamente a Baidu Wenxin Yige. Los consumidores pueden personalizar la apariencia de las computadoras portátiles a través de actividades de pintura con temas de AIGC en el sitio web oficial. Huawei Cloud Pangu Large Model y Meitu Visual Large Model MiracleVision lanzaron conjuntamente la función de ajuste de modelo AI, que puede mejorar de manera efectiva la eficiencia del comercio electrónico de prendas de vestir.

Aunque el modelo grande vertical no tiene requisitos altos para los parámetros y la potencia informática como el modelo grande general, tiene requisitos más altos para escenarios y datos, lo que requiere que los desarrolladores tengan conocimientos profesionales, acumulación de práctica de aplicaciones industriales ricas y tolerancia a los errores. El grado es también más bajo, lo que requiere que la IA tenga una superestabilidad y confiabilidad. Por tanto, cuanto más cerca esté de la industria vertical, mayores serán las ventajas del modelo vertical.

"El modelo general a gran escala puede resolver el 70%-80% de los problemas en 100 escenarios, pero es posible que no pueda satisfacer las necesidades de un determinado escenario de la empresa al 100%. Si la empresa se ajusta según el modelo de industria a gran escala y sus propios datos, puede construir un modelo dedicado para crear un servicio inteligente de alta disponibilidad, y los parámetros del modelo son menores que el modelo grande general, el costo de capacitación y razonamiento es menor, y la optimización del modelo es más fácil", dijo el vicepresidente ejecutivo sénior de Tencent Group, director ejecutivo de Cloud and Smart Industry Business Group, Tang Daosheng.

Desde esta perspectiva, los "pequeños modelos" pueden ser más atractivos y más capaces de resolver problemas específicos.

SenseTime ha lanzado un modelo grande con 100 mil millones de parámetros y también está lanzando un modelo pequeño con 10 mil millones de parámetros para diferentes campos verticales. La ventaja de un modelo grande es que puede encontrar nuevas soluciones y ayudar a resolver nuevos problemas. Una vez resueltos, puede generar una gran cantidad de datos en un campo estrecho y volver a entrenar un modelo pequeño. Algunos modelos pequeños incluso pueden funcionar en la terminal a un costo menor. Pero el modelo pequeño no existiría sin el modelo grande.

02 Los grandes fabricantes se llevan a todos los ganadores, ¿dónde están las oportunidades para las empresas emergentes?

Existe la opinión en la industria de que la versión china de ChatGPT solo se producirá en cinco empresas: Baidu, Ali, Tencent, Byte y Huawei.

En la era de Internet, es un típico "721". El primer lugar es delicioso y picante, el segundo lugar apenas sobrevive y el tercer lugar está en peligro.

En este momento, cien modelos están peleando y todos quieren obtener una parte del gran modelo. Pero existe un problema muy real: las grandes fábricas tienen ventajas que las empresas emergentes no pueden igualar cuando fabrican modelos a gran escala. Para una pequeña y hermosa empresa nueva, probablemente sea solo una ilusión que quiera derrocar una gran fábrica con solo tres o cinco personas.

Los modelos grandes no se pueden separar de la plataforma en la nube. El aterrizaje de modelos grandes requiere un ajuste y una capacitación continuos, todo lo cual debe ejecutarse en la plataforma en la nube. Baidu, Ali, Tencent, Byte y Huawei tienen sus propios negocios en la nube. Baidu y Huawei también han completado el diseño de chips a aplicaciones. Baidu es "Kunlun Core + Flying Paddle Platform + Wenxin Large Model", Huawei es "Shengteng chip + marco MindSpore + modelo grande Pangu", que son ventajas que las empresas de nueva creación no pueden igualar.

Además, las grandes empresas tienen ventajas naturales en términos de reservas de capital, recursos humanos, escenarios de uso y acumulación de datos. Sin un escenario de aterrizaje para las nuevas empresas, la tecnología no se puede iterar, optimizar continuamente y no se pueden formar los efectos de la red de datos.

¿Entonces las pequeñas empresas no tienen ninguna posibilidad?

También podría recordar la metáfora de la era de la fiebre del oro: "Esta era es muy similar a la era de la fiebre del oro. Si fuera a California a buscar oro en ese momento, mucha gente moriría. Pero la gente que vende cucharas y las palas siempre pueden generar dinero". Esto también es cierto. Lu Qi, el fundador y director ejecutivo de Qiji Chuangtan, compartió recientemente con empresarios. Lu Qi espera ayudar a los empresarios chinos a reconocer este punto de inflexión histórico, ubicar las coordenadas de la era actual y encontrar su propia posición.

A principios de julio, Stuart Russell, profesor de informática en la Universidad de California, Berkeley y autor de "Inteligencia artificial: un enfoque moderno", advirtió que los bots impulsados por IA como ChatGPT pronto podrían "quedarse sin texto en el universo". ." ", y la técnica de entrenar bots mediante la recopilación de grandes cantidades de texto está "comenzando a tener dificultades".

La semana pasada, más de 8500 escritores firmaron una carta pidiendo a los líderes de empresas como OpenAI, Microsoft, Meta y Alphabet que no utilicen su trabajo para entrenar sistemas de inteligencia artificial sin permiso o pago, y pidiendo a estas empresas de inteligencia artificial que compensen sus pérdidas por derechos de autor.

El stock de datos de Internet está a punto de agotarse y los datos de alta calidad son cada vez más escasos. Un modelo es bueno o malo, el 20% lo determina el algoritmo y el 80% lo determina la calidad de los datos. En la "troika" de datos, poder de cómputo y algoritmos, los datos son el elemento central, a más largo plazo y más fundamental. Los modelos grandes necesitan ser alimentados con cantidades masivas de datos para ser optimizados e iterados continuamente.

A continuación, el valor real se convertirá en datos sostenibles de alta calidad. Cómo obtener continuamente fuentes de datos que sean legales, conformes y en línea con la lógica comercial se convertirá en un factor clave para mejorar el rendimiento de los modelos grandes. Por lo tanto, los operadores de datos pueden convertirse en un papel importante que restringe el desarrollo de modelos grandes.

Idealmente, el modelo proporciona continuamente servicios a los usuarios y los usuarios generan continuamente nuevos datos para el modelo. En cuanto al siguiente paso, se detallarán los datos privados. Más servicios personalizados significan más datos privados, y es poco probable que los humanos muestren datos privados al gran modelo sin reservas.

En cualquier época, "vendedor de agua" siempre es un buen negocio. Curiosamente, no importa si eres un pionero, un explorador o un buscador de oro, no puedes prescindir del agua. Por supuesto, también puedes vender cucharas y palas.

03 Conclusión

En los últimos meses, hubo una publicación que circuló ampliamente en las plataformas sociales:

Piense en la IA como un niño. AI en Europa y los Estados Unidos pertenece a la ruta de la educación de élite.Después de que nació, su familia gastó todo el dinero para que estudiara hasta que obtuvo un doctorado.

La IA de China pertenece a la línea de educación utilitaria. Es criado para sobrevivir al nacer, y cuando tiene 15 años, se ve obligado a encontrar formas de ganar dinero para la familia y aprender a comercializar habilidades.

Unas pocas palabras, degustadas con cuidado, llenas de sabores.

Aunque no es necesariamente cierto, esto también puede explicar en cierta medida por qué OpenAI y ChatGPT no aparecieron en China. De hecho, algunos inversores y empresarios nacionales estaban llenos de confianza al principio y querían ser la versión china de OpenAI. Después de algunos meses de lanzamiento, descubrí que todavía necesito encontrar un modelo de ganancias, explorar escenarios de aplicaciones comerciales y capacidades de comercialización.

Vale la pena mencionar que algunos usuarios C-end han percibido recientemente que el rendimiento de ChatGPT-4 en ciertas tareas es demasiado bajo, lo que se considera que es el uso de OpenAI de un modelo experto mixto (MOE) para reducir costos y aumentar la eficiencia, y cambiar su centrarse en los servicios de nivel empresarial una de las acciones.

Mirando a su alrededor, Apple también está desarrollando su propio modelo de lenguaje grande Apple GPT, y Qualcomm ya está estudiando cómo realizarlo para fines de este año, de modo que el modelo con un nivel de parámetro de 10 mil millones a 15 mil millones pueda ejecutarse sin conexión en el teléfono móvil sin procesamiento en la nube.

Los grandes modelos son una remodelación de la productividad, un cambio de paradigma. Hace 200 años, los humanos usaron máquinas de vapor para convertir la energía térmica en energía cinética por primera vez y comenzó la era de la industrialización. Hoy en día, los humanos usan modelos grandes para convertir la energía eléctrica en poder mental e inteligencia general, y se abre una nueva era.

Por supuesto que no necesitamos demasiadas ruedas, pero aún necesitamos buenas ruedas.

Hay un largo camino por recorrer.

Ver originales