Desencanto AI: modelo de medio año, sigue volando en el cielo

2023-08-04 06:52:59

Fuente: "Photon Planet" (ID: TMTweb), autor: Wu Kunyan, editor: Wu Xianzhi

Fuente de la imagen: Generada por Unbounded AI

El fuego de la gran maqueta arde en esta tierra desde hace medio año. A medida que las conferencias de prensa de Huawei, JD.com y Ctrip se ponen al día con los episodios de la noche, de acuerdo con el paradigma consistente de Internet, la "cosa nueva" de los modelos domésticos a gran escala también ha dado paso a su propia prueba de medio año.

Es simplemente diferente de los exámenes semestrales de otras empresas. Los exámenes semestrales de formularios comerciales como vehículos de nueva energía, teléfonos móviles y plataformas de comercio electrónico están respaldados por suficiente información de datos públicos para facilitar el análisis textual. En un " caja negra", no existe un modelo de negocio claro, por lo que la llamada información de datos y otros argumentos están fuera de discusión.

Es bastante irónico que, incluso desde la perspectiva de la función del producto, el modelo grande aún no haya producido un método de evaluación general. Frente al objetivo final de AGI, naturalmente existen varios métodos de evaluación, como el clásico "método del pez mandarín ardilla" en el que confían los usuarios domésticos C-end para "evaluar" modelos grandes.

O debido a esto, la mayoría de los fabricantes nacionales no abren sus propios modelos grandes para usarlos como OpenAI, pero implementan mecanismos de prueba internos.

La exploración de modelos a gran escala se centra más en el lado B y el lado G, como los modelos a gran escala líderes en la industria de Tencent, Pangu 3.0 de Huawei, Jingdong Lingxi, etc. Como la pista actual en la que se centran los mejores jugadores, su modelo grande se centra en mostrar formas de productos maduras tanto como sea posible, con la comercialización como objetivo básico. Por ejemplo, con el fin de popularizar rápidamente y promover la comercialización de este tipo de modelo grande, además de la orientación de aterrizaje comercial, las capacidades de implementación localizada también se han convertido en importantes indicadores de referencia.

Aun así, a los ojos de los conocedores de la industria, el modelo de industria a gran escala que "entrega el tazón al frente" todavía carece de empresas que lo compren. El viento del modelo de industria ha estado soplando durante un mes desde junio, y ha habido No ha habido cooperación comercial a gran escala hasta ahora.

Por lo tanto, no es difícil ver que en el mercado de inversión actual, las inversiones relacionadas con modelos grandes se concentran en el mercado secundario en lugar del mercado primario. Incluso si el nivel de vaca grande de Wang Huiwen ingresa al mercado, las fuentes públicas dicen que su financiamiento de ronda A es mucho más alto que 230 millones de dólares estadounidenses, y su capacidad de financiamiento no es la misma que la de OpenAI, que recibe decenas de miles de millones de dólares. de Microsoft de vez en cuando.

El mercado de inversión es un barómetro calificado. Obviamente, las hojas de respuestas presentadas por modelos nacionales a gran escala en el nodo de tiempo de examen semestral no son satisfactorias, y se necesitará un período de inactividad y pulido para que la "historia" se haga realidad.

¿Modelo grande sin modelo de negocio?

Cuando los modelos domésticos a gran escala necesitan responder a las dudas del mercado, los modelos comerciales deben colocarse en primer lugar.

ChatGPT, que ya ha ocupado el primer lugar en la mente de los usuarios, ha visto una caída significativa en su popularidad. Baidu y Ali, los primeros modelos grandes de propósito general lanzados a nivel nacional, también cayeron en "silencio" después de que una gran cantidad de jugadores lo siguieron. arriba. La razón es que el modelo comercial del modelo grande general no funcionó. A pesar de que ha ganado la aprobación de los usuarios en el campo de la opinión pública, el circuito cerrado comercial nunca apareció.

Tomando como ejemplo el modelo a gran escala de Baidu con una amplia gama de pruebas, el modelo de pago de su aplicación comercial Wenxin Qianfan se basa en la cantidad de tokens generados por llamadas, el estándar es de 0,012 yuanes por mil tokens y cuesta 0,12 yuanes. para generar un manuscrito de mil caracteres.

Independientemente de la velocidad de su costo de recuperación, la tarifa de 0.012 yuanes/mil tokens parece barata, pero la generación de texto a menudo requiere múltiples interacciones para obtener los resultados deseados. Múltiples interacciones aumentarán el costo oculto infinitamente. Después de todo, Wenxin Qianfan no es el tipo de personal que van y vienen.

Un escenario similar es la comunidad de preguntas y respuestas. Sun Quan (seudónimo), un académico, le dijo a Photon Planet que la experiencia de usar aplicaciones modelo es similar a buscar respuestas de alta calidad en la comunidad de preguntas y respuestas. el pensamiento del usuario es la granularidad de la pregunta, y la disposición a pagar a menudo solo se encuentra en respuestas de alta calidad.RESPUESTAS DE CALIDAD se producirán después. Por lo tanto, Baidu eligió la cantidad de textos de inferencia como estándar de pago, pero aún no puede cubrir los costos ocultos del uso comercial.

Si adopta el pago mensual que le encanta ver al lado B, solo cambiará el gasto de costos de los usuarios hacia usted, lo que obviamente no es una solución a largo plazo. La mejor prueba es que todavía se sospecha que ChatGPT toma atajos por debajo del precio de $20 por mes para los usuarios C-end.

En la actualidad, es difícil lograr un equilibrio de equilibrio en la comercialización de modelos grandes de propósito general, ya sea en el lado B o en el lado C. Al mismo tiempo, es probable que encuentre riesgos de cumplimiento como la ética de la IA. y supervisión. Por ello, la industrialización y verticalización de los grandes modelos se han convertido en un cambio de paradigma bajo la demanda de aterrizaje.

A diferencia del modelo de industria a gran escala, aunque su forma de producto comienza con la demanda de aterrizaje, los problemas que surgen en el aterrizaje real aún deben resolverse.

Un tipo de caso al que vale la pena referirse es el modelo vertical a C construido sobre la base de su propia ecología de producto, como Zhihaitu AI, que Zhihu anunció anteriormente para realizar pruebas internas en el producto, y Ctrip.com, que se lanzó no hace mucho. atrás.

Las ventajas de que los dos ingresen a la pista del modelo a gran escala son las mismas, que radican en su propia ecología comunitaria y el contenido comunitario de alta calidad derivado de esto. El contenido, como datos de la industria, puede convertirse en el corpus de entrenamiento de modelos grandes después de una simple limpieza. La diferencia sutil entre los dos es que Zhihu ha sido una comunidad de contenido desde el principio, mientras que Ctrip solo comenzó a centrarse en el contenido en los últimos años.

Pero desde el punto de vista actual, ya sea Zhihu o Ctrip, la forma de producto de su modelo grande no parece ser capaz de resolver los puntos débiles de los usuarios, ni puede mejorar suficientemente las funciones existentes.

El producto actualmente anunciado de Zhihaitu AI "Hot List Summary" utiliza IA para capturar preguntas y respuestas de alta calidad y pulir y reescribir el resumen para presentarlo a los usuarios, mientras que otra aplicación "Search Aggregation" agrega opiniones de auto-respuestas para mejorar la información de adquisición de usuarios y eficiencia en la toma de decisiones.

Las funciones de agregación, como la auto-recomendación y la lista activa, son las "habilidades artísticas tradicionales" de Zhihu, y el desempeño del empoderamiento del gran modelo no ha causado un gran revuelo a nivel de usuario. Además, el proceso de reescritura y pulido de AI también cubre las características personalizadas de las respuestas populares. Para los usuarios, la función de esta aplicación es solo comprender rápidamente la información, lo que va en contra de la comunicación diferenciada y personalizada que defiende la comunidad de contenido.

Basado en OTA, Ctrip preguntó, en opinión de Liang Jianzhang, presidente de la junta directiva de Ctrip, que es una "biblioteca de respuestas confiable" para la industria del turismo. Llevará tiempo probar la eficacia de sus productos, pero desde la perspectiva del posicionamiento, también se sospecha que "sacrifica lo básico y persigue lo último".

A los ojos de los jóvenes usuarios, no existe una respuesta estándar al turismo, como lo demuestra la aparición de formas de turismo diversificadas como las "fuerzas especiales", los "golpes" y la "inmersión". Por ejemplo, suponiendo que una gran cantidad de usuarios utilicen IA para formular la planificación de rutas de viaje, la misma planificación de rutas en realidad afectará la comunicación y el ambiente de la comunidad, e incluso provocará una disminución en el tiempo de permanencia del usuario.

En términos generales, el intento de aterrizaje del modelo vertical en el extremo C no es suave e incluso puede convertirse en un "costo hundido". Tal vez afectado por el mito de "mejorar la eficiencia" del propio modelo grande, el posicionamiento del producto se limita principalmente a la palabra "eficiencia", pero la eficiencia es solo una dimensión no central en la experiencia del usuario.

El mismo paradigma también se ha demostrado en el campo to B, y en el lado B que persigue la eficiencia, el modelo comercial y los problemas de implementación del modelo grande de la industria se han demostrado más profundamente.

Caja negra poco clara

"La IA no es física. Hay pocos avances tecnológicos importantes en teoría, pero hay más ajustes y una pequeña optimización en las dimensiones de la estructura del modelo y la calidad de los datos. En muchos casos, el resultado del modelo es incluso mejor, pero el equipo no puede encontrar la razón".

En opinión de un miembro de la industria, existe un gran sesgo cognitivo en los modelos grandes fuera de la industria, y la razón es que el entrenamiento de modelos grandes y la industria de la IA son una "caja negra" para el mundo exterior, y es difícil para examinar modelos grandes El proceso de razonamiento que produce el resultado es invisible e intangible.

Esto ha llevado al mundo exterior a tomar una actitud cautelosa hacia la "caja negra" del modelo grande una vez que se han calmado después del período de frenesí traído por ChatGPT. Esto conducirá al dilema del modelo grande en el suelo, y este fenómeno es más evidente en el proceso de cambio a la ruta B.

Tomemos como ejemplo los productos producidos por los principales fabricantes que ahora han definido claramente la ruta a B, incluida la solución de tecnología MaaS lanzada por Tencent Cloud y el modelo grande Pangu lanzado por Huawei Cloud.Despliegue en la nube, despliegue rápido localizado, etc. También hay logros en interacción, operación y posterior adición de nueva optimización iterativa de datos de la industria.Se puede decir que, en aras del aterrizaje, el umbral para modelos grandes se ha reducido a un nivel extremadamente bajo.

Sin embargo, el muro cognitivo creado por la "prudencia" no se ha roto, a pesar de que ChatGPT lleva medio año volando, muchas empresas no tienen motivación ni interés en estudiar cómo importar modelos grandes.

Una lógica similar se puede ver en la industria de la computación en la nube hace unos años. La computación en la nube es un servicio y un derivado basado en el reconocimiento del valor de los datos. En cuanto al valor de los modelos grandes para las empresas, en términos relativos, el valor de los datos ha aumentado. También son las capacidades técnicas de las que carecen los clientes empresariales Incluso la popularización de la computación en la nube en las empresas nacionales aún está lejos del final, sin mencionar el modelo grande.

Si el modelo de la industria es útil o no, en realidad ya no es importante, después de todo, el valor de uso del producto debe ser descubierto por el usuario al final. Es más, el mundo exterior medirá aproximadamente el nivel del modelo a través de ciertas pruebas y actuaciones, como el "método del pez mandarín ardilla" o Huawei Pangu, que recientemente ha sido cuestionado debido a errores en la predicción del lugar de aterrizaje y la intensidad del súper tifón "Dusuri" Modelo meteorológico.

Quizás debido a esto, el modelo a gran escala de Jingdong Lingxi lanzado recientemente optó por dar prioridad a la ejecución de sus propios escenarios comerciales, y se espera que esté abierto a "escenarios comerciales serios externos" a principios del próximo año.

Lo que más vale la pena mencionar es que bajo la "tendencia de la industria", el llamado modelo de industria orientado por la comercialización ha reemplazado la narrativa original "universal" del gran modelo y, al mismo tiempo, también ha causado que muchas personas "pierdan ".

La definición del llamado modelo industrial es vaga. La connotación del modelo grande (Foundation Model) no radica en la cantidad de parámetros sino en las capacidades generales que surgen del entrenamiento general de datos. Si se adopta la misma arquitectura modelo, pero se utilizan datos de un solo dominio en los datos, no solo se perderá la capacidad general, sino que incluso los problemas de dominio no podrán resolverse debido a los descuentos emergentes.

Si los datos de la industria se utilizan para el preentrenamiento secundario sobre la base del modelo grande original, es equivalente a ajustar el modelo original, entonces el producto en sí todavía está en la capa del modelo, que puede denominarse modelo grande de la industria. ; si el conocimiento del dominio se agrega a través de una base de datos externa, eso es solo para estimular las capacidades del modelo original, y el producto también debe pertenecer a la capa de aplicación por encima del modelo. Es una exageración llamarlo modelo de industria.

En la actualidad, la mayoría de los modelos industriales a gran escala en las grandes fábricas son los primeros, como Tencent, Jingdong, Huawei, etc. Este último aparecerá más en la comunidad de código abierto debido a una inversión más ligera y una rápida mejora del rendimiento del modelo, como ChatLaw, un gran modelo legal que desató acaloradas discusiones hace algún tiempo.

"En comparación con el primero, el segundo es más maduro en términos de forma de producto, lo que facilita la construcción rápida de las capacidades del modelo, pero el segundo a menudo tiene un límite superior más alto después de completar el proceso de inculcar el conocimiento del dominio", dijo una fuente de la industria.

Amenazas de código abierto

Recientemente, Meta proporcionó su último modelo grande de código abierto Llama2 bajo la licencia comercial abierta de forma gratuita y lo introdujo en la plataforma Azure de Microsoft.

A través de Microsoft, el gran patrocinador de modelos, Meta desafía a OpenAI con una actitud más abierta.

De hecho, la "facción de código abierto" ha surgido silenciosamente como un tercero mucho antes de esto. “No tenemos un foso, y OpenAI tampoco”, dijo un documento interno de Google que se filtró accidentalmente en mayo. La idea general es que, en la superficie, OpenAI y Google se están poniendo al día en el modelo grande, pero es posible que el verdadero ganador no provenga de estos dos. La razón de este juicio radica en la cada vez más rica ecología de código abierto.

La ecología open source está cada vez más activa, e incluso han aparecido Llama2, que representa la capacidad del modelo, y LORA, la tecnología representativa del paradigma Finetune (ajuste fino del modelo), que han convertido a los gigantes fabricantes en se esfuerzan por "luchar por los milagros" sienten un claro escalofrío.

Factores como el intercambio de tecnología de código abierto y la transferencia de talento también están haciendo que la caja negra del modelo grande esté más "vitrificada". El resultado inevitable de la falta de barreras es ese Konw How, que es invertido por las grandes fábricas con enormes cantidades de dinero tiempo, es fácilmente anulado por la comunidad de código abierto.

La mayoría de los principales fabricantes nacionales responden a esto "agarrando con ambas manos". La mano izquierda "cierra la puerta para construir un automóvil", pule continuamente la forma y las capacidades del producto en forma de pruebas internas a pequeña escala, y la mano derecha "lluvia de ideas", construye una comunidad de código abierto dentro de la ecología basada en la nube. ecología del desarrollador, pero esto solo requiere la capa de poder de cómputo y la capa de modelo del propio fabricante Diseño de pila completa para la capa de aplicación. Alibaba Cloud ha lanzado la comunidad de código abierto a gran escala GPT, y Huawei Cloud, Baidu Cloud y Tencent Cloud también han hecho planes.

En términos generales, ya sea industria o GM, a C o a B, la prueba de medio año del modelo grande nos da la sensación directa de que es difícil de implementar, y la expectativa de ganancias retrocede constantemente; el riesgo es cada vez mayor. más fuerte, y es difícil decir la barrera técnica. Entonces, ¿dónde está la manera de romper la situación actual?

Por ahora, hay dos direcciones interesantes. Una es la base de datos vectorial conocida como "Memoria en la era de la IA", y la otra es el hardware inteligente dotado de inteligencia modelo.

El llamado vector se refiere a datos multidimensionales que pueden representar cualquier cosa, incluidos texto, imágenes, videos y sonidos, que son los más importantes en la formación de LLM en la actualidad. Estas formas de contenido están claramente representadas en la base de datos y admiten la recuperación semántica, es decir, la recuperación por similitud, por ejemplo, hombre contra niño. En otras palabras, para modelos grandes, la recuperación de vectores es el SEO de modelos grandes.

Como se mencionó anteriormente, el conocimiento del dominio puede mejorar la construcción y el uso de modelos industriales a través de capacidades de bases de datos vectoriales, ajustes o complementos Para los grandes fabricantes, es naturalmente el enfoque de la siguiente etapa. Desde mayo, el capital se ha estado volcando en las pistas relacionadas con los datos vectoriales.Como un producto de capa de aplicación con una perspectiva más segura, los datos vectoriales también han recibido mucha atención por parte de muchos capitalistas de riesgo.

En cuanto al modelo incorporado de hardware inteligente, es un salto en capacidades en comparación con los asistentes inteligentes anteriores como "siri" y "Xiaoai", y también es una extensión de los dispositivos inteligentes reales (teléfonos móviles, computadoras). En la comunidad de código abierto, ha habido intentos de construir modelos de parámetros grandes en MAC, mientras que los grandes fabricantes han acumulado una cierta cantidad de capacidad de producción de hardware en la era pasada de Internet móvil y, en términos relativos, su ventaja de ser los primeros en moverse es más obvia. .

Sin el estilo de escritura de primavera y otoño al estilo de las relaciones públicas, los modelos a gran escala que se han convertido en los requisitos básicos ya no son misteriosos, y las historias son cada vez menos. trabajando duro. La industria necesita el próximo momento "ChatGPT" antes de que veamos a los buceadores salir a la superficie y confrontarlos de frente.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta