La evolución de la "Consulta 2.0", de pie frente a la gran maqueta de SenseTime

2023-07-10 08:05:29

Estamos experimentando una ola masiva de nueva infraestructura de IA.

En medio año, el modelo a gran escala se extendió rápidamente desde un consenso a pequeña escala. Según el informe publicado por CITIC, la cantidad de modelos a gran escala con más de mil millones de modelos de parámetros que se han publicado hasta ahora es cercana a los 80, la mitad de los cuales provienen de empresas y la otra mitad de instituciones de investigación científica.

En el proceso de formación gradual de la ecología del modelo doméstico a gran escala, también ha comenzado a abandonar su búsqueda de OpenAI y gradualmente encuentra su propio camino. El estándar para medir el éxito de los modelos grandes también ha cambiado de la competencia de parámetros de puentes duros y caballos duros a la resolución de problemas reales.

SenseTime anunció el sistema modelo a gran escala de "SenseNova" por primera vez en abril de este año, y lanzó una serie de modelos y aplicaciones de inteligencia artificial a gran escala, incluido el modelo de idioma chino a gran escala de desarrollo propio "SenseChat". Recientemente, en la Conferencia Mundial de Inteligencia Artificial, SenseTime anunció la primera iteración importante del sistema "Daily New SenseNova Large Model". El modelo de lenguaje grande "negociación" se actualizó a la versión 2.0.

es más fuerte En todo el sistema de diseño de modelos a gran escala de SenseTime, su función es cada vez más obvia.

Más fuerte "Negociación 2.0"

¿Cómo reflejar visualmente la mejora de la capacidad de "Consulta 2.0"? Xu Li, presidente y director ejecutivo de SenseTime, demostró un diálogo inexistente entre Lao Tzu y Confucio.

La respuesta a la "Consulta 2.0" gira en torno al "Tao". Confucio le preguntó a Lao Tse. Aunque Lao Tse se había iluminado, no podía hablar con Confucio, así que simplemente se alejó. El diálogo realizado en esta escena es suave y fluido. "Discusión 2.0" incluso agregó una broma al texto:

Confucio dijo: "He escuchado el nombre del Maestro, ¡y es una gran fortuna conocerte hoy!"

Lao Tzu dijo con una sonrisa: "No, estoy caminando por el mismo camino que tú, ¿cómo es que las 'tres vidas'?"

Y según la pregunta, todo el diálogo aparece en chino clásico. Y para evitar confusiones, "Consulta 2.0" también estableció la premisa de "esto es solo una ficción y no debe considerarse como un verdadero registro de la historia" en la primera oración de la respuesta.

Cuando se lanzó por primera vez la "Consulta 1.0", la demostración en el sitio demostró su excelente diálogo de varias rondas y sus capacidades de creación conjunta entre humanos y máquinas. Tres meses más tarde, "Consulta 2.0" ha realizado más mejoras en la precisión de la información del conocimiento, la capacidad de juicio lógico, la capacidad de comprensión del contexto y la creatividad.

Por ejemplo, use "Consulta 2.0" para hacer la planificación de viajes y dígale que haga una tabla:

O poner a prueba lo de "las novias tienen razón":

No solo puedes entender a las novias, sino que "Discusión 2.0" también puede leer un poco de ironía o tono yin y yang:

Lo que pasó con "Consulta 2.0" en los últimos tres meses, de hecho, basta con mirar los resultados de algunos exámenes. En los resultados de evaluación de tres puntos de referencia autorizados de evaluación de modelos de lenguaje grande (MMLU, AGI, C-) en todo el mundo, el rendimiento de "Consulta 2.0" ha superado a ChatGPT.

Además, algunas personas pueden haber notado en las fotos de demostración del diálogo entre Lao Tzu y Confucio que "Shangshang 2.0" tiene una demostración de pantalla dividida de las versiones XL y S. Hay muchos modelos grandes con diferentes parámetros y tamaños para que los clientes elija, y la versión del modelo con los parámetros más pequeños puede incluso ejecutarse en terminales móviles.

En cuanto al idioma, "Consulta 2.0" ha añadido nuevos idiomas como el árabe y el cantonés. Apoye la interacción entre chino simplificado, chino tradicional e inglés y otros idiomas. Y el soporte de "Consulta 2.0" para textos superlargos también se ha incrementado de 2k a 32k, lo que permite una mejor comprensión del contexto.

Para los fabricantes de modelos a gran escala orientados a ToB, como SenseTime, la calidad del modelo a gran escala en sí es solo el punto de partida. ¿Cómo pueden los clientes empresariales definir un esquema específico para el modelo a gran escala en función de sus propias necesidades y cómo ¿Puede este último lograr un proceso iterativo estable y abordarlo paso a paso? El verdadero punto de dolor es donde se decidirá el ganador.

Capacidades de fusión de la base de conocimiento abierta

Después de que SenseTime haya entrenado una "Consulta 2.0" con súper comprensión, diálogo, razonamiento y otras habilidades, los clientes corporativos también pueden usar su conocimiento corporativo acumulado para convertir al gran modelo en un "talento profesional" que puede servir bien a sus propias empresas. .

Cómo resolver de manera eficiente estos problemas de ingeniería es muy importante.

La "Consulta 2.0" lanzada por SenseTime ha agregado una interfaz de integración de base de conocimientos, lo que permite a las empresas adquirir rápidamente conocimientos y capacidades profesionales sin esperar actualizaciones iterativas del modelo grande básico. Después de integrar la base de conocimientos, se puede mejorar la capacidad del modelo para actualizar y comprender el conocimiento, y se puede fortalecer la rápida comprensión y adquisición del conocimiento. Al mismo tiempo, el costo de los modelos de capacitación del cliente se reducirá considerablemente.

Wang Xiaogang, cofundador y científico jefe de SenseTime, dijo: "Con la base de conocimiento, es relativamente simple y conveniente resumir el conocimiento correspondiente en este campo sin entrar en nuestro propio modelo", y debido a que la información es más precisa, También resolvió el problema de las alucinaciones.

Humano digital como herramienta de productividad

Al mismo tiempo que la actualización integral de "Consulta 2.0", las capacidades de la plataforma AIGC en el sistema "SenseNova Large Model" se abren paso constantemente, y después de la integración de las capacidades del lenguaje de modelos grandes, se ha logrado una gran mejora.

Por ejemplo, la plataforma de creación de Wenshengtu "Miaohua" mencionada anteriormente se ha actualizado a la versión 3.0 esta vez, los parámetros del modelo se han aumentado al orden de 7 mil millones y los detalles de las imágenes generadas han alcanzado el nivel de fotografía profesional. En cuanto al dolor de cabeza de las palabras clave, "Discusión 2.0" proporciona a "Miahua 3.0" la capacidad de expandir automáticamente las palabras clave. Esto significa que los usuarios solo necesitan unas pocas palabras sencillas para lograr un resultado de imagen detallado.

En el campo de los humanos digitales, la plataforma de generación de video humano digital "Ruying" de SenseTime también se ha actualizado a la versión 2.0. La fluidez de la voz y la boca de "Ruying 2.0" ha aumentado en más del 30% y se puede realizar video 4K. Efecto . En la conferencia de prensa, aparecieron las imágenes humanas digitales del economista Ren Zeping, el Maestro Yancan y Xu Li, y el efecto fue lo suficientemente realista.

En la escena de aterrizaje del modelo grande, el humano digital es un método de transporte muy importante. La transmisión en vivo digital humana reciente y muy popular es una escena típica. La transmisión en vivo, incluidos videos cortos, también es una de las escenas más enfocadas para los clientes durante las pruebas internas y públicas de tres meses de "Ruying 2.0".

Luan Qing, gerente general del Departamento de Entretenimiento Digital de SenseTime, dijo que en el marco de AIGC, "Discusión 2.0" puede llevar a cabo la redacción de textos publicitarios y la creación de guiones para transmisiones en vivo de videos cortos. Y cómo "Ronin 2.0" puede mantenerse al día con la tendencia en comunicación también depende de la gran capacidad del modelo de lenguaje de "Consulta 2.0" para aprender el último corpus de videos cortos.

Además de videos cortos y escenas de transmisión en vivo, "Ronin 2.0" está acelerando su entrada en todos los ámbitos de la vida.

Por ejemplo, en la industria de seguros, cada especialista en seguros tiene la necesidad de promocionar nuevos productos u otro tipo de contenido orientado a servicios personalizados para los clientes. "Ruying 2.0" puede reemplazar a los especialistas en seguros en los cumpleaños de los clientes o cuando se lanzan ciertos productos de gestión patrimonial. Contenidos y servicios personalizados; en la industria de la educación, "Roning 2.0" ha comenzado a ayudar a los maestros en las principales plataformas nacionales de educación vocacional a producir materiales educativos para satisfacer las necesidades internas de producción de videos.

"Digital Human es una herramienta de eficiencia típica dentro de una empresa", dijo Luan Qing.

Como plataforma de creación de AIGC, Ronin continuará profundizando en el campo de la generación de videos en el futuro, Luan Qing cree que esto se debe a que la creación de contenido está experimentando un cambio dimensional de texto, imágenes a videos.

Hacia la multimodal

Dado que las imágenes y la información de video representan una gran proporción en el mundo real, superando con creces la información del idioma, la necesidad de comprender el mundo real hará que el futuro del modelo básico a gran escala avance hacia la multimodalidad, que se ha visto por primera vez. a través de la Pista "Consulta 2.0".

Además del texto, "Consulta 2.0" tiene la capacidad de analizar imágenes y contenido de video.

Por ejemplo, como se muestra en la figura anterior, "Consulta 2.0" puede identificar objetos específicos en una foto de escritorio desordenada y combinar las características de cada objeto para responder "¿qué haces cuando sientes calor?" Esto se acerca al diseño de procesos preguntas abiertas o después de ver una foto del menú, ayudar a los usuarios a ofrecer opciones a la carta dentro de un rango de precios limitado.

SenseTime, que inicialmente ingresó al campo de la IA desde la investigación de la visión por computadora y ha cruzado una ola de IA, está más convencido de que esta ola de modelos grandes será una oportunidad real.

La investigación actual del modelo a gran escala se basa en la arquitectura de la red de transformadores. "SenseTime se ha dedicado a la investigación de modelos a gran escala desde 2019. En ese momento, era la ruta para hacer visión". Según Wang Xiaogang, cofundador y científico jefe de SenseTime, algunos estándares visuales y estándares de lenguaje natural se están implementando gradualmente. convergiendo hoy. , "Cuando nos desarrollamos en una dirección multimodal, el lenguaje y la visión comienzan a tener una integración más profunda, lo que refleja una acumulación y habilidad relativamente fuertes en esta área".

Muchos escenarios de aplicación que encontramos en la vida real, como en una serie de campos como la conducción autónoma y la robótica, deben aplicarse a la multimodalidad. "Sin embargo, los datos multimodales y algunas tareas a menudo no son fáciles de obtener y requieren una gran acumulación de la industria. Esta es también la ventaja de SenseTime", presentó Wang Xiaogang.

Tres meses después de su primera aparición pública en la Conferencia Mundial de Inteligencia Artificial de este año, el sistema "Daily New SenseNova Large Model" de SenseTime se actualizó por completo y se abrió a los usuarios empresariales. Al mismo tiempo, muchas personas no han notado que Shangtang también ha lanzado un modelo multimodal a gran escala de académicos junto con el Laboratorio de Inteligencia Artificial de Shanghai. En el futuro, vale la pena esperar si SenseTime puede tomar la iniciativa en la búsqueda de la clave de la carretera multimodal.

Ver originales

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
GT 2025 Q2 Burn Completed
14k Popularidad
Michael Saylor Hints at Buying BTC
10k Popularidad
BTC
30453k Popularidad
4contentstar
10720k Popularidad
5NADA
11186k Popularidad
6BOME
11565k Popularidad
7BTC
30453k Popularidad
8SMILE
9062k Popularidad
9比特币
13442k Popularidad

Anclado