El mundo ha vuelto a su apariencia anterior, y algunas personas dicen que Robin tiene una publicidad seria en el escenario, revelando el sentido futurista y la curiosidad de los productos tecnológicos. Esa es la esperanza y la resonancia del futuro de la tecnología dentro y fuera del escenario, de la empresa y de los usuarios.
Baidu World Congress 2023 es la conferencia de estrategia, tecnología y lanzamiento de productos más importante de Baidu, que se celebra desde hace 17 años desde 2006.
** El 17 de octubre, el caballo negro del emprendimiento fue invitado a participar en la Conferencia Mundial de Baidu, grabó 10 contenidos importantes en el acto, clasificó el texto completo del discurso de Robin Li y lo compartió con todos. **
¡Bienvenidos a la era de la inteligencia artificial generativa! La mayor innovación en tecnología en el último año ha sido la aparición de la inteligencia a partir de grandes modelos, que es la base para desarrollar aplicaciones nativas de IA. Wenxin Model 4.0 se lanzó oficialmente, realizando una actualización integral del modelo básico, y ha mejorado significativamente sus capacidades de comprensión, generación, lógica y memoria, y el nivel integral no es menor que el de GPT-4.
Las aplicaciones nativas de .AI son aplicaciones desarrolladas en base a la comprensión, generación, lógica y capacidades de memoria de modelos grandes. Estas capacidades no estaban disponibles en épocas pasadas, lo que abre un espacio ilimitado para la innovación.
La IA generativa y la búsqueda son una combinación perfecta. La búsqueda de Baidu se ha reconstruido sobre la base del modelo grande de IA, y la nueva búsqueda tiene tres características: satisfacción extrema, estimulación de recomendaciones e interacción de múltiples rondas. No solo mejora la calidad de la búsqueda, sino que también supera el alcance de la aplicación de la búsqueda y amplía los límites del producto.
Baidu GBI es el primer producto de inteligencia empresarial generativa en China, que puede acortar el análisis de datos y el trabajo de redacción de informes que los analistas de negocios pueden completar en más de diez días al minuto, y es una herramienta de toma de decisiones basada en grandes capacidades de modelo.
La Biblioteca Baidu es el producto más completo de la reconstrucción de IA. Se dio a conocer Baidu Wenku, que se basa en la reconstrucción de modelos grandes, transformándose de "herramientas de contenido" a "herramientas de productividad". Evoluciona rápidamente en funciones como la comprensión de materiales, la redacción de artículos, la generación inteligente de PPT y el cambio de estilo.
El disco de red de Baidu ha completado la reconstrucción de la IA. El asistente inteligente personal en la nube "Cloud One" realiza la transformación de la interacción de la interfaz gráfica a la interacción del lenguaje natural, mejora la comprensión de la información multimodal y puede localizar videos con precisión, resumir el contenido de video con un solo clic y refinar oraciones doradas, liderando el mundo.
Plug-in es una aplicación nativa especial de IA, con el umbral más bajo y la más fácil de usar. El plug-in mejora las capacidades de los modelos grandes, haciéndolos más prácticos y fáciles de usar, y también hace que muchos datos privados de la empresa se puedan usar fácil y rápidamente sin riesgo de fugas.
Las futuras aplicaciones nativas de IA deben ser multimodales, y la conducción autónoma es una aplicación típica de grandes modelos visuales para reconstruir el mundo físico.
Baidu está promoviendo vigorosamente la profunda integración de la tecnología digital y la economía real, y la tecnología de modelos grandes se ha aplicado en la fabricación, la energía, la energía eléctrica, la industria química, el transporte y otras industrias reales, utilizando la inspección inteligente para reducir los posibles riesgos de seguridad, utilizando la programación inteligente para acortar el ciclo de entrega, utilizando la toma de decisiones inteligentes para mejorar la eficiencia empresarial, el control inteligente de la información para resolver la congestión del tráfico, y el modelo grande se está convirtiendo en una fuerza impulsora importante para la nueva industrialización.
Estamos a punto de entrar en una era de IA nativa, ¡una era de interacción humano-computadora!
El siguiente es el texto completo del discurso del fundador y CEO de Baidu, Robin Li, editado por Dark Horse of Entrepreneurship:
¡Hola invitados! ¡Bienvenidos al Congreso Mundial de Baidu 2023!
¡Bienvenidos a la era de la IA generativa! **
**El tema de esta conferencia son las aplicaciones nativas de IA. Compartiré con ustedes en detalle la experiencia de Baidu en el proceso de reconstrucción nativa de IA de sus diversas líneas de productos en los últimos meses, y espero que les sea útil. **
Como todos sabemos, las aplicaciones nativas de IA se desarrollan en base a grandes modelos. La mayor innovación en el sector tecnológico en el último año ha sido, sin duda, la aparición de la inteligencia provocada por los grandes modelos, que es la base para el desarrollo de aplicaciones nativas de IA.
Por lo tanto, las aplicaciones nativas de IA de Baidu también se desarrollan en base a nuestras palabras Wen Xin. Las palabras de Wen Xin se publicaron por primera vez el 16 de marzo de este año, y desde entonces hemos iterado rápidamente y hemos sido aprobados para abrir al mundo el 31 de agosto, obteniendo muchos comentarios de los usuarios, y la velocidad de la innovación se está acelerando.
Hoy, me complace anunciar el lanzamiento oficial de Wenxin Grand Model 4.0.
También empezamos a invitar a las pruebas al mismo tiempo. Amigos en la escena, solo necesitan escanear el código QR en la tarjeta de invitado, recibir el cupón de experiencia y pueden iniciar sesión en el sitio web oficial de Wenxin Yiyan o en la aplicación Wenxin Yiyan para experimentar Wenxin Model 4.0.
Este es el modelo grande de Wenxin más poderoso hasta ahora, ha logrado una actualización integral del modelo básico, la comprensión, la generación, la lógica y la memoria, las cuatro capacidades principales, en comparación con la versión actual de Wenxin Yiyan, se han mejorado significativamente, ¡el nivel integral no es menor que GPT4!
**La llamada aplicación nativa de IA, tal y como yo la entiendo, es una aplicación desarrollada en base a la comprensión, generación, lógica y capacidades de memoria de grandes modelos. Estas capacidades no estaban disponibles en épocas pasadas, por lo que pueden abrir un espacio ilimitado para la innovación. **
A continuación, combinaré los escenarios de aplicación para presentarle las cuatro capacidades de las palabras de Wen Xin. La aplicación con estas cuatro capacidades es la aplicación nativa de la era de la IA.
** La primera es la capacidad de comprensión. Esto es lo más sorprendente que sentí después de entrar en contacto con el gran modelo. **
En el pasado, dijimos que la IA es una "discapacidad intelectual artificial", es decir, la IA a menudo no puede entender las palabras de las personas y, con el tiempo, no te atreves a hablar demasiado con ella.
Hoy en día, cada palabra que dices, lo más probable es que pueda entenderla, muchas veces mejor de lo que tus amigos y colegas entienden lo que estás diciendo.
Por ejemplo, usted es un joven que trabaja en Pekín y quiere comprar una casa en Hebei y quiere saber si puede solicitar un préstamo del fondo de previsión en Pekín.
Entremos en una línea.
[Quiero volver a Chengde para comprar una casa, ¿puedo usar el préstamo del fondo de previsión, qué debo hacer con los procedimientos?] Trabajo en Pekín. 】
Echemos un vistazo a los resultados. Wen Xin respondió que podía usar el préstamo del fondo de previsión. ¿Por qué estas preguntas y respuestas reflejan la capacidad de entender el gran modelo? De hecho, lo que acabo de decir, aparentemente simple, tiene varios pequeños escollos que hay que entender:
En primer lugar, es una expresión de ida y vuelta. Cuando la mayoría de las personas llaman para hacer preguntas, piensan en dónde decir, no tan riguroso, como esto, primero dije sobre comprar una casa y manejar el fondo de previsión, y finalmente dije "Trabajo en Beijing", lo que plantea requisitos más altos para la comprensión.
En segundo lugar, utilizo deliberadamente aquí dos expresiones vagas. Uno es "trabajar en Pekín", el subtexto es "depositar el fondo de previsión en Pekín", el otro es "volver a Chengde para comprar una casa", sólo una palabra de "regreso", de hecho, implica que lo más probable es que sea un hukou de Chengde.
En tercer lugar, Wen Xin combinó el contexto y combinó todos los puntos de información para comprender con precisión la pregunta real, es decir, "¿puede un usuario con registro de hogar en Chengde, provincia de Hebei, usar el fondo de previsión de Beijing para comprar una casa en Chengde con un préstamo?", y luego dio una respuesta y los pasos de manejo para esta pregunta.
Se puede ver que las palabras de Wen Xin ya pueden tener una comprensión bastante precisa de "expresiones fuera de orden, intenciones de expresión relativamente vagas y subtexto en palabras". Esta capacidad tiene una amplia gama de perspectivas de aplicación en asuntos gubernamentales, marketing, servicio al cliente y otros campos.
** La segunda capacidad importante de los modelos grandes es la "generación", que puede generar contenido multimodal como texto, imágenes y videos. **
Entonces, ¿cómo utilizar la energía de generación? Le pedí a Wen Xin que generara un conjunto de creatividades en una palabra.
Primero escriba una imagen en ella y, a continuación, escriba un párrafo.
[Este es el vehículo de nueva energía de Changan.] Por favor, ayúdame a generar dos imágenes con un manantial, un paisaje vibrante de fondo y la sensación del coche a toda velocidad. 】
Vemos que esta generación utiliza el vibrante paisaje al aire libre de la primavera, acompañado por el borrón de la velocidad.
Le pedí que generara un póster vertical directamente para mí.
[Combinado con la información de Changan Qiyuan en el sitio web oficial de Changan, haga un cartel publicitario vertical y escriba una copia de marketing simple y elegante, haciéndose eco del estilo del cuerpo. ] 】
Como puedes ver, generamos un cartel publicitario vertical con imágenes y texto.
Ahora tenemos un cartel publicitario y necesitamos una copia publicitaria más rica, puede pedirle a Wen Xin que escriba algunas palabras más:
[Este automóvil enfatiza la cabina de inteligencia digital, el diseño Fuguang y la conducción de calidad. Por favor, escriba 5 piezas más de texto publicitario, cada una con un título corto y una descripción]
La redacción escrita por IA, que tiene la belleza de la ciencia y la tecnología, la tendencia de los tiempos, también enfatiza la interacción humano-computadora, la redacción es más profesional y fluida, ha alcanzado el estándar de marketing de marca.
Entonces, ¿qué pasa si todavía quiero un video?
[Combine la información del sitio web oficial y el contenido de video existente para generar un video oral humano digital, quiero publicar anuncios en el feed.] 】
Se ha generado, luego abrimos el video para ver el efecto.
De hecho, se trata de un vídeo de difusión digital de la población más distintivo, y también refleja las características de este coche.
Ahora, tenemos 1 película comercial, 5 textos publicitarios y 1 póster, y solo le di a Wen Xin una palabra de un material de imagen y algunas palabras como "automóvil inteligente digital" y "conducción de calidad", y todo el proceso tomó menos de 3 minutos.
No hace mucho, también utilizamos esta función para lanzar la plataforma creativa de marketing de AIGC Steering Engine, que permite que una persona se convierta en un equipo de marketing de IA. Es posible que haya algunos amigos redactores publicitarios en la escena hoy en día, al ver esto, ¿crees que los modelos grandes pueden aportar más inspiración creativa y ayudarte a mejorar la eficiencia?
A continuación, hablemos de la tercera capacidad de los modelos grandes: la lógica. **
Muchas personas a menudo tienen que ayudar a sus hijos con la tarea. Algunas personas bromean diciendo que "si no escribes la tarea, la madre es piedad filial, y cuando escribes la tarea, la gallina vuela y el perro salta". Entonces, veamos, ¿pueden las palabras de Wen Xin ayudar a los padres a resolver el problema de la tutoría de la tarea?
Déjame inventar un problema matemático y ver cómo funciona:
[La pila de arena en forma de cono, el área inferior es de 8 metros cuadrados, la altura es de 12 decímetros, extienda esta pila de arena en un camino de 2 metros de ancho, 5 cm de grosor, ¿cuántos metros se pueden pavimentar? ] 】
Este es un tipo de problema matemático que podemos haber hecho cuando éramos niños, y a juzgar por la respuesta de Wen Xin, su lógica de respuesta es bastante clara. Cada paso está escrito. Los padres pueden ver si es más detallado que lo que se da en algunos materiales de tutoría.
Incluso, la IA puede señalar los puntos de conocimiento utilizados en la resolución de problemas para ayudar a los niños a consolidar el aprendizaje, preguntémoslo de nuevo:
[¿Qué puntos de conocimiento están involucrados en el proceso de resolución de problemas anterior?] 】
Wen Xin dio claramente los puntos de conocimiento involucrados en esta pregunta, como la fórmula del volumen del cono, la unidad de medida unificada, el volumen que permanece sin cambios y la resolución de ecuaciones. Esto es práctico para estudiantes, profesores y padres. Una vez que estos puntos de conocimiento se dominan claramente, los niños tendrán la capacidad de hacer inferencias unos de otros.
La capacidad súper lógica del modelo grande ciertamente no solo se puede usar para resolver problemas. La planificación de rutas para mapas inteligentes, los asistentes inteligentes para tareas complejas, el control de semáforos en sistemas de transporte inteligentes, etc., requieren el uso de capacidades lógicas.
A continuación, veamos el cuarto punto, que es la capacidad de memoria del modelo grande. **
La memoria aquí se refiere principalmente a lo que dijiste antes, si la IA lo recuerda, el contenido generado por la IA, será contradictorio. Este es un indicador importante para distinguir la inteligencia de los modelos grandes, y el diálogo de varias rondas es la encarnación de la capacidad de memoria.
Sé que muchos creadores están usando a Wen Xin para escribir novelas. Y si el contenido de la novela es inconsistente, entonces no es legible. Hoy le pediré que escriba una novela en el momento, que intercala algunas distracciones con preguntas y que vea si puede recordar lo que escribió.
Voy a entrar uno primero:
[Por favor, ayúdame a escribir una novela de artes marciales, la protagonista es una mujer y la trama tiene altibajos. ] 】
Pues a ver, ha salido el esbozo de la novela:
El primero es el trasfondo de la historia, en el antiguo mundo de las artes marciales, las fuerzas oscuras están surgiendo; El nombre de la heroína es Ling'er y tiene el poder de manipular las fuerzas internas y volar.
Voy a entrar uno primero:
[Por favor, ayúdame a escribir una novela de artes marciales, la protagonista es una mujer y la trama tiene altibajos. ] 】
Pues a ver, ha salido el esbozo de la novela:
El primero es el trasfondo de la historia, en el antiguo mundo de las artes marciales, las fuerzas oscuras están surgiendo; El nombre de la heroína es Ling'er y tiene el poder de manipular las fuerzas internas y volar.
A continuación, está el comienzo de la historia. Ling'er quiere derrotar a las fuerzas oscuras y salvar las artes marciales. En el clímax de la novela, ella libra una batalla de vida o muerte con el villano, derrota al villano y salva las artes marciales y todas las sectas.
Al final, Ling'er y sus aliados también establecieron juntos el Instituto de Cultivo de Poder Interno.
Ahora que la historia está básicamente formada, pero es un poco simple, quiero agregar algunos requisitos más de personajes:
[Ahora la relación de personajes es demasiado simple, solo hay dos personajes y se agregan 4 caracteres más]
Wen Xin dio cuatro roles más en una palabra, cada uno con una identidad y personalidad diferentes, con una personalidad diferente, este Murong Gucheng es una generación de grandes maestros, y hay un profeta Xiao Hanyan que puede predecir el futuro.
Pero ahora todavía hay un elemento necesario en la novela, el conflicto dramático. Una historia sin conflicto no es una buena historia, y el proceso de la heroína derrotando a las fuerzas oscuras en este momento es demasiado simple, veamos si podemos hacerlo más difícil.
Entra en otro
[También es necesario agregar el conflicto dramático de la línea principal a la historia para que la historia sea más fácil de ver]
Ya vemos, ya está escrito para el conflicto dramático. Aquí hay una inversión, detrás de las fuerzas oscuras, el verdadero líder es una figura de nivel de gran maestro muy respetada, lo que ha puesto a la heroína en peligro varias veces. Hasta la batalla decisiva, la heroína tuvo la oportunidad de defenderse.
Como puedes ver, recuerda que la línea principal de la historia es la confrontación entre Ling'er y las fuerzas oscuras, y el conflicto también gira en torno a esta línea principal.
Entonces, ¿Wen Xin todavía recuerda la historia que acaba de escribir y correlaciona estos personajes con la historia?
Hagamos una petición más:
[Trae estos personajes al esquema de la historia que diseñaste para mí y diseña un título.] 】
Los resultados se han mostrado en la pantalla grande, y la novela se llama "La justa batalla de los ríos y lagos", que agrega personajes adicionales y conflictos dramáticos al esquema de la historia. Los capítulos cuarto y quinto aquí también nos dicen que el gran maestro de este villano es Murong Gucheng, que acaba de ser presentado.
Durante todo el proceso, seguí aumentando la dificultad y presentando nuevos requisitos para interferir con su memoria, y Wen Xin todavía recordaba todas las necesidades y respuestas anteriores, y podía corresponder con precisión la historia y los personajes, y su memoria era muy sorprendente.
Entonces, todos en la escena de prueba ahora, ¿recuerdan, cuál es la habilidad especial del protagonista Linger?
Tal vez la mayoría de la gente no lo recuerde, así que veamos si Wen Xin lo recuerda.
[¿Cuál es la habilidad que tiene la heroína?] 】
Bueno, la respuesta está fuera, es el poder de manipular las fuerzas internas y la huida. Este es el texto de ejemplo escrito por Wen Xin en la primera ronda de diálogo. Ahora, después de cinco rondas de diálogo y unos pocos miles de palabras de ficción, todavía puede recordar lo que ha escrito antes, que es la capacidad de memoria del gran modelo.
Acabamos de experimentar las cuatro capacidades del gran modelo, por supuesto, la mayoría de las veces, estas cuatro habilidades no aparecen solas, se complementan entre sí. **
Por ejemplo, para crear un texto publicitario, debe comprender el tema de la creación, aclarar la lógica de la creación y mantener la coherencia a través de la memoria.
En la resolución de problemas, también es necesario aplicar de manera integral la capacidad de comprender, generar, lógicar y recordar.
Veamos un ejemplo de aplicación completo:
En primer lugar, abrimos la aplicación Baidu reconstruida, escaneamos la caja de medicamentos que sacó el paciente con la cámara, y no es necesario mirar las instrucciones en letra pequeña, y el médico humano digital lo ayudará a explicarlo.
Las preguntas que aparecieron en la pantalla hace un momento, como "si comer antes o después de las comidas", "si beber alcohol puede comer", "qué otras precauciones", son muchos pacientes en medicación diaria encontrarán problemas.
Vemos que el modelo grande no solo puede ayudar a los pacientes a interpretar las instrucciones del medicamento, sino también combinar necesidades personalizadas para mejorar la eficiencia de la medicación y garantizar la precisión y puntualidad de la medicación de los pacientes.
No hace mucho, combinamos el modelo de Wen Xin con el conocimiento médico profesional y lanzamos el Big Model de Medicina Espiritual, que puede ayudar a los pacientes y médicos a hablar y generar registros médicos mediante la aplicación del Bot de Medicina Espiritual. Este ejemplo utiliza no solo la capacidad de comprender y generar memoria lógica, sino también la capacidad de hablar multimodalmente, visión, etc.
La demostración anterior refleja principalmente el progreso del modelo de Wenxin en las cuatro capacidades de comprensión, generación, lógica y memoria, que son la base para la supervivencia de todas las aplicaciones nativas de IA. Del mismo modo, sin una rica ecología de aplicaciones nativas de IA construida sobre el modelo básico, un modelo grande no sirve de nada.
Dije públicamente en mayo que Baidu será la primera empresa en reestructurar todos los productos, y que utilizaremos el pensamiento de IA para crear aplicaciones nativas de IA.
** En los últimos meses, nuestras búsquedas, como flujos, mapas, discos en línea, bibliotecas, etc., le darán un nuevo aspecto. Durante el período, pisé muchos pozos, y estoy dispuesto a compartir con ustedes, espero que puedan tomar caminos menos torcidos en el proceso de desarrollo. **
A continuación, te mostraré cómo son estos productos reconstruidos con modelos grandes. Esto también es para expandir la imaginación de todos e inspirar a todos a crear aplicaciones nativas de IA más sorprendentes.
Lo primero que os muestro es la búsqueda, que es donde empezó Baidu. La impresión de muchas personas de la búsqueda es que ingresas una palabra clave y Baidu te da un enlace web. ¡Ya no!
Nueva búsqueda de Baidu, al abrir la interfaz, además de ver un cuadro de búsqueda, los resultados de la búsqueda serán completamente diferentes a los del pasado.
**La nueva búsqueda reconstruida tiene tres características: satisfacción extrema, estimulación de recomendaciones y múltiples rondas de interacción. **
¿Qué es la satisfacción final? Cuando escribe una pregunta en el cuadro de búsqueda, como "¿Qué es MBTI?" "Cómo aparcar en el lateral", la nueva búsqueda ya no es para darte un montón de enlaces, sino para entender a través del gran modelo y generar una mejor respuesta
Por ejemplo, si preguntas "el ranking de valor añadido industrial por país en los últimos 20 años", la nueva búsqueda no solo te dirá la respuesta directamente, sino que también te mostrará la respuesta con gráficos dinámicos.
Desde la pantalla grande detrás de mí, puedo ver que en las últimas dos décadas, nuestra industria manufacturera industrial ha experimentado un rápido desarrollo y se está transformando de un país manufacturero a una potencia manufacturera.
Esta es la máxima satisfacción: un paso para darte la respuesta definitiva.
Entonces, el segundo paso, después de ver la respuesta, ¿qué más quieres ver?
Aquí es donde se utiliza la estimulación por recomendación. Por ejemplo, después del gráfico dinámico, la función de excitación de recomendación también da "cuál es la relación entre el valor agregado industrial y el PIB" y "cuál es el impacto de la industria en el desarrollo de la economía nacional", estas preguntas también pueden preocuparle. Haga clic para obtener la respuesta.
Por supuesto, no todas las necesidades tienen una única respuesta correcta. Las necesidades de los usuarios a veces pueden ser complejas, y no está claro en una o dos frases. También es difícil para los usuarios expresar completamente un requisito muy complejo a través de una descripción grande a la vez.
En este momento, necesitamos utilizar un modelo de búsqueda más novedoso y personalizado para atender a los usuarios, es decir: interacción multironda.
Echemos un vistazo a este ejemplo:
Por ejemplo, si preguntas "¿cuál es el lugar recomendado para hacer montañismo en los alrededores de Pekín?", da múltiples respuestas como la montaña Baihua y la montaña Haituo, sesgadas hacia las rutas de senderismo;
Luego, brinda varios consejos para complementar su elección de situación, puede elegir entre principiantes, padres e hijos y ver hojas caídas. Ahora, ha cambiado para recomendar West Mountain y Baiwang Mountain, que son relativamente fáciles de escalar y más amigables para las actividades de padres e hijos.
Luego continúa preguntando, ¿qué equipo necesitas para el montañismo y el senderismo? La respuesta fueron bastones de trekking, zapatos para caminar, etc., y también recordó que eligió un recorrido entre padres e hijos antes, y especialmente dio consejos sobre cómo cuidar a los niños.
Se puede decir que la IA generativa y la búsqueda son una combinación perfecta.
La búsqueda, aunque todavía comienza desde ese cuadro simple, pero el siguiente paso a paso, ha superado y reconstruido el modo de búsqueda original, no solo mejoró la calidad de la búsqueda, sino que también rompió el alcance de la aplicación de la búsqueda y amplió el límite del producto. tal
La búsqueda interactiva con IA liderará la transformación generacional de la industria de las búsquedas.
En un futuro próximo, la búsqueda se convertirá en un asistente íntimo, capaz de evocar, resolver problemas e incluso romper las limitaciones del "fin" en cualquier momento, para responder en cualquier momento y en cualquier lugar, satisfacer las necesidades y acompañar todo el proceso.
A continuación, echemos un vistazo al segundo producto de pensamiento nativo de IA, Baidu GBI, Generative Business Intelligence, es decir, inteligencia empresarial generativa. **
Este es un producto desde cero, no una refactorización de un producto existente. **
En nuestro mundo empresarial, el más inseparable es el análisis empresarial, es decir, el BI, ¿cómo tomar las decisiones empresariales más rápidas? Primero sintamos a través de un video:
Como se puede ver, en el video, el presidente hizo una variedad de preguntas profesionales. Hay análisis financieros, entrega de proyectos y análisis de usuarios, y el asistente del presidente de GBI puede dar resultados rápidamente y dejar que el presidente tome decisiones en el acto.
Se trata de una herramienta de toma de decisiones basada en grandes capacidades de modelos, el primer producto de inteligencia empresarial generativa en China, Baidu GBI. ¡Con GBI, haz todo rápido!
No solo las personas con herramientas avanzadas no serán reemplazadas por la IA, sino que "los ascensos y aumentos no son un sueño". Las personas que no utilizan herramientas avanzadas corren el riesgo de perder sus trabajos. **
Entonces, ¿cómo consiguió Baidu GBI ir un paso por delante? Subvierte el análisis de datos tradicional de tres maneras:
En primer lugar, el BI tradicional solo puede ser operado por profesionales, mientras que GBI puede entender directamente las preguntas del presidente y ejecutarlas en tiempo real;
En segundo lugar, GBI proporciona un método de acceso conveniente, las empresas pueden acceder a los datos, hacer preguntas y analizar cualquier dato en lenguaje natural, y ya no necesitan realizar manualmente varias operaciones profesionales en bases de datos y tablas;
En tercer lugar, GBI también tiene la capacidad de aprender, y las empresas pueden inyectar su propia experiencia en la industria para convertirse en expertos de la industria.
Se trata de Baidu GBI, que puede acortar el análisis de datos y el trabajo de redacción de informes que los analistas de negocios pueden completar en una docena de días al minuto. Las llamadas artes marciales del mundo solo se pueden romper rápidamente;
** Competencia empresarial, no los peces grandes comen peces pequeños, sino que los peces rápidos comen peces lentos, la toma de decisiones es más rápida que la de los competidores, ¡es probable que ganes! **
Hablando de toma de decisiones rápidas, en Baidu confiamos en una plataforma de oficina inteligente llamada Ruliu, y también hemos reinventado esta aplicación con IA.
Hoy en día, se ha convertido en un súper asistente del que la gente de Baidu no puede prescindir.
Ahora, por favor, vean que esto es como una transmisión que graba en tiempo real. Veamos si puede recordar todos los puntos que acabamos de mencionar:
Esta es la función de generación de actas de reuniones con un solo clic. Decimos que cómo llevar a cabo reuniones de manera eficiente es un trabajo técnico. Esta función reduce en gran medida la carga de trabajo de la reunión y acorta el tiempo de la reunión en un 40%.
Otro escenario común son los grupos de trabajo. La mayoría de las personas en el lugar de trabajo a menudo son bombardeadas con varios mensajes de chat grupal. Luego, resumir rápidamente los puntos clave del chat grupal se convierte en una característica extremadamente útil.
Echemos un vistazo a cómo lo utilizan nuestros gerentes de producto.
Tiene 9 grupos de trabajo, retrasa por un período de tiempo, puede haber más de mil información sin leer, y Ruliu no solo puede "1000 mensajes, obtener el enfoque en un segundo", sino también dividir inteligentemente el contenido que debe leerse en varias categorías: "esperando que confirme", "concéntrate en", "discusión del tema", lo que mejora en gran medida la eficiencia del trabajo.
Entonces, ¿se refina con precisión, se malinterpretará o se perderá información clave? Esto pone a prueba la capacidad de comprender y generar modelos de gran tamaño. Cuanto más profunda sea la comprensión, más preciso será el resumen. No digas 1,000, 10,000 piezas de información, como el súper asistente de flujo también puede brindar una clasificación inteligente y un resumen inteligente en unos segundos.
Veamos otro escenario en el trabajo: los viajes.
Billetes de avión, hoteles, negociaciones, etc., ¡estas tareas transaccionales son tediosas y consumen mucho tiempo! Si tuvieras un asistente de IA que te ayudara a resolver tareas triviales, ¿te encantaría trabajar más?
Por ejemplo, recientemente, el gerente de producto de Ruliu planeó viajar a Shanghái para reunirse con el Sr. Wang de PICC. Sabemos que PICC está promoviendo la innovación en productos y servicios, modelos de negocio, tecnología digital y otros aspectos, y nuestra tecnología de inteligencia artificial en Baidu puede desempeñar un papel.
Este itinerario de viaje de negocios se puede entregar a Ruliu, el súper asistente, y echemos un vistazo a su rendimiento.
El súper asistente puede organizar el viaje en función de la información de su horario.
Al igual que la última reunión termina a las 4 en punto, así que reserve un vuelo después de las 7:30; Y, de acuerdo con sus estándares de viaje, ayúdalo a encontrar hoteles donde pueda quedarse. Finalmente, se emitió una invitación al cliente.
Es posible que necesite algunos antecedentes antes de reunirse con un cliente, y un superasistente también puede ayudarlo con esto. A través de la conexión con CRM y otros datos del sistema de la empresa, como el flujo, proporciona datos detallados, como proyectos de cooperación y registros de visitas.
Al comprender la situación de cooperación comercial y la información externa, como el flujo, también puede ayudarlo a generar una referencia de discusión, preestablecer las preguntas que el cliente puede hacer y dar algunas sugerencias de cooperación. Desde este punto de vista, ¿Ruliu se parece más a un asistente real?
Acabamos de ver que con solo tres palabras, Ruliu completó la reserva de los comprobantes de viaje, el vino de la máquina y los horarios, e incluso preparó materiales de referencia para la negociación, que es el "viaje con un clic" de Ruliu. ¿Cómo lo hace?
Se trata de una aplicación completa de la comprensión, la generación, la lógica y la capacidad de memoria de un modelo grande, que desensambla automáticamente tareas complejas en múltiples tareas sencillas para realizarlas por separado, y luego se fusiona para generar el resultado final. Decimos que mejorar la eficiencia significa mejorar la competitividad, por ejemplo, dejar que el "trabajo inteligente" reemplace al "trabajo duro".
Ahora, echemos un vistazo a la nueva biblioteca de Baidu. Este es también el producto que creo que se ha refactorizado por completo hasta ahora. **
La Biblioteca Baidu cambiará por completo nuestros hábitos de trabajo, aprendizaje y creación.
¿Cómo creábamos en el pasado? Por ejemplo, supongamos que estás dando una presentación sobre la aplicación de la IA en psicología. Se necesitan varios días para verificar la información, clasificar los materiales, escribir manuscritos, escribir PPT y embellecer PPT.
Hoy, en Baidu Wenko, puedes comenzar a trabajar con una oración, mira la pantalla grande: primero, quieres que escriba un discurso, y encuentra docenas de materiales sobre el tema de la inteligencia artificial y la psicología.
También puede identificar cuáles son revistas académicas, informes autorizados y cuáles son solo materiales masivos. Si quieres escribir un artículo animado, elige algunos materiales populares, como ensayos y divulgación científica.
Luego, si desea un discurso académico riguroso, solo puede verificar el contenido autorizado para garantizar la precisión del contenido. Luego, al comprender estos manuscritos, la biblioteca produce un artículo bien estructurado y bien definido, al tiempo que pule y formatea el contenido.
Esto se puede hacer porque Baidu Wenku ya tiene mil millones de documentos de alta calidad, basados en la comprensión de estos contenidos, escribir documentos verdaderamente prácticos y claros, en lugar de tonterías serias como muchos modelos grandes, ni será una charla vacía general.
A continuación, la presentación también necesita PPT. La biblioteca puede combinar el manuscrito en este momento con algunos de los materiales que ha recopilado para generar automáticamente el marco del PPT, y luego embellecer el dibujo para hacer un PPT de docenas de páginas.
También hay algunos modos de juego con capacidades de generación multimodal, como la selección de estilo y el cambio de estilo con un solo clic. Pero hay algunos lugares que ponen a prueba más la capacidad de la biblioteca y requieren que tenga una comprensión precisa del contenido. Por ejemplo, necesita conocer la relación entre las ideas, ya sean yuxtapuestas o subordinadas, para diseñar el gráfico correcto.
Debido a esta capacidad de comprensión, la biblioteca también puede escribir el guión de voz correspondiente para este PPT sobre la base de la generación de PPT. No solo eso, sino que también puede usar estos contenidos para deducir preguntas que la audiencia puede hacer y prepararlo para las respuestas.
Hemos evaluado que la capacidad de generar librerías, especialmente PPT, supera con creces cualquier otra herramienta en el mercado, ya sea extranjera o nacional. En el pasado, la gente venía a la biblioteca para encontrar contenido listo para usar. En el futuro, las personas podrán producir contenido como deseen, de manera más eficiente que cualquier otra herramienta de productividad.
Sobre la base de las cuatro capacidades del modelo Wenxin, no es exagerado decir que Baidu Wenku ha revolucionado fundamentalmente su propia vida y ha completado la evolución de "herramientas de contenido" a "herramientas de productividad"**.
No hace mucho, en el primer día de la nueva versión de Baidu Wenku, la nueva función de IA marcó el comienzo de más de 2 millones de experiencias. Ahora, tenemos más confianza para decir que en la era de los grandes modelos, Baidu Wenku es el mejor punto de partida para producir contenido.
Al igual que Wenku, el disco de red Baidu también es un viejo amigo familiar. En los últimos 11 años, el disco de red de Baidu ha servido a 800 millones de usuarios, el volumen de archivos ha alcanzado los 4 billones y los usuarios cargan más de mil millones de imágenes todos los días.
En la dirección de la reconstrucción de la IA, el disco de red de Baidu se centra en hacer un buen trabajo en servicios inteligentes para archivos personales.
Lo que ve ahora es la nueva página de inicio del disco de red Baidu.
** El disco de red reconstruido no solo realiza la transformación de la interacción de la interfaz gráfica a la interacción del lenguaje natural, sino que también mejora la comprensión de la información multimodal. **
Ahora, con solo una oración, puede operar en los archivos, imágenes, videos, etc. en su unidad en línea.
Se trata del disco de red "Cloud One" de Baidu, que es el primer asistente inteligente en la nube personal de la industria e incluso del mundo. ¿Vamos a sentir qué puntos débiles puede resolver "Cloud One" y traer nuevas experiencias?
El primer punto es encontrar fotos o videos. A veces, pensamos en una imagen y queremos encontrarla en el disco de red, a menudo después de muchos pasos, no se puede encontrar la agitación durante medio día. Ahora, le dices una palabra a "Cloud One", y puede ayudarte a identificarlo:
Bueno, me ayudó a encontrar rápidamente lo que el científico jefe de OpenAI, LLYA, entrevistó sobre los transformadores.
Detrás de esta búsqueda aparentemente simple se encuentra el papel de múltiples capacidades de IA, que deben ser capaces de comprender el contenido del video, identificar personajes y formar recuerdos contextuales para ubicar con precisión un determinado fotograma del video, que es una tecnología muy líder en el campo global de la nube personal.
La segunda característica de Yunyi es ayudar a los usuarios a comprender rápidamente el contenido del video, echemos un vistazo:
Puede ver que se demuestran dos habilidades, una es la capacidad de resumir y resumir el contenido y la capacidad de extraer oraciones doradas. Esta es una entrevista de 43 minutos, a través de la comprensión y la capacidad lógica de la IA, Yun Yiduo resumió y refinó el video, presentando a Llya y sus ideas principales.
Pero muchas veces, sentiremos que el texto original es muy emocionante, después de destilar la idea principal o el resumen, no es tan atractivo, por lo que la segunda función en este momento, creo que en realidad es más útil para mí, es decir, tenemos que encontrar la parte más emocionante del video original, que son esas oraciones doradas. Por ejemplo, LLYA dice que "aprender leyes estadísticas es mucho más importante que ver las apariencias". El avance clave en la extracción de esta frase de oro es la extracción eficiente de información multimodal, que es la tecnología líder en el mundo. Puede encontrar las mejores partes del contenido de la entrevista larga, lo que mejora en gran medida nuestro aprendizaje y la eficiencia del trabajo.
Este es el nuevo disco de red después de la reconstrucción de IA. A partir de ayer, Yunyi ha alcanzado los 20 millones de usuarios.
Se trata de un asistente inteligente de IA basado en una nube personal. En la última década, Baidu ha definido lo que se denomina un disco de red; En la próxima década, Baidu utilizará la IA para redefinir nuevos discos de red.
A continuación, echemos un vistazo a un producto más histórico, Baidu Map. **
Reconstruimos este producto de 18 años de antigüedad con el pensamiento nativo de la IA, que también es el primer producto de mapas nativos de IA del mundo.
Durante los últimos 18 años, Baidu Maps ha acumulado una gran cantidad de funciones, puede navegar, llamar a un taxi, encontrar un conductor sustituto, reservar un hotel, comprar un boleto e incluso satisfacer las necesidades de búsqueda de puntos de interés en condiciones más complejas. En el pasado, estas operaciones eran complejas y a menudo requerían seis o siete pasos o más para completarse;
Ahora, siempre que el usuario diga la demanda, el mapa puede movilizar miles de interfaces API de servicio, y el menú de varios niveles se convierte en una respuesta directa y rápida de un solo paso.
Echemos un vistazo a continuación, ¿cómo se implementa Baidu Map?
En el vídeo, los usuarios ponen a prueba la comprensión de Baidu Map de la pandemanda, la selección de puntos de encuentro intermedios, la comparación de información de múltiples ubicaciones y la recomendación y reserva de viajes futuros, y ofrece soluciones razonables.
Esto se debe a que la capacidad de hablar de Wen Xin se ha fusionado con el conocimiento único de puntos de interés de mil millones de niveles del mapa y los datos de percepción del tráfico de nivel de billón, y se puede llamar en cualquier momento para dar recomendaciones. El mapa reconstruido de Baidu no es solo navegación, sino también nuestra guía de viaje. Cuanto más inteligente eres, más inteligente eres, más te entiendes.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
El texto completo del discurso es de 11500 palabras | Baidu Robin Li: ¡Estamos a punto de entrar en una era de IA nativa!
Fuente del artículo: AI Dark Horse
Récord de campo: Dark Horse of Entrepreneurship
El mundo ha vuelto a su apariencia anterior, y algunas personas dicen que Robin tiene una publicidad seria en el escenario, revelando el sentido futurista y la curiosidad de los productos tecnológicos. Esa es la esperanza y la resonancia del futuro de la tecnología dentro y fuera del escenario, de la empresa y de los usuarios.
Baidu World Congress 2023 es la conferencia de estrategia, tecnología y lanzamiento de productos más importante de Baidu, que se celebra desde hace 17 años desde 2006.
** El 17 de octubre, el caballo negro del emprendimiento fue invitado a participar en la Conferencia Mundial de Baidu, grabó 10 contenidos importantes en el acto, clasificó el texto completo del discurso de Robin Li y lo compartió con todos. **
¡Bienvenidos a la era de la inteligencia artificial generativa! La mayor innovación en tecnología en el último año ha sido la aparición de la inteligencia a partir de grandes modelos, que es la base para desarrollar aplicaciones nativas de IA. Wenxin Model 4.0 se lanzó oficialmente, realizando una actualización integral del modelo básico, y ha mejorado significativamente sus capacidades de comprensión, generación, lógica y memoria, y el nivel integral no es menor que el de GPT-4.
Las aplicaciones nativas de .AI son aplicaciones desarrolladas en base a la comprensión, generación, lógica y capacidades de memoria de modelos grandes. Estas capacidades no estaban disponibles en épocas pasadas, lo que abre un espacio ilimitado para la innovación.
La IA generativa y la búsqueda son una combinación perfecta. La búsqueda de Baidu se ha reconstruido sobre la base del modelo grande de IA, y la nueva búsqueda tiene tres características: satisfacción extrema, estimulación de recomendaciones e interacción de múltiples rondas. No solo mejora la calidad de la búsqueda, sino que también supera el alcance de la aplicación de la búsqueda y amplía los límites del producto.
Baidu GBI es el primer producto de inteligencia empresarial generativa en China, que puede acortar el análisis de datos y el trabajo de redacción de informes que los analistas de negocios pueden completar en más de diez días al minuto, y es una herramienta de toma de decisiones basada en grandes capacidades de modelo.
La Biblioteca Baidu es el producto más completo de la reconstrucción de IA. Se dio a conocer Baidu Wenku, que se basa en la reconstrucción de modelos grandes, transformándose de "herramientas de contenido" a "herramientas de productividad". Evoluciona rápidamente en funciones como la comprensión de materiales, la redacción de artículos, la generación inteligente de PPT y el cambio de estilo.
El disco de red de Baidu ha completado la reconstrucción de la IA. El asistente inteligente personal en la nube "Cloud One" realiza la transformación de la interacción de la interfaz gráfica a la interacción del lenguaje natural, mejora la comprensión de la información multimodal y puede localizar videos con precisión, resumir el contenido de video con un solo clic y refinar oraciones doradas, liderando el mundo.
Plug-in es una aplicación nativa especial de IA, con el umbral más bajo y la más fácil de usar. El plug-in mejora las capacidades de los modelos grandes, haciéndolos más prácticos y fáciles de usar, y también hace que muchos datos privados de la empresa se puedan usar fácil y rápidamente sin riesgo de fugas.
Las futuras aplicaciones nativas de IA deben ser multimodales, y la conducción autónoma es una aplicación típica de grandes modelos visuales para reconstruir el mundo físico.
Baidu está promoviendo vigorosamente la profunda integración de la tecnología digital y la economía real, y la tecnología de modelos grandes se ha aplicado en la fabricación, la energía, la energía eléctrica, la industria química, el transporte y otras industrias reales, utilizando la inspección inteligente para reducir los posibles riesgos de seguridad, utilizando la programación inteligente para acortar el ciclo de entrega, utilizando la toma de decisiones inteligentes para mejorar la eficiencia empresarial, el control inteligente de la información para resolver la congestión del tráfico, y el modelo grande se está convirtiendo en una fuerza impulsora importante para la nueva industrialización.
Estamos a punto de entrar en una era de IA nativa, ¡una era de interacción humano-computadora!
¡Hola invitados! ¡Bienvenidos al Congreso Mundial de Baidu 2023!
¡Bienvenidos a la era de la IA generativa! **
**El tema de esta conferencia son las aplicaciones nativas de IA. Compartiré con ustedes en detalle la experiencia de Baidu en el proceso de reconstrucción nativa de IA de sus diversas líneas de productos en los últimos meses, y espero que les sea útil. **
Como todos sabemos, las aplicaciones nativas de IA se desarrollan en base a grandes modelos. La mayor innovación en el sector tecnológico en el último año ha sido, sin duda, la aparición de la inteligencia provocada por los grandes modelos, que es la base para el desarrollo de aplicaciones nativas de IA.
Por lo tanto, las aplicaciones nativas de IA de Baidu también se desarrollan en base a nuestras palabras Wen Xin. Las palabras de Wen Xin se publicaron por primera vez el 16 de marzo de este año, y desde entonces hemos iterado rápidamente y hemos sido aprobados para abrir al mundo el 31 de agosto, obteniendo muchos comentarios de los usuarios, y la velocidad de la innovación se está acelerando.
Hoy, me complace anunciar el lanzamiento oficial de Wenxin Grand Model 4.0.
También empezamos a invitar a las pruebas al mismo tiempo. Amigos en la escena, solo necesitan escanear el código QR en la tarjeta de invitado, recibir el cupón de experiencia y pueden iniciar sesión en el sitio web oficial de Wenxin Yiyan o en la aplicación Wenxin Yiyan para experimentar Wenxin Model 4.0.
Este es el modelo grande de Wenxin más poderoso hasta ahora, ha logrado una actualización integral del modelo básico, la comprensión, la generación, la lógica y la memoria, las cuatro capacidades principales, en comparación con la versión actual de Wenxin Yiyan, se han mejorado significativamente, ¡el nivel integral no es menor que GPT4!
**La llamada aplicación nativa de IA, tal y como yo la entiendo, es una aplicación desarrollada en base a la comprensión, generación, lógica y capacidades de memoria de grandes modelos. Estas capacidades no estaban disponibles en épocas pasadas, por lo que pueden abrir un espacio ilimitado para la innovación. **
A continuación, combinaré los escenarios de aplicación para presentarle las cuatro capacidades de las palabras de Wen Xin. La aplicación con estas cuatro capacidades es la aplicación nativa de la era de la IA.
En el pasado, dijimos que la IA es una "discapacidad intelectual artificial", es decir, la IA a menudo no puede entender las palabras de las personas y, con el tiempo, no te atreves a hablar demasiado con ella.
Hoy en día, cada palabra que dices, lo más probable es que pueda entenderla, muchas veces mejor de lo que tus amigos y colegas entienden lo que estás diciendo.
Por ejemplo, usted es un joven que trabaja en Pekín y quiere comprar una casa en Hebei y quiere saber si puede solicitar un préstamo del fondo de previsión en Pekín.
Entremos en una línea.
[Quiero volver a Chengde para comprar una casa, ¿puedo usar el préstamo del fondo de previsión, qué debo hacer con los procedimientos?] Trabajo en Pekín. 】
Echemos un vistazo a los resultados. Wen Xin respondió que podía usar el préstamo del fondo de previsión. ¿Por qué estas preguntas y respuestas reflejan la capacidad de entender el gran modelo? De hecho, lo que acabo de decir, aparentemente simple, tiene varios pequeños escollos que hay que entender:
En primer lugar, es una expresión de ida y vuelta. Cuando la mayoría de las personas llaman para hacer preguntas, piensan en dónde decir, no tan riguroso, como esto, primero dije sobre comprar una casa y manejar el fondo de previsión, y finalmente dije "Trabajo en Beijing", lo que plantea requisitos más altos para la comprensión.
En segundo lugar, utilizo deliberadamente aquí dos expresiones vagas. Uno es "trabajar en Pekín", el subtexto es "depositar el fondo de previsión en Pekín", el otro es "volver a Chengde para comprar una casa", sólo una palabra de "regreso", de hecho, implica que lo más probable es que sea un hukou de Chengde.
En tercer lugar, Wen Xin combinó el contexto y combinó todos los puntos de información para comprender con precisión la pregunta real, es decir, "¿puede un usuario con registro de hogar en Chengde, provincia de Hebei, usar el fondo de previsión de Beijing para comprar una casa en Chengde con un préstamo?", y luego dio una respuesta y los pasos de manejo para esta pregunta.
Se puede ver que las palabras de Wen Xin ya pueden tener una comprensión bastante precisa de "expresiones fuera de orden, intenciones de expresión relativamente vagas y subtexto en palabras". Esta capacidad tiene una amplia gama de perspectivas de aplicación en asuntos gubernamentales, marketing, servicio al cliente y otros campos.
Entonces, ¿cómo utilizar la energía de generación? Le pedí a Wen Xin que generara un conjunto de creatividades en una palabra.
Primero escriba una imagen en ella y, a continuación, escriba un párrafo.
[Este es el vehículo de nueva energía de Changan.] Por favor, ayúdame a generar dos imágenes con un manantial, un paisaje vibrante de fondo y la sensación del coche a toda velocidad. 】
Vemos que esta generación utiliza el vibrante paisaje al aire libre de la primavera, acompañado por el borrón de la velocidad.
Le pedí que generara un póster vertical directamente para mí.
[Combinado con la información de Changan Qiyuan en el sitio web oficial de Changan, haga un cartel publicitario vertical y escriba una copia de marketing simple y elegante, haciéndose eco del estilo del cuerpo. ] 】
Como puedes ver, generamos un cartel publicitario vertical con imágenes y texto.
Ahora tenemos un cartel publicitario y necesitamos una copia publicitaria más rica, puede pedirle a Wen Xin que escriba algunas palabras más:
[Este automóvil enfatiza la cabina de inteligencia digital, el diseño Fuguang y la conducción de calidad. Por favor, escriba 5 piezas más de texto publicitario, cada una con un título corto y una descripción]
La redacción escrita por IA, que tiene la belleza de la ciencia y la tecnología, la tendencia de los tiempos, también enfatiza la interacción humano-computadora, la redacción es más profesional y fluida, ha alcanzado el estándar de marketing de marca.
Entonces, ¿qué pasa si todavía quiero un video?
[Combine la información del sitio web oficial y el contenido de video existente para generar un video oral humano digital, quiero publicar anuncios en el feed.] 】
Se ha generado, luego abrimos el video para ver el efecto.
De hecho, se trata de un vídeo de difusión digital de la población más distintivo, y también refleja las características de este coche.
Ahora, tenemos 1 película comercial, 5 textos publicitarios y 1 póster, y solo le di a Wen Xin una palabra de un material de imagen y algunas palabras como "automóvil inteligente digital" y "conducción de calidad", y todo el proceso tomó menos de 3 minutos.
No hace mucho, también utilizamos esta función para lanzar la plataforma creativa de marketing de AIGC Steering Engine, que permite que una persona se convierta en un equipo de marketing de IA. Es posible que haya algunos amigos redactores publicitarios en la escena hoy en día, al ver esto, ¿crees que los modelos grandes pueden aportar más inspiración creativa y ayudarte a mejorar la eficiencia?
Muchas personas a menudo tienen que ayudar a sus hijos con la tarea. Algunas personas bromean diciendo que "si no escribes la tarea, la madre es piedad filial, y cuando escribes la tarea, la gallina vuela y el perro salta". Entonces, veamos, ¿pueden las palabras de Wen Xin ayudar a los padres a resolver el problema de la tutoría de la tarea?
Déjame inventar un problema matemático y ver cómo funciona:
[La pila de arena en forma de cono, el área inferior es de 8 metros cuadrados, la altura es de 12 decímetros, extienda esta pila de arena en un camino de 2 metros de ancho, 5 cm de grosor, ¿cuántos metros se pueden pavimentar? ] 】
Este es un tipo de problema matemático que podemos haber hecho cuando éramos niños, y a juzgar por la respuesta de Wen Xin, su lógica de respuesta es bastante clara. Cada paso está escrito. Los padres pueden ver si es más detallado que lo que se da en algunos materiales de tutoría.
Incluso, la IA puede señalar los puntos de conocimiento utilizados en la resolución de problemas para ayudar a los niños a consolidar el aprendizaje, preguntémoslo de nuevo:
[¿Qué puntos de conocimiento están involucrados en el proceso de resolución de problemas anterior?] 】
Wen Xin dio claramente los puntos de conocimiento involucrados en esta pregunta, como la fórmula del volumen del cono, la unidad de medida unificada, el volumen que permanece sin cambios y la resolución de ecuaciones. Esto es práctico para estudiantes, profesores y padres. Una vez que estos puntos de conocimiento se dominan claramente, los niños tendrán la capacidad de hacer inferencias unos de otros.
La capacidad súper lógica del modelo grande ciertamente no solo se puede usar para resolver problemas. La planificación de rutas para mapas inteligentes, los asistentes inteligentes para tareas complejas, el control de semáforos en sistemas de transporte inteligentes, etc., requieren el uso de capacidades lógicas.
La memoria aquí se refiere principalmente a lo que dijiste antes, si la IA lo recuerda, el contenido generado por la IA, será contradictorio. Este es un indicador importante para distinguir la inteligencia de los modelos grandes, y el diálogo de varias rondas es la encarnación de la capacidad de memoria.
Sé que muchos creadores están usando a Wen Xin para escribir novelas. Y si el contenido de la novela es inconsistente, entonces no es legible. Hoy le pediré que escriba una novela en el momento, que intercala algunas distracciones con preguntas y que vea si puede recordar lo que escribió.
Voy a entrar uno primero:
[Por favor, ayúdame a escribir una novela de artes marciales, la protagonista es una mujer y la trama tiene altibajos. ] 】
Pues a ver, ha salido el esbozo de la novela:
El primero es el trasfondo de la historia, en el antiguo mundo de las artes marciales, las fuerzas oscuras están surgiendo; El nombre de la heroína es Ling'er y tiene el poder de manipular las fuerzas internas y volar.
Voy a entrar uno primero:
[Por favor, ayúdame a escribir una novela de artes marciales, la protagonista es una mujer y la trama tiene altibajos. ] 】
Pues a ver, ha salido el esbozo de la novela:
El primero es el trasfondo de la historia, en el antiguo mundo de las artes marciales, las fuerzas oscuras están surgiendo; El nombre de la heroína es Ling'er y tiene el poder de manipular las fuerzas internas y volar.
A continuación, está el comienzo de la historia. Ling'er quiere derrotar a las fuerzas oscuras y salvar las artes marciales. En el clímax de la novela, ella libra una batalla de vida o muerte con el villano, derrota al villano y salva las artes marciales y todas las sectas.
Al final, Ling'er y sus aliados también establecieron juntos el Instituto de Cultivo de Poder Interno.
Ahora que la historia está básicamente formada, pero es un poco simple, quiero agregar algunos requisitos más de personajes:
[Ahora la relación de personajes es demasiado simple, solo hay dos personajes y se agregan 4 caracteres más]
Wen Xin dio cuatro roles más en una palabra, cada uno con una identidad y personalidad diferentes, con una personalidad diferente, este Murong Gucheng es una generación de grandes maestros, y hay un profeta Xiao Hanyan que puede predecir el futuro.
Pero ahora todavía hay un elemento necesario en la novela, el conflicto dramático. Una historia sin conflicto no es una buena historia, y el proceso de la heroína derrotando a las fuerzas oscuras en este momento es demasiado simple, veamos si podemos hacerlo más difícil.
Entra en otro
[También es necesario agregar el conflicto dramático de la línea principal a la historia para que la historia sea más fácil de ver]
Ya vemos, ya está escrito para el conflicto dramático. Aquí hay una inversión, detrás de las fuerzas oscuras, el verdadero líder es una figura de nivel de gran maestro muy respetada, lo que ha puesto a la heroína en peligro varias veces. Hasta la batalla decisiva, la heroína tuvo la oportunidad de defenderse.
Como puedes ver, recuerda que la línea principal de la historia es la confrontación entre Ling'er y las fuerzas oscuras, y el conflicto también gira en torno a esta línea principal.
Entonces, ¿Wen Xin todavía recuerda la historia que acaba de escribir y correlaciona estos personajes con la historia?
Hagamos una petición más:
[Trae estos personajes al esquema de la historia que diseñaste para mí y diseña un título.] 】
Los resultados se han mostrado en la pantalla grande, y la novela se llama "La justa batalla de los ríos y lagos", que agrega personajes adicionales y conflictos dramáticos al esquema de la historia. Los capítulos cuarto y quinto aquí también nos dicen que el gran maestro de este villano es Murong Gucheng, que acaba de ser presentado.
Durante todo el proceso, seguí aumentando la dificultad y presentando nuevos requisitos para interferir con su memoria, y Wen Xin todavía recordaba todas las necesidades y respuestas anteriores, y podía corresponder con precisión la historia y los personajes, y su memoria era muy sorprendente.
Entonces, todos en la escena de prueba ahora, ¿recuerdan, cuál es la habilidad especial del protagonista Linger?
Tal vez la mayoría de la gente no lo recuerde, así que veamos si Wen Xin lo recuerda.
[¿Cuál es la habilidad que tiene la heroína?] 】
Bueno, la respuesta está fuera, es el poder de manipular las fuerzas internas y la huida. Este es el texto de ejemplo escrito por Wen Xin en la primera ronda de diálogo. Ahora, después de cinco rondas de diálogo y unos pocos miles de palabras de ficción, todavía puede recordar lo que ha escrito antes, que es la capacidad de memoria del gran modelo.
Por ejemplo, para crear un texto publicitario, debe comprender el tema de la creación, aclarar la lógica de la creación y mantener la coherencia a través de la memoria.
En la resolución de problemas, también es necesario aplicar de manera integral la capacidad de comprender, generar, lógicar y recordar.
Veamos un ejemplo de aplicación completo:
En primer lugar, abrimos la aplicación Baidu reconstruida, escaneamos la caja de medicamentos que sacó el paciente con la cámara, y no es necesario mirar las instrucciones en letra pequeña, y el médico humano digital lo ayudará a explicarlo.
Las preguntas que aparecieron en la pantalla hace un momento, como "si comer antes o después de las comidas", "si beber alcohol puede comer", "qué otras precauciones", son muchos pacientes en medicación diaria encontrarán problemas.
Vemos que el modelo grande no solo puede ayudar a los pacientes a interpretar las instrucciones del medicamento, sino también combinar necesidades personalizadas para mejorar la eficiencia de la medicación y garantizar la precisión y puntualidad de la medicación de los pacientes.
No hace mucho, combinamos el modelo de Wen Xin con el conocimiento médico profesional y lanzamos el Big Model de Medicina Espiritual, que puede ayudar a los pacientes y médicos a hablar y generar registros médicos mediante la aplicación del Bot de Medicina Espiritual. Este ejemplo utiliza no solo la capacidad de comprender y generar memoria lógica, sino también la capacidad de hablar multimodalmente, visión, etc.
La demostración anterior refleja principalmente el progreso del modelo de Wenxin en las cuatro capacidades de comprensión, generación, lógica y memoria, que son la base para la supervivencia de todas las aplicaciones nativas de IA. Del mismo modo, sin una rica ecología de aplicaciones nativas de IA construida sobre el modelo básico, un modelo grande no sirve de nada.
A continuación, te mostraré cómo son estos productos reconstruidos con modelos grandes. Esto también es para expandir la imaginación de todos e inspirar a todos a crear aplicaciones nativas de IA más sorprendentes.
Nueva búsqueda de Baidu, al abrir la interfaz, además de ver un cuadro de búsqueda, los resultados de la búsqueda serán completamente diferentes a los del pasado.
**La nueva búsqueda reconstruida tiene tres características: satisfacción extrema, estimulación de recomendaciones y múltiples rondas de interacción. **
¿Qué es la satisfacción final? Cuando escribe una pregunta en el cuadro de búsqueda, como "¿Qué es MBTI?" "Cómo aparcar en el lateral", la nueva búsqueda ya no es para darte un montón de enlaces, sino para entender a través del gran modelo y generar una mejor respuesta
Por ejemplo, si preguntas "el ranking de valor añadido industrial por país en los últimos 20 años", la nueva búsqueda no solo te dirá la respuesta directamente, sino que también te mostrará la respuesta con gráficos dinámicos.
Desde la pantalla grande detrás de mí, puedo ver que en las últimas dos décadas, nuestra industria manufacturera industrial ha experimentado un rápido desarrollo y se está transformando de un país manufacturero a una potencia manufacturera.
Esta es la máxima satisfacción: un paso para darte la respuesta definitiva.
Entonces, el segundo paso, después de ver la respuesta, ¿qué más quieres ver?
Aquí es donde se utiliza la estimulación por recomendación. Por ejemplo, después del gráfico dinámico, la función de excitación de recomendación también da "cuál es la relación entre el valor agregado industrial y el PIB" y "cuál es el impacto de la industria en el desarrollo de la economía nacional", estas preguntas también pueden preocuparle. Haga clic para obtener la respuesta.
Por supuesto, no todas las necesidades tienen una única respuesta correcta. Las necesidades de los usuarios a veces pueden ser complejas, y no está claro en una o dos frases. También es difícil para los usuarios expresar completamente un requisito muy complejo a través de una descripción grande a la vez.
En este momento, necesitamos utilizar un modelo de búsqueda más novedoso y personalizado para atender a los usuarios, es decir: interacción multironda.
Echemos un vistazo a este ejemplo:
Por ejemplo, si preguntas "¿cuál es el lugar recomendado para hacer montañismo en los alrededores de Pekín?", da múltiples respuestas como la montaña Baihua y la montaña Haituo, sesgadas hacia las rutas de senderismo;
Luego, brinda varios consejos para complementar su elección de situación, puede elegir entre principiantes, padres e hijos y ver hojas caídas. Ahora, ha cambiado para recomendar West Mountain y Baiwang Mountain, que son relativamente fáciles de escalar y más amigables para las actividades de padres e hijos.
Luego continúa preguntando, ¿qué equipo necesitas para el montañismo y el senderismo? La respuesta fueron bastones de trekking, zapatos para caminar, etc., y también recordó que eligió un recorrido entre padres e hijos antes, y especialmente dio consejos sobre cómo cuidar a los niños.
La búsqueda, aunque todavía comienza desde ese cuadro simple, pero el siguiente paso a paso, ha superado y reconstruido el modo de búsqueda original, no solo mejoró la calidad de la búsqueda, sino que también rompió el alcance de la aplicación de la búsqueda y amplió el límite del producto. tal
La búsqueda interactiva con IA liderará la transformación generacional de la industria de las búsquedas.
En un futuro próximo, la búsqueda se convertirá en un asistente íntimo, capaz de evocar, resolver problemas e incluso romper las limitaciones del "fin" en cualquier momento, para responder en cualquier momento y en cualquier lugar, satisfacer las necesidades y acompañar todo el proceso.
A continuación, echemos un vistazo al segundo producto de pensamiento nativo de IA, Baidu GBI, Generative Business Intelligence, es decir, inteligencia empresarial generativa. **
Este es un producto desde cero, no una refactorización de un producto existente. **
En nuestro mundo empresarial, el más inseparable es el análisis empresarial, es decir, el BI, ¿cómo tomar las decisiones empresariales más rápidas? Primero sintamos a través de un video:
Como se puede ver, en el video, el presidente hizo una variedad de preguntas profesionales. Hay análisis financieros, entrega de proyectos y análisis de usuarios, y el asistente del presidente de GBI puede dar resultados rápidamente y dejar que el presidente tome decisiones en el acto.
No solo las personas con herramientas avanzadas no serán reemplazadas por la IA, sino que "los ascensos y aumentos no son un sueño". Las personas que no utilizan herramientas avanzadas corren el riesgo de perder sus trabajos. **
Entonces, ¿cómo consiguió Baidu GBI ir un paso por delante? Subvierte el análisis de datos tradicional de tres maneras:
En primer lugar, el BI tradicional solo puede ser operado por profesionales, mientras que GBI puede entender directamente las preguntas del presidente y ejecutarlas en tiempo real;
En segundo lugar, GBI proporciona un método de acceso conveniente, las empresas pueden acceder a los datos, hacer preguntas y analizar cualquier dato en lenguaje natural, y ya no necesitan realizar manualmente varias operaciones profesionales en bases de datos y tablas;
En tercer lugar, GBI también tiene la capacidad de aprender, y las empresas pueden inyectar su propia experiencia en la industria para convertirse en expertos de la industria.
Se trata de Baidu GBI, que puede acortar el análisis de datos y el trabajo de redacción de informes que los analistas de negocios pueden completar en una docena de días al minuto. Las llamadas artes marciales del mundo solo se pueden romper rápidamente;
** Competencia empresarial, no los peces grandes comen peces pequeños, sino que los peces rápidos comen peces lentos, la toma de decisiones es más rápida que la de los competidores, ¡es probable que ganes! **
Hoy en día, se ha convertido en un súper asistente del que la gente de Baidu no puede prescindir.
Ahora, por favor, vean que esto es como una transmisión que graba en tiempo real. Veamos si puede recordar todos los puntos que acabamos de mencionar:
Esta es la función de generación de actas de reuniones con un solo clic. Decimos que cómo llevar a cabo reuniones de manera eficiente es un trabajo técnico. Esta función reduce en gran medida la carga de trabajo de la reunión y acorta el tiempo de la reunión en un 40%.
Otro escenario común son los grupos de trabajo. La mayoría de las personas en el lugar de trabajo a menudo son bombardeadas con varios mensajes de chat grupal. Luego, resumir rápidamente los puntos clave del chat grupal se convierte en una característica extremadamente útil.
Echemos un vistazo a cómo lo utilizan nuestros gerentes de producto.
Tiene 9 grupos de trabajo, retrasa por un período de tiempo, puede haber más de mil información sin leer, y Ruliu no solo puede "1000 mensajes, obtener el enfoque en un segundo", sino también dividir inteligentemente el contenido que debe leerse en varias categorías: "esperando que confirme", "concéntrate en", "discusión del tema", lo que mejora en gran medida la eficiencia del trabajo.
Entonces, ¿se refina con precisión, se malinterpretará o se perderá información clave? Esto pone a prueba la capacidad de comprender y generar modelos de gran tamaño. Cuanto más profunda sea la comprensión, más preciso será el resumen. No digas 1,000, 10,000 piezas de información, como el súper asistente de flujo también puede brindar una clasificación inteligente y un resumen inteligente en unos segundos.
Billetes de avión, hoteles, negociaciones, etc., ¡estas tareas transaccionales son tediosas y consumen mucho tiempo! Si tuvieras un asistente de IA que te ayudara a resolver tareas triviales, ¿te encantaría trabajar más?
Por ejemplo, recientemente, el gerente de producto de Ruliu planeó viajar a Shanghái para reunirse con el Sr. Wang de PICC. Sabemos que PICC está promoviendo la innovación en productos y servicios, modelos de negocio, tecnología digital y otros aspectos, y nuestra tecnología de inteligencia artificial en Baidu puede desempeñar un papel.
Este itinerario de viaje de negocios se puede entregar a Ruliu, el súper asistente, y echemos un vistazo a su rendimiento.
El súper asistente puede organizar el viaje en función de la información de su horario.
Al igual que la última reunión termina a las 4 en punto, así que reserve un vuelo después de las 7:30; Y, de acuerdo con sus estándares de viaje, ayúdalo a encontrar hoteles donde pueda quedarse. Finalmente, se emitió una invitación al cliente.
Es posible que necesite algunos antecedentes antes de reunirse con un cliente, y un superasistente también puede ayudarlo con esto. A través de la conexión con CRM y otros datos del sistema de la empresa, como el flujo, proporciona datos detallados, como proyectos de cooperación y registros de visitas.
Al comprender la situación de cooperación comercial y la información externa, como el flujo, también puede ayudarlo a generar una referencia de discusión, preestablecer las preguntas que el cliente puede hacer y dar algunas sugerencias de cooperación. Desde este punto de vista, ¿Ruliu se parece más a un asistente real?
Acabamos de ver que con solo tres palabras, Ruliu completó la reserva de los comprobantes de viaje, el vino de la máquina y los horarios, e incluso preparó materiales de referencia para la negociación, que es el "viaje con un clic" de Ruliu. ¿Cómo lo hace?
Se trata de una aplicación completa de la comprensión, la generación, la lógica y la capacidad de memoria de un modelo grande, que desensambla automáticamente tareas complejas en múltiples tareas sencillas para realizarlas por separado, y luego se fusiona para generar el resultado final. Decimos que mejorar la eficiencia significa mejorar la competitividad, por ejemplo, dejar que el "trabajo inteligente" reemplace al "trabajo duro".
La Biblioteca Baidu cambiará por completo nuestros hábitos de trabajo, aprendizaje y creación.
¿Cómo creábamos en el pasado? Por ejemplo, supongamos que estás dando una presentación sobre la aplicación de la IA en psicología. Se necesitan varios días para verificar la información, clasificar los materiales, escribir manuscritos, escribir PPT y embellecer PPT.
Hoy, en Baidu Wenko, puedes comenzar a trabajar con una oración, mira la pantalla grande: primero, quieres que escriba un discurso, y encuentra docenas de materiales sobre el tema de la inteligencia artificial y la psicología.
También puede identificar cuáles son revistas académicas, informes autorizados y cuáles son solo materiales masivos. Si quieres escribir un artículo animado, elige algunos materiales populares, como ensayos y divulgación científica.
Luego, si desea un discurso académico riguroso, solo puede verificar el contenido autorizado para garantizar la precisión del contenido. Luego, al comprender estos manuscritos, la biblioteca produce un artículo bien estructurado y bien definido, al tiempo que pule y formatea el contenido.
Esto se puede hacer porque Baidu Wenku ya tiene mil millones de documentos de alta calidad, basados en la comprensión de estos contenidos, escribir documentos verdaderamente prácticos y claros, en lugar de tonterías serias como muchos modelos grandes, ni será una charla vacía general.
A continuación, la presentación también necesita PPT. La biblioteca puede combinar el manuscrito en este momento con algunos de los materiales que ha recopilado para generar automáticamente el marco del PPT, y luego embellecer el dibujo para hacer un PPT de docenas de páginas.
También hay algunos modos de juego con capacidades de generación multimodal, como la selección de estilo y el cambio de estilo con un solo clic. Pero hay algunos lugares que ponen a prueba más la capacidad de la biblioteca y requieren que tenga una comprensión precisa del contenido. Por ejemplo, necesita conocer la relación entre las ideas, ya sean yuxtapuestas o subordinadas, para diseñar el gráfico correcto.
Debido a esta capacidad de comprensión, la biblioteca también puede escribir el guión de voz correspondiente para este PPT sobre la base de la generación de PPT. No solo eso, sino que también puede usar estos contenidos para deducir preguntas que la audiencia puede hacer y prepararlo para las respuestas.
Hemos evaluado que la capacidad de generar librerías, especialmente PPT, supera con creces cualquier otra herramienta en el mercado, ya sea extranjera o nacional. En el pasado, la gente venía a la biblioteca para encontrar contenido listo para usar. En el futuro, las personas podrán producir contenido como deseen, de manera más eficiente que cualquier otra herramienta de productividad.
No hace mucho, en el primer día de la nueva versión de Baidu Wenku, la nueva función de IA marcó el comienzo de más de 2 millones de experiencias. Ahora, tenemos más confianza para decir que en la era de los grandes modelos, Baidu Wenku es el mejor punto de partida para producir contenido.
En la dirección de la reconstrucción de la IA, el disco de red de Baidu se centra en hacer un buen trabajo en servicios inteligentes para archivos personales.
Lo que ve ahora es la nueva página de inicio del disco de red Baidu.
** El disco de red reconstruido no solo realiza la transformación de la interacción de la interfaz gráfica a la interacción del lenguaje natural, sino que también mejora la comprensión de la información multimodal. **
Ahora, con solo una oración, puede operar en los archivos, imágenes, videos, etc. en su unidad en línea.
El primer punto es encontrar fotos o videos. A veces, pensamos en una imagen y queremos encontrarla en el disco de red, a menudo después de muchos pasos, no se puede encontrar la agitación durante medio día. Ahora, le dices una palabra a "Cloud One", y puede ayudarte a identificarlo:
Bueno, me ayudó a encontrar rápidamente lo que el científico jefe de OpenAI, LLYA, entrevistó sobre los transformadores.
Detrás de esta búsqueda aparentemente simple se encuentra el papel de múltiples capacidades de IA, que deben ser capaces de comprender el contenido del video, identificar personajes y formar recuerdos contextuales para ubicar con precisión un determinado fotograma del video, que es una tecnología muy líder en el campo global de la nube personal.
La segunda característica de Yunyi es ayudar a los usuarios a comprender rápidamente el contenido del video, echemos un vistazo:
Puede ver que se demuestran dos habilidades, una es la capacidad de resumir y resumir el contenido y la capacidad de extraer oraciones doradas. Esta es una entrevista de 43 minutos, a través de la comprensión y la capacidad lógica de la IA, Yun Yiduo resumió y refinó el video, presentando a Llya y sus ideas principales.
Pero muchas veces, sentiremos que el texto original es muy emocionante, después de destilar la idea principal o el resumen, no es tan atractivo, por lo que la segunda función en este momento, creo que en realidad es más útil para mí, es decir, tenemos que encontrar la parte más emocionante del video original, que son esas oraciones doradas. Por ejemplo, LLYA dice que "aprender leyes estadísticas es mucho más importante que ver las apariencias". El avance clave en la extracción de esta frase de oro es la extracción eficiente de información multimodal, que es la tecnología líder en el mundo. Puede encontrar las mejores partes del contenido de la entrevista larga, lo que mejora en gran medida nuestro aprendizaje y la eficiencia del trabajo.
Este es el nuevo disco de red después de la reconstrucción de IA. A partir de ayer, Yunyi ha alcanzado los 20 millones de usuarios.
Se trata de un asistente inteligente de IA basado en una nube personal. En la última década, Baidu ha definido lo que se denomina un disco de red; En la próxima década, Baidu utilizará la IA para redefinir nuevos discos de red.
Reconstruimos este producto de 18 años de antigüedad con el pensamiento nativo de la IA, que también es el primer producto de mapas nativos de IA del mundo.
Durante los últimos 18 años, Baidu Maps ha acumulado una gran cantidad de funciones, puede navegar, llamar a un taxi, encontrar un conductor sustituto, reservar un hotel, comprar un boleto e incluso satisfacer las necesidades de búsqueda de puntos de interés en condiciones más complejas. En el pasado, estas operaciones eran complejas y a menudo requerían seis o siete pasos o más para completarse;
Ahora, siempre que el usuario diga la demanda, el mapa puede movilizar miles de interfaces API de servicio, y el menú de varios niveles se convierte en una respuesta directa y rápida de un solo paso.
Echemos un vistazo a continuación, ¿cómo se implementa Baidu Map?
En el vídeo, los usuarios ponen a prueba la comprensión de Baidu Map de la pandemanda, la selección de puntos de encuentro intermedios, la comparación de información de múltiples ubicaciones y la recomendación y reserva de viajes futuros, y ofrece soluciones razonables.