Zhang Yaqin, académico de la Academia de Ingeniería: El preentrenamiento y los grandes modelos generativos traerán nuevos cambios en el paradigma de la tecnología de conducción autónoma

2023-10-12 05:35:32

Fuente de la imagen: Generado por Unbounded AI

La aparición de grandes modelos generativos representados por GPT ha dado otro salto en la tecnología de inteligencia artificial, y la tecnología de IA está experimentando un proceso de cambio de paradigma técnico de discriminante a generativo. Con la introducción de tecnologías de grandes modelos, como la generativa, la preformación y la multimodal, también ofrece la posibilidad de que la tecnología de conducción autónoma madure y no esté tripulada.

Desde el Instituto de Investigación de la Industria Inteligente de Tsinghua (AIR), la institución de investigación de inteligencia artificial líder en el mundo, y la empresa nacional líder en tecnología de IA de conducción autónoma, Milli Zhixing tiene un juicio sorprendentemente consistente sobre la tendencia técnica y la aplicación de modelos grandes. Al mismo tiempo, las dos partes también han llevado a cabo una exploración en profundidad en la dirección de la optimización de la toma de decisiones basada en datos, han promovido conjuntamente la cooperación en profundidad entre la industria, la universidad y la investigación, y han acelerado la aplicación de la tecnología de IA en el campo de la conducción autónoma.

El 11 de octubre de 2023, Zhang Yaqin, académico de la Academia China de Ingeniería, profesor de la Universidad de Tsinghua y presidente del Instituto de Investigación de la Industria Inteligente de Tsinghua (AIR), asistió al 9º HAOMO AI DAY celebrado por Milli Zhixing y pronunció un discurso de apertura titulado "Nuevo progreso de la conducción inteligente: gran modelo, Al generativo y conducción inteligente", compartiendo sus últimas ideas sobre la aplicación de grandes modelos de IA generativa a la tecnología de conducción autónoma. y presentó los últimos logros de Tsinghua AIR en la construcción de la plataforma de modelo básico Real2Sim2Real y la plataforma de simulación de conducción autónoma.

El siguiente es el texto completo del discurso del académico Zhang Yaqin:

Un clima tan hermoso, un lugar tan hermoso, estoy muy feliz de participar en el HAOMO AI DAY, y también agradezco al presidente Zhang Kai y Weihao por la invitación.

Hoy es el noveno HAOMO AI DAY, en primer lugar, me gustaría felicitar a Momo por los grandes logros que ha logrado en menos de 4 años, especialmente forjando su propio camino. Tengo la impresión de que Momo fue el primero en lanzar el modelo generativo de gran tamaño DriveGPT en conducción autónoma, y rápidamente se movió hacia la escala, y pudo convertirse en un líder en el campo de la conducción autónoma en tan poco tiempo.

Hoy quiero hablar sobre los nuevos avances en conducción inteligente, he estado usando el mismo tema a lo largo de los años, pero cada vez encontraré que el contenido es completamente diferente, especialmente después de que salió la reciente IA generativa, ha habido una gran promoción de la conducción autónoma.

Hemos estado hablando de las nuevas "cuatro modernizaciones": redes, inteligencia, intercambio y electrificación, las más importantes de las cuales son las dos modernizaciones: electrificación e inteligencia. La electrificación puede entenderse como nueva energía, y ahora China ya es el mercado de nueva energía más activo y más grande del mundo, ya sea en la escala de usuarios o en la escala de exportación es la primera del mundo, que es la primera mitad de los automóviles nuevos. Lo más importante en la segunda mitad es la conducción inteligente, y el punto caliente y el punto álgido de la competencia global en los próximos 5-10 años es la conducción autónoma. La inteligencia artificial es la fuerza impulsora de la tecnología central de la conducción autónoma y, desde sus inicios, HAOMO AI DAY ha sido el motor tecnológico de la compañía, por lo que HAOMO AI DAY es muy importante.

¿Por qué hay tantas empresas que hacen conducción inteligente? ¿Incluyendo a los fabricantes de automóviles tradicionales, las nuevas fuerzas, las empresas de alta tecnología están entrando en el mercado de la conducción autónoma? De hecho, hay muchos desafíos técnicos, en primer lugar, desde la perspectiva de la IA, la conducción automática es muy compleja, requiere mucha potencia de cálculo, nuevos algoritmos, es el problema de campo vertical de IA más desafiante, en segundo lugar, la conducción automática también es la intersección de la inteligencia concentrada, la inteligencia de borde y la inteligencia autónoma que se ve actualmente. En el video de prueba de hace un momento, puede ver que la conducción autónoma se enfrenta a muchos escenarios y cambios complejos, y de hecho hay muchos desafíos.

Sin embargo, creo que la conducción autónoma es completamente alcanzable, y hay algunas cuestiones clave, algunas de las cuales son factores de mercado y otras son fuerzas ajenas al mercado. Los factores del mercado incluyen: ¿Es factible la tecnología? ¿Los usuarios tienen necesidades reales? Ecología industrial y modelo de negocio. Los factores no relacionados con el mercado también son muy importantes, ya que requieren avances tecnológicos en la industria, así como el apoyo de la industria gubernamental y avances en las políticas y regulaciones.

En términos de tecnología, al principio, muchas personas hablaban sobre si la conducción sin conductor es factible, especialmente si es factible por encima de L4. Pensé que era factible desde el principio. Recientemente, he visto algunos datos de que la conducción sin conductor es aproximadamente 10 veces más segura que la conducción tripulada, y el año pasado estuve hablando de 3 veces, y este año ha llegado a 10 veces. Esto demuestra que el avance tecnológico se ha completado. En la hoja de ruta de comercialización, actualmente hay una variedad de formas, algunas están utilizando la inteligencia de la bicicleta, otras son la coordinación de carreteras, y hay rutas graduales, de salto, de código abierto, rutas cerradas, diferentes empresas están explorando diferentes hojas de ruta, sin decir cuál es completamente correcta, la industria está probando la conducción automática de diferentes maneras. Sé que Momo eligió el progresivo, y creo que todo está bien, y la gente lo explora de diferentes maneras.

Recientemente se han producido muchos avances en el ámbito de la IA. Vemos que los nuevos algoritmos, los nuevos marcos, especialmente el pre-entrenamiento, el aprendizaje multimodal, multi-supervisado, y los grandes modelos se están convirtiendo en la corriente principal. Antes de Transformer, ResNeT solía ser un marco de algoritmos de visión muy utilizado, y la razón por la que mencioné específicamente ResNeT, es que este algoritmo en realidad lo hacen jóvenes científicos chinos en China, por lo que los científicos chinos han hecho grandes contribuciones a la inteligencia artificial. He escuchado muchas declaraciones de que el núcleo de la IA proviene principalmente de Europa, y la teoría básica proviene de allí, pero los científicos chinos también han hecho muchas contribuciones en el campo de la inteligencia artificial.

Es importante que los modelos grandes superen las limitaciones técnicas. En los últimos seis o setenta años, ha habido tres teorías principales: la Ley de Moore, la arquitectura de von Neumann, las tres leyes de Shannon, y ahora las tres teorías se están rompiendo. Si no hay un gran avance, el modelo grande es imposible de lograr, lo que requiere un nuevo método de detección, un nuevo método de percepción, un avance en la nueva arquitectura de computadoras, incluido un nuevo marco de chips, etc., y ahora las redes neuronales convolucionales convencionales de Transformer y CNN también son diferentes. En la actualidad, la industria de la tecnología digital se basa principalmente en la computación basada en obleas de silicio, y puede haber ciencias biológicas, computación óptica y computación cuántica en el futuro.

En la actualidad, es muy importante que los modelos grandes traigan IA generativa, y en el pasado, la IA hablaba de clasificación, es decir, IA discriminante. Ahora es posible generar completamente nuevas ideas de contenido, ideas de datos y muchas ideas nuevas para escenas. Permítanme ahora hablar un poco sobre mi trabajo en esta área.

Los grandes modelos van en una nueva dirección. La primera es la multimodalidad, no solo el lenguaje natural, las imágenes, el vídeo, sino también las señales de detección, el lidar y otras señales de percepción física y biosensoriales emitidas por todos los vehículos. Como ves, el modelo GPT-4 es multimodal, su función es muy potente, pero la eficiencia es muy baja, aproximadamente al menos 1000 veces menor que la eficiencia de cálculo y toma de decisiones del cerebro humano, por lo que todavía se necesitan nuevos algoritmos, creo que habrá nuevos algoritmos en 5 años. La segunda es la inteligencia autónoma, que puede completar automáticamente tareas, incluida la computación periférica, cómo poner modelos grandes muy complejos en el borde de teléfonos móviles, automóviles, robots y la inteligencia incorporada y el mundo físico juntos, creo que la conducción automática es la escena inteligente incorporada más importante. El futuro es la etapa de la inteligencia cerebro-computadora, y el gran modelo se enfrentará a cómo usar el mundo de la biología, el mundo de la vida y cómo conectar mejor a las personas y los cerebros.

Las nuevas arquitecturas tecnológicas utilizarán modelos grandes, al igual que el nuevo sistema operativo de IA, habrá muchos modelos verticales, incluida la conducción autónoma u otros modelos verticales como las ciencias de la vida.

Hablaré brevemente sobre el Instituto de Investigación de la Industria Inteligente de Tsinghua (AIR), que es el instituto de investigación de la industria de la inteligencia artificial que fundé después de jubilarme de Baidu, que se ha desarrollado rápidamente en 3 años, y también tengo la suerte de encontrar un grupo de científicos y CTO corporativos con profundos antecedentes industriales y profundos logros académicos. Ahora hay alrededor de 300 becarios y estudiantes postdoctorales, y la conducción autónoma es una de las direcciones, alrededor de 100 personas.

Cada vez que hablo de AIR Research, pienso en hace 25 años, cuando regresé a China para fundar Microsoft Research Asia. El próximo mes se celebrará el 25 aniversario de Microsoft Research Asia, que en sí mismo ha tenido bastante éxito. El gran modelo del que acabo de hablar fue desarrollado en Microsoft Research, con la esperanza de construir un instituto de investigación para la industria china.

Cuando nos dedicamos a diversas investigaciones, esperamos tener un marco amplio, como la conducción inteligente, primero debemos determinar algunas rutas técnicas. En primer lugar, creo que la percepción multimodal es muy importante, y los datos multiescala y multidimensional del original son muy importantes. Debido a que para hacer la conducción no tripulada, la conducción inteligente, la ventaja de los robots es, en primer lugar, requerir más datos, esta ventaja de datos aún no se puede eliminar, por lo que no estoy de acuerdo con Musk dijo que solo use cámaras, necesitamos usar más fuentes de datos. En segundo lugar, muchos conductores autónomos ahora usarán muchos mapas de alta definición, pero creemos que el futuro son los mapas ligeros y no pueden depender completamente de los mapas.

La conducción autónoma para llegar a la etapa final segura y confiable debe lograrse de extremo a extremo, esto también es muy difícil, hay factores técnicos más detallados, incluida la IA generativa, el aprendizaje por refuerzo, el modelo de lenguaje grande, tenemos dos plataformas: plataforma de modelo grande de datos, plataforma de simulación.

AIR también ha propuesto su propio modelo básico de conducción autónoma. En primer lugar, el modelo propone cómo obtener diferentes datos, incluidos datos del mundo real y datos de simulación. Los datos se limpian a través de una canalización controlada y luego pasan a través de dos grandes modelos: modelo de percepción, modelo de toma de decisiones, incluida la toma de decisiones en algunos lugares clave en la nube y en el extremo del vehículo, algunos módulos se basan en información, algunos son estadísticos y algunos son módulos basados en reglas.

Específicamente eliminé el "aprendizaje por refuerzo" en él, porque el aprendizaje por refuerzo lo he estado usando desde Baidu, pero es difícil de usar. Debido a que la seguridad de la conducción autónoma es muy importante, es bastante difícil de usar, pero creo que esta es la única forma en que realmente podemos lograr una mayor seguridad, el aprendizaje por refuerzo puede aprender cosas nuevas, y ahora el método de generalización depende del aprendizaje por refuerzo para aprender, y ha habido muchos desarrollos nuevos recientemente. Cómo utilizar el aprendizaje por refuerzo en muchas simulaciones y toma de decisiones, y utilizarlo en el comportamiento de la conducción real. El modelo de la izquierda es big data vertical, cómo usar el aprendizaje por refuerzo para ajustar el modelo.

Además, ¿cómo se puede utilizar la IA generativa en la simulación y la toma de decisiones? Aquí hay un pequeño ejemplo, tanto los modelos grandes como el aprendizaje profundo tienen problemas de transparencia, así que también hicimos esta investigación, ¿por qué tomé esta decisión? Gira a la izquierda, a la derecha, frena, dime qué veo y por qué estoy tomando esta decisión, y puede guiarte cómo tomar la decisión. Se trata de utilizar datos reales, datos de simulación, modelos verticales y modelos grandes para generar escenas de profundidad semántica, incluida información sobre el tráfico y los peatones.

La otra es la fusión del cerebro humano y la máquina, tenemos que estudiar cómo conducen las personas. A veces las personas toman buenas decisiones, a veces no, y recopilan esta información a través de sensores. Por un lado, durante mucho tiempo, las personas y las máquinas tienen que conducir juntas, y las personas sin conductor deben comprender lentamente la conducción humana. Por otro lado, el modelo se utiliza en el algoritmo para mejorar la eficiencia del algoritmo.

Por último, estamos muy contentos de tener una profunda colaboración técnica con Milli sobre cómo aplicar el aprendizaje por refuerzo a la toma de decisiones cognitivas. En la actualidad, el aprendizaje por refuerzo tiene muchos problemas, en línea o fuera de línea, incluidos problemas de definición de funciones, ambigüedad de políticas, por lo que hemos realizado muchas investigaciones de este tipo. Durante el último año más o menos, se han publicado muchos artículos en la Conferencia Internacional de Primer Nivel, y también hay patentes, y lo más importante es que se ha comenzado a usar en automóviles, y el automóvil que acaba de ver la logística ha comenzado a usar estos algoritmos.

En resumen, si nos fijamos en las diferentes etapas de la conducción inteligente y la conducción automática, al principio, está más impulsada por el lidar y el hardware, y más se basa en reglas artificiales. La versión 2.0 está impulsada por software y algoritmos, y esta etapa cuenta con más sensores, apoyándose también en el aprendizaje automático y las reglas. Ahora a la era de 3.0, es impulsado por modelos grandes, y en esta etapa, hay muchos sensores que usan algoritmos de extremo a extremo, y también se utilizará el aprendizaje por refuerzo, que puede lograr la conducción automática en el mundo real en mayor medida.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1BTC & ETH Launchpool Yield Exceeds 3%
19k Popularidad
2White House Crypto Report
5k Popularidad
3Growth Points Draw Round 12 Opens
518 Popularidad
4Fed Holds Rates Decision
6k Popularidad
5Alpha Points System Opens
14k Popularidad

Anclado