El 1 de agosto, OpenAI presentó oficialmente una solicitud de marca registrada para "GPT-5", que cubre lo siguiente:
Software que genera artificialmente voz y texto humanos
Convertir archivos de datos de audio a texto
Reconocimiento de voz y habla
Procesamiento de lenguaje y voz basado en aprendizaje automático
De acuerdo con los documentos de solicitud de marca registrada de GPT-5, la marca registrada GPT-5 cubre la función de IA para generar voz y texto, y también puede convertir archivos de audio en texto, realizar reconocimiento de voz y sonido, y usar tecnología de aprendizaje automático para procesamiento de lenguaje y voz. .
Esto puede significar que GPT-5 admitirá capacidades de voz, lo que brindará a los usuarios una experiencia de procesamiento de voz y texto más avanzada y eficiente, y mejorará aún más las capacidades multimodales.
¿Cuándo llegará GPT-5?
Cuando se lance GPT-4 en marzo de 2023, se espera que OpenAI lance el modelo de próxima generación en diciembre de 2023. El cofundador de Runway, Siqi Chen, declaró anteriormente que me dijeron que GPT5 está programado para completar el entrenamiento en diciembre de este año, y Openai espera que pueda lograr inteligencia artificial general (AGI). Eso significa que todos estaremos discutiendo ferozmente sobre si es realmente AGI.
Sin embargo, cuando se le preguntó en un evento del MIT en abril si OpenAI estaba entrenando GPT-5, el CEO de OpenAI, Sam Altman, dijo "no lo haremos, y no lo haremos por un tiempo". En una entrevista en junio de este año, el fundador y director ejecutivo de OpenAI, Sam Altman, dijo que cuando le preguntaron qué lanzó GPT-5, también tengo curiosidad, no tenemos respuesta, no tendremos GPT-5 pronto, debemos hacer de la seguridad un gran Parte de ello.
Aún así, algunos creen que OpenAI puede lanzar GPT-4.5, una versión intermedia entre GPT-4 y GPT-5, como GPT-3.5, para octubre de 2023. Se dice que GPT-4.5 traerá eventualmente capacidades multimodales, la capacidad de analizar imágenes y texto. OpenAI ya anunció y demostró las capacidades multimodales de GPT-4 en marzo de 2023 durante la transmisión en vivo para desarrolladores de GPT-4. Ahora Microsoft ha lanzado las capacidades multimodales de GPT-4 en Bing Chat. Parece que la próxima gran actualización de GPT-4 está a la vuelta de la esquina.
Además, OpenAI actualmente tiene mucho trabajo por hacer en el modelo GPT-4 antes de comenzar a trabajar en GPT-5. Actualmente, el tiempo de inferencia de GPT-4 es muy largo y bastante costoso de ejecutar. El acceso a la API GPT-4 aún es difícil de conseguir. Además, OpenAI recientemente abrió el acceso a los complementos e intérpretes de código de ChatGPT, que aún están en versión beta. La navegación por Internet se eliminó de GPT-4 porque muestra contenido de sitios pagos.
Si bien GPT-4 es muy poderoso, creo que OpenAI se da cuenta de que la eficiencia computacional es uno de los elementos clave para ejecutar el modelo de manera sostenible. Agregue nuevas funciones y capacidades, y podrá manejar infraestructuras más grandes mientras se asegura de que todos los puntos de control estén funcionando de manera confiable. Entonces, en una suposición descabellada, es probable que GPT-5 se lance en 2024 si no asumimos obstáculos regulatorios de las agencias gubernamentales.
Predicciones: características y funciones de GPT-5
Reducir las alucinaciones
El tema candente en la industria es que GPT-5 realizará AGI (inteligencia artificial). Entre otras cosas, GPT-5 debería reducir el tiempo de inferencia, mejorar la eficiencia, reducir las alucinaciones y más. Comencemos con las alucinaciones, una de las razones clave por las que la mayoría de los usuarios no confían mucho en los modelos de IA.
Según OpenAI, GPT-4 obtiene un puntaje 40 % más alto que GPT-3.5 en la evaluación fáctica del diseño contradictorio interno en las nueve categorías. GPT-4 ahora tiene un 82 % menos de probabilidades de responder a contenido inexacto y no permitido. Se acerca mucho al puntaje del 80% en las pruebas de precisión en todas las categorías. Este es un gran salto contra la ilusión.
Ahora, se espera que OpenAI reduzca las alucinaciones a menos del 10 % en GPT-5, lo que será fundamental para que los modelos LLM sean confiables.
Modelo de Eficiencia de Cálculo
Ya sabemos que GPT-4 es costoso de ejecutar ($0.03 por token de 1K) y lleva más tiempo inferirlo. Y el modelo GPT-3.5-turbo más antiguo es 15 veces más barato que el GPT-4 ($0.002 por token de 1K). Según un informe reciente de SemiAnalysis, GPT-4 no es un modelo denso, sino que se basa en una arquitectura de "mezcla de expertos". Esto significa que GPT-4 utiliza 16 modelos diferentes para distintas tareas, con 1,8 billones de parámetros.
Con una infraestructura tan grande, el costo de operar y mantener el modelo GPT-4 se vuelve muy alto.
De hecho, muchos nuevos modelos grandes han comenzado a buscar "pequeños y refinados", de modo que los modelos grandes tengan la menor cantidad de parámetros posible, no más.
En la interpretación reciente del modelo Google PaLM 2, los parámetros de PaLM 2 son bastante pequeños, pero el rendimiento es rápido.
Modelo de IA multisensorial
Aunque GPT-4 ha sido declarado un modelo de IA multimodal, solo trata dos tipos de datos, a saber, imágenes y texto. Con GPT-5, OpenAI puede dar un paso de gigante hacia la verdadera multimodalidad. También puede manejar texto, audio, imágenes, video, datos de profundidad y temperatura. Podrá interconectar flujos de datos de diferentes modalidades para crear espacios integrados.
memoria a largo plazo
Con el lanzamiento de GPT-4, OpenAI ofrece una longitud de contexto máxima de 32 000 tokens a un costo de 0,06 USD por 1 000 token. Rápidamente vimos un cambio del token estándar de 4K a 32K en cuestión de meses. Recientemente, Anthropic aumentó la ventana de contexto de su chatbot Claude AI de tokens 9K a tokens 100K. Se espera que GPT-5 brinde soporte de memoria a largo plazo a través de una mayor longitud de contexto.
Esto ayuda a que los personajes y amigos de la IA recuerden tus personajes y recuerdos en los años venideros. Además de eso, también puede cargar libros y bibliotecas de documentos de texto en una sola ventana contextual. Puede surgir una variedad de nuevas aplicaciones de IA gracias al soporte de la memoria a largo plazo, y GPT-5 podría hacerlo posible.
¿Cuándo cree que se lanzará GPT-5 y qué innovaciones disruptivas traerá?
Referencias:
Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
OpenAI solicitó la marca comercial GPT-5, ¿cuándo se lanzará? ¿Qué nuevas habilidades traerá?
Fuente original: AGI Innovation Lab
El 1 de agosto, OpenAI presentó oficialmente una solicitud de marca registrada para "GPT-5", que cubre lo siguiente:
De acuerdo con los documentos de solicitud de marca registrada de GPT-5, la marca registrada GPT-5 cubre la función de IA para generar voz y texto, y también puede convertir archivos de audio en texto, realizar reconocimiento de voz y sonido, y usar tecnología de aprendizaje automático para procesamiento de lenguaje y voz. .
Esto puede significar que GPT-5 admitirá capacidades de voz, lo que brindará a los usuarios una experiencia de procesamiento de voz y texto más avanzada y eficiente, y mejorará aún más las capacidades multimodales.
¿Cuándo llegará GPT-5?
Cuando se lance GPT-4 en marzo de 2023, se espera que OpenAI lance el modelo de próxima generación en diciembre de 2023. El cofundador de Runway, Siqi Chen, declaró anteriormente que me dijeron que GPT5 está programado para completar el entrenamiento en diciembre de este año, y Openai espera que pueda lograr inteligencia artificial general (AGI). Eso significa que todos estaremos discutiendo ferozmente sobre si es realmente AGI.
Sin embargo, cuando se le preguntó en un evento del MIT en abril si OpenAI estaba entrenando GPT-5, el CEO de OpenAI, Sam Altman, dijo "no lo haremos, y no lo haremos por un tiempo". En una entrevista en junio de este año, el fundador y director ejecutivo de OpenAI, Sam Altman, dijo que cuando le preguntaron qué lanzó GPT-5, también tengo curiosidad, no tenemos respuesta, no tendremos GPT-5 pronto, debemos hacer de la seguridad un gran Parte de ello.
Aún así, algunos creen que OpenAI puede lanzar GPT-4.5, una versión intermedia entre GPT-4 y GPT-5, como GPT-3.5, para octubre de 2023. Se dice que GPT-4.5 traerá eventualmente capacidades multimodales, la capacidad de analizar imágenes y texto. OpenAI ya anunció y demostró las capacidades multimodales de GPT-4 en marzo de 2023 durante la transmisión en vivo para desarrolladores de GPT-4. Ahora Microsoft ha lanzado las capacidades multimodales de GPT-4 en Bing Chat. Parece que la próxima gran actualización de GPT-4 está a la vuelta de la esquina.
Además, OpenAI actualmente tiene mucho trabajo por hacer en el modelo GPT-4 antes de comenzar a trabajar en GPT-5. Actualmente, el tiempo de inferencia de GPT-4 es muy largo y bastante costoso de ejecutar. El acceso a la API GPT-4 aún es difícil de conseguir. Además, OpenAI recientemente abrió el acceso a los complementos e intérpretes de código de ChatGPT, que aún están en versión beta. La navegación por Internet se eliminó de GPT-4 porque muestra contenido de sitios pagos.
Si bien GPT-4 es muy poderoso, creo que OpenAI se da cuenta de que la eficiencia computacional es uno de los elementos clave para ejecutar el modelo de manera sostenible. Agregue nuevas funciones y capacidades, y podrá manejar infraestructuras más grandes mientras se asegura de que todos los puntos de control estén funcionando de manera confiable. Entonces, en una suposición descabellada, es probable que GPT-5 se lance en 2024 si no asumimos obstáculos regulatorios de las agencias gubernamentales.
Predicciones: características y funciones de GPT-5
Reducir las alucinaciones
El tema candente en la industria es que GPT-5 realizará AGI (inteligencia artificial). Entre otras cosas, GPT-5 debería reducir el tiempo de inferencia, mejorar la eficiencia, reducir las alucinaciones y más. Comencemos con las alucinaciones, una de las razones clave por las que la mayoría de los usuarios no confían mucho en los modelos de IA.
Según OpenAI, GPT-4 obtiene un puntaje 40 % más alto que GPT-3.5 en la evaluación fáctica del diseño contradictorio interno en las nueve categorías. GPT-4 ahora tiene un 82 % menos de probabilidades de responder a contenido inexacto y no permitido. Se acerca mucho al puntaje del 80% en las pruebas de precisión en todas las categorías. Este es un gran salto contra la ilusión.
Ahora, se espera que OpenAI reduzca las alucinaciones a menos del 10 % en GPT-5, lo que será fundamental para que los modelos LLM sean confiables.
Modelo de Eficiencia de Cálculo
Ya sabemos que GPT-4 es costoso de ejecutar ($0.03 por token de 1K) y lleva más tiempo inferirlo. Y el modelo GPT-3.5-turbo más antiguo es 15 veces más barato que el GPT-4 ($0.002 por token de 1K). Según un informe reciente de SemiAnalysis, GPT-4 no es un modelo denso, sino que se basa en una arquitectura de "mezcla de expertos". Esto significa que GPT-4 utiliza 16 modelos diferentes para distintas tareas, con 1,8 billones de parámetros.
Con una infraestructura tan grande, el costo de operar y mantener el modelo GPT-4 se vuelve muy alto.
De hecho, muchos nuevos modelos grandes han comenzado a buscar "pequeños y refinados", de modo que los modelos grandes tengan la menor cantidad de parámetros posible, no más.
En la interpretación reciente del modelo Google PaLM 2, los parámetros de PaLM 2 son bastante pequeños, pero el rendimiento es rápido.
Modelo de IA multisensorial
Aunque GPT-4 ha sido declarado un modelo de IA multimodal, solo trata dos tipos de datos, a saber, imágenes y texto. Con GPT-5, OpenAI puede dar un paso de gigante hacia la verdadera multimodalidad. También puede manejar texto, audio, imágenes, video, datos de profundidad y temperatura. Podrá interconectar flujos de datos de diferentes modalidades para crear espacios integrados.
memoria a largo plazo
Con el lanzamiento de GPT-4, OpenAI ofrece una longitud de contexto máxima de 32 000 tokens a un costo de 0,06 USD por 1 000 token. Rápidamente vimos un cambio del token estándar de 4K a 32K en cuestión de meses. Recientemente, Anthropic aumentó la ventana de contexto de su chatbot Claude AI de tokens 9K a tokens 100K. Se espera que GPT-5 brinde soporte de memoria a largo plazo a través de una mayor longitud de contexto.
Esto ayuda a que los personajes y amigos de la IA recuerden tus personajes y recuerdos en los años venideros. Además de eso, también puede cargar libros y bibliotecas de documentos de texto en una sola ventana contextual. Puede surgir una variedad de nuevas aplicaciones de IA gracias al soporte de la memoria a largo plazo, y GPT-5 podría hacerlo posible.
¿Cuándo cree que se lanzará GPT-5 y qué innovaciones disruptivas traerá?
Referencias: