OpenAI a demandé la marque GPT-5, quand sera-t-elle publiée ? Quelles nouvelles capacités apportera-t-il ?

Question

Source originale : AGI Innovation Lab![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-61db342df5-dd1a6f-1c6801) Source de l'image : générée par l'IA illimitée‌Le 1er août, OpenAI a officiellement soumis une demande de marque pour "GPT-5", qui couvre les éléments suivants :* Logiciel qui génère artificiellement de la parole et du texte humains* Convertir des fichiers de données audio en texte* Reconnaissance vocale et vocale* Traitement du langage et de la parole basé sur l'apprentissage automatiqueSelon les documents de demande de marque de GPT-5, la marque GPT-5 couvre la fonction de l'IA pour générer de la parole et du texte, et peut également convertir des fichiers audio en texte, réaliser la reconnaissance du son et de la parole et utiliser la technologie d'apprentissage automatique pour le traitement du langage et de la parole. .Cela peut signifier que GPT-5 prendra en charge les capacités vocales, ce qui offrira aux utilisateurs une expérience de traitement de la voix et du texte plus avancée et plus efficace, et améliorera encore les capacités multimodales.## Quand est-ce que GPT-5 arrive ?Lorsque GPT-4 sera publié en mars 2023, OpenAI devrait publier le modèle de nouvelle génération en décembre 2023. Le co-fondateur de Runway, Siqi Chen, a précédemment déclaré qu'on m'avait dit que GPT5 devrait terminer sa formation en décembre de cette année, et Openai s'attend à ce qu'il soit en mesure d'atteindre l'intelligence artificielle générale (AGI). Cela signifie que nous nous disputerons tous avec acharnement pour savoir s'il s'agit vraiment d'AGI.Cependant, lorsqu'on lui a demandé lors d'un événement du MIT en avril si OpenAI entraînait GPT-5, le PDG d'OpenAI, Sam Altman, a déclaré "nous ne le ferons pas, et nous ne le ferons pas pendant un certain temps". Dans une interview en juin de cette année, le fondateur et PDG d'OpenAI, Sam Altman, a déclaré lorsqu'on lui a demandé ce qui avait lancé GPT-5, je suis également curieux, nous n'avons pas de réponse, nous n'aurons pas GPT-5 bientôt, nous devons faire de la sécurité un grand partie de celui-ci.Pourtant, certains pensent qu'OpenAI pourrait lancer GPT-4.5, une version intermédiaire entre GPT-4 et GPT-5, comme GPT-3.5, d'ici octobre 2023. On dit que GPT-4.5 apportera éventuellement des capacités multimodales, la capacité d'analyser des images et du texte. OpenAI a déjà annoncé et démontré les capacités multimodales de GPT-4 dès mars 2023 lors de la diffusion en direct des développeurs GPT-4. Maintenant, Microsoft a publié les capacités multimodales de GPT-4 dans Bing Chat. Il semble que la prochaine mise à jour majeure de GPT-4 approche à grands pas.De plus, OpenAI a actuellement beaucoup de travail à faire sur le modèle GPT-4 avant de commencer à travailler sur GPT-5. Actuellement, le temps d'inférence de GPT-4 est très long et assez coûteux à exécuter. L'accès à l'API GPT-4 est encore difficile à trouver. De plus, OpenAI a récemment ouvert l'accès aux plugins ChatGPT et aux interpréteurs de code, qui sont toujours en version bêta. La navigation Internet a été supprimée de GPT-4 car elle affiche le contenu de sites payants.Alors que GPT-4 est très puissant, je pense qu'OpenAI se rend compte que l'efficacité de calcul est l'un des éléments clés pour exécuter le modèle de manière durable. Ajoutez de nouvelles fonctionnalités et capacités, et vous pouvez gérer des infrastructures plus importantes tout en vous assurant que tous les points de contrôle fonctionnent de manière fiable. Ainsi, sur une supposition folle, GPT-5 sera probablement publié en 2024 si nous supposons qu'il n'y a pas d'obstacles réglementaires de la part des agences gouvernementales.## Prédictions : caractéristiques et fonctions du GPT-5**Réduit les hallucinations**Le sujet brûlant dans l'industrie est que GPT-5 réalisera AGI (intelligence artificielle). Entre autres choses, GPT-5 devrait réduire le temps d'inférence, améliorer l'efficacité, réduire les hallucinations, etc. Commençons par les hallucinations, l'une des principales raisons pour lesquelles la plupart des utilisateurs ne font pas beaucoup confiance aux modèles d'IA.Selon OpenAI, GPT-4 obtient un score de 40 % supérieur à GPT-3.5 sur l'évaluation factuelle de la conception contradictoire interne dans les neuf catégories. GPT-4 est désormais 82 % moins susceptible de répondre à un contenu inexact et non autorisé. Il est très proche du score de 80% dans les tests de précision dans toutes les catégories. C'est un pas de géant contre l'illusion.Désormais, OpenAI devrait réduire les hallucinations à moins de 10% dans GPT-5, ce qui sera énorme pour rendre les modèles LLM dignes de confiance.**Modèle d'efficacité de calcul**Nous savons déjà que GPT-4 coûte cher à exécuter (0,03 USD par jeton de 1 000 USD) et prend plus de temps à déduire. Et l'ancien modèle GPT-3.5-turbo est 15 fois moins cher que le GPT-4 (0,002 $ par jeton 1K). Selon un récent rapport de SemiAnalysis, GPT-4 n'est pas un modèle dense, mais repose sur une architecture "mélange d'experts". Cela signifie que GPT-4 utilise 16 modèles différents pour différentes tâches, avec 1,8 billion de paramètres.Avec une infrastructure aussi vaste, le coût d'exploitation et de maintenance du modèle GPT-4 devient très élevé.En fait, de nombreux nouveaux grands modèles ont commencé à rechercher "petits et raffinés", de sorte que les grands modèles aient le moins de paramètres possible, pas plus.Dans l'interprétation récente du modèle Google PaLM 2, les paramètres PaLM 2 sont assez petits, mais les performances sont rapides.**Modèle d'IA multisensorielle**Bien que GPT-4 ait été déclaré modèle d'IA multimodal, il ne traite que deux types de données, à savoir les images et le texte. Avec GPT-5, OpenAI peut faire un pas de géant vers une véritable multimodalité. Il peut également gérer du texte, de l'audio, des images, de la vidéo, des données de profondeur et de température. Il pourra interconnecter des flux de données de différentes modalités pour créer des espaces embarqués.**memoire à long terme**Avec la sortie de GPT-4, OpenAI apporte une longueur de contexte maximale de 32 000 jetons à un coût de 0,06 $ par jeton de 1 000. Nous avons rapidement vu un passage du jeton 4K standard à 32K en quelques mois. Récemment, Anthropic a augmenté la fenêtre de contexte de son chatbot Claude AI de 9 000 jetons à 100 000 jetons. On s'attend à ce que GPT-5 apporte une prise en charge de la mémoire à long terme grâce à une plus grande longueur de contexte.Cela aide les personnages et les amis de l'IA à se souvenir de vos personnages et de vos souvenirs pour les années à venir. En plus de cela, vous pouvez également charger des livres et des bibliothèques de documents texte dans une seule fenêtre contextuelle. Une variété de nouvelles applications d'IA pourraient émerger grâce au support de la mémoire à long terme, et GPT-5 pourrait rendre cela possible.Quand pensez-vous que le GPT-5 sortira et quelles innovations perturbatrices apportera-t-il ?Les références: