Lors du lancement de la première journée des développeurs d’OpenAI, Sam Altman a développé une série de développements importants pour l’entreprise, qui ne se limitent pas à GPT-4 Turbo, un nouveau modèle avec plus de puissance, un contexte plus long et plus de contrôle, ainsi que le lancement de l’API d’assistance pour simplifier l’expérience des développeurs pour créer des agents assistés, OpenAI a souligné que le langage naturel sera un moyen important d’interagir avec les ordinateurs à l’avenir, et a également introduit la programmation GPT par la conversation Altman a annoncé le lancement prochain du GPT Store, qui permettra aux utilisateurs de partager et de découvrir des applications GPT innovantes et d’offrir des incitations au partage des revenus. Altman a également parlé de l’approfondissement de la collaboration avec Microsoft, de la présentation du nouveau modèle de synthèse vocale et de l’amélioration des appels de fonctionnalités, qui peuvent être résumés dans les sessions suivantes :
GPT-4 Turbo : De nouveaux modèles ont été lancés, avec une longueur de contexte accrue et un contrôle plus précis.
API d’assistance : fournit un processus simplifié permettant aux développeurs de créer un agent secondaire.
Programmation en langage naturel : Montre comment créer des GPT par le biais de conversations.
GPT Store : permet aux utilisateurs de partager et de découvrir des applications GPT et fournit un partage des revenus aux créateurs.
Microsoft Collaboration : Présentation d’un nouveau modèle de synthèse vocale, ainsi que d’un discours du PDG de Microsoft, Satya Nadella.
Remerciements de l’équipe : Altman a exprimé sa gratitude à l’équipe d’OpenAI pour son travail.
Présentation technique : De nouvelles fonctionnalités ont été présentées, notamment une démonstration d’applications de voyage et un assistant à commande vocale.
Voici tout le contenu complet de la première journée des développeurs d’OpenAI :
Tout d’abord, Altman rappelle la sortie de ChatGPT le 30 novembre comme un aperçu discret de la recherche et annonce fièrement le lancement de GPT-4 en mars, le modèle le plus puissant au monde à l’heure actuelle.
Altman a également introduit les capacités vocales et visuelles introduites dans ChatGPT au cours des derniers mois, lui donnant la possibilité de voir, d’entendre et de parler, et a annoncé que DALL· Le lancement de E 3, le modèle d’image le plus avancé au monde, a été intégré à ChatGPT.
Pour les clients d’entreprise, OpenAI a lancé ChatGPT Enterprise, qui offre un accès GPT plus rapide, des fenêtres contextuelles plus longues et davantage de protections de sécurité et de confidentialité de niveau entreprise. Altman a révélé qu’environ 2 millions de développeurs utilisent leurs API, que plus de 92 % des entreprises du Fortune 500 créent des solutions basées sur leurs produits et que ChatGPT compte désormais environ 100 millions d’utilisateurs actifs hebdomadaires. En particulier, il a noté que cette réussite repose entièrement sur le bouche-à-oreille, car les utilisateurs trouvent le produit utile et le recommandent à leurs amis. Il a conclu en notant que si les données sont impressionnantes, ce qui est plus important, c’est la façon dont les gens utilisent ces produits et comment ils tirent parti de l’IA, puis il a montré une vidéo qui visualise ces avancées.
Lors de la conférence des développeurs d’OpenAI, Sam Altman nous a montré comment l’IA peut avoir un impact profond sur la vie personnelle et la créativité des gens dans une vidéo. L’un des cas de la vidéo raconte l’histoire d’un homme qui utilise ChatGPT d’une manière non romantique, mais respectueuse et affectueuse, pour dire à son père son amour et son soutien dans la langue maternelle de son père – le tagalog – et une structure grammaticale complexe. Ce cas démontre la capacité de ChatGPT à comprendre et à appliquer les nuances culturelles et linguistiques.
Selon Altman, les applications créatives de ChatGPT sont incroyables et peuvent aider les créateurs à élargir leur réflexion et à renforcer leur confiance. Par exemple, quelqu’un qui utilise ChatGPT pour l’aider dans ses tâches quotidiennes, comme vérifier ce qui manque dans le réfrigérateur, planifier une recette végétarienne ou même aider à créer des feuilles de calcul et à écrire du code, et le personnage d’une autre vidéo découvre l’affinité, la patience, les connaissances et la réactivité de ChatGPT. Pour une étudiante 4.0 et mère de quatre enfants, la capacité de ChatGPT à fournir des réponses aux questions et aux explications réduit sa dépendance aux tuteurs et lui permet de passer plus de temps avec sa famille et elle-même. Enfin, il y a aussi un homme dans la vidéo qui raconte comment il a été limité à l’usage de sa main gauche après avoir subi une opération de la moelle épinière et du cerveau. Maintenant, en utilisant la saisie vocale et les fonctionnalités conversationnelles de ChatGPT, cet utilisateur a été grandement aidé et facilité. Ces études de cas illustrent le potentiel de ChatGPT à faciliter la vie quotidienne, à soutenir l’apprentissage et à surmonter les obstacles, tout en démontrant comment l’IA peut connecter et responsabiliser les utilisateurs à l’échelle mondiale comme jamais auparavant.
Sam Altman a ensuite expliqué comment les gens tirent parti de leur technologie et a souligné que c’est exactement ce qu’ils font. Il a ensuite annoncé une série de nouveaux développements. Altman dit qu’ils ont passé beaucoup de temps à parler aux développeurs du monde entier et à écouter leurs commentaires, ce qui a eu un impact profond sur ce que nous allons montrer aujourd’hui.
OpenAI a lancé un nouveau modèle, GPT-4 Turbo. Ce nouveau modèle répondra aux besoins de nombreux développeurs. Il a détaillé six mises à jour majeures : la première est la longueur du contexte, GPT-4 prend en charge des contextes allant jusqu’à 8 000 jetons et, dans certains cas, peut atteindre 32 000. GPT-4 Turbo prend en charge des contextes allant jusqu’à 128 000 jetons, ce qui équivaut à 300 pages d’un livre standard et 16 fois plus long que le contexte de 8 000 jetons. En plus de la longueur plus longue du contexte, la précision de ce modèle lorsqu’il s’agit de contextes longs a également été considérablement améliorée.
La deuxième mise à jour est plus de contrôle. Pour donner aux développeurs plus de contrôle sur les réponses et les sorties des modèles, ils ont introduit une nouvelle fonctionnalité appelée schéma JSON pour s’assurer que les modèles répondent à un JSON valide, ce qui simplifiera considérablement les appels d’API. Le modèle s’est également amélioré en termes d’appels de fonctions, permettant d’appeler plusieurs fonctions en même temps et de mieux suivre les instructions. Ils ont également introduit une nouvelle fonctionnalité appelée « Reproducible Output », qui permet au modèle de renvoyer une sortie cohérente en passant un paramètre de départ, ce qui fournit évidemment un degré de contrôle plus élevé sur le comportement du modèle. Cette fonctionnalité est actuellement en version bêta.
Dans les semaines à venir, ils déploieront une nouvelle fonctionnalité qui permettra de visualiser les sondes de log dans l’API. La troisième mise à jour est une meilleure connaissance du monde. Pour donner au modèle l’accès à des connaissances du monde plus précises, ils ont introduit une fonction de récupération qui permet d’extraire des connaissances de documents externes ou de bases de données. Ils ont également mis à jour la date limite de connaissance, et les connaissances mondiales de GPT-4 Turbo ont été mises à jour jusqu’en avril 2023 et continueront de s’améliorer.
La quatrième mise à jour est une nouvelle modalité, DALL· Les capacités visuelles de E 3, GPT-4 Turbo et le nouveau modèle de synthèse vocale arrivent tous dans l’API aujourd’hui, et une poignée de clients utilisent déjà DALL· E 3 Génère des images et des dessins par programmation. Aujourd’hui, Coca-Cola lance une campagne pour permettre à ses clients d’utiliser DALL· E 3 Générez des cartes de vœux de Diwali.
Bien sûr, leurs systèmes de sécurité aident les développeurs à empêcher les applications d’être utilisées à mauvais escient, et ces outils peuvent être utilisés dans les API. GPT-4 Turbo peut désormais accepter l’entrée d’images via l’API et générer des légendes, des classifications et des analyses. Par exemple, Miis utilise cette technologie pour aider les personnes aveugles ou malvoyantes dans leurs tâches quotidiennes, comme l’identification du produit devant elles. Et avec le nouveau modèle de synthèse vocale, vous serez en mesure de générer un son naturel à partir de texte dans l’API, avec six sons prédéfinis au choix.
Altman a donné un exemple de son qui a montré le naturel de leur nouveau modèle de synthèse vocale. Cette technologie de voix à voix rend l’interaction de l’application plus naturelle et accessible, et débloque de nombreux cas d’utilisation tels que l’apprentissage des langues et les assistants vocaux.
Altman a également annoncé la prochaine version de son modèle de reconnaissance vocale open source, Whisper v3, et a déclaré qu’il ajouterait bientôt des API. Cette version a amélioré les performances dans plusieurs langues, et il pense que les développeurs l’aimeront vraiment.
Ensuite, il a abordé la question de la personnalisation. Depuis le lancement de GPT 3.5 il y a quelques mois, la fonction de réglage fin a bien fonctionné. À partir d’aujourd’hui, cela sera étendu à la version 16K du modèle. Ils invitent également les utilisateurs qui utilisent activement le réglage fin à postuler au programme d’accès à l’expérience de réglage fin GPT-4. L’API de réglage fin est idéale pour améliorer les performances d’un modèle avec relativement peu de données dans une variété d’applications, qu’il s’agisse d’apprendre des domaines de connaissances entièrement nouveaux ou de travailler avec de grandes quantités de données propriétaires.
Dans la cinquième mise à jour, Altman a annoncé une nouvelle initiative appelée « Custom Models », dans le cadre de laquelle les chercheurs d’OpenAI travailleront en étroite collaboration avec l’entreprise pour utiliser leurs outils afin de créer des modèles personnalisés spécialisés pour des cas d’utilisation spécifiques. Cela inclut la modification de chaque étape du processus d’entraînement du modèle, la réalisation d’un pré-entraînement spécifique à un domaine, la personnalisation du processus post-entraînement d’apprentissage par renforcement, etc. Il admet qu’au début, ils ne pourront pas travailler avec beaucoup d’entreprises, ce qui représentera beaucoup de travail et ne sera pas bon marché, du moins au début. Mais s’il y a des entreprises qui cherchent à repousser leurs limites actuelles, contactez-les.
De plus, Altman a annoncé des limites de débit plus élevées. Ils doubleront le nombre de jetons par minute pour tous les clients GPT-4 existants, ce qui facilitera l’utilisation de plus, et pourront demander des modifications supplémentaires de la limite de débit et du quota directement dans les paramètres du compte API. En plus de ces limites de débit, ils ont également introduit le bouclier de droit d’auteur, ce qui signifie que si un client fait face à une action en justice pour violation du droit d’auteur, OpenAI interviendra pour protéger le client et couvrir les coûts encourus. Cela s’applique à la fois à ChatGPT Enterprise et aux API. Il rappelle clairement à tout le monde qu’ils n’utilisent jamais les données des API ou de ChatGPT Enterprise pour la formation.
Altman a poursuivi en parlant d’une demande de développeur qui était plus importante que toutes les précédentes, et c’était la question de la tarification. Il a annoncé que GPT-4 Turbo est non seulement plus intelligent que GPT-4, mais aussi moins cher, ce qui entraîne une réduction de 3 fois du jeton et une réduction de 2 fois du jeton d’achèvement. La nouvelle tarification est de 0,01 USD pour 1 000 jetons d’invite et de 0,03 USD pour 1 000 jetons d’achèvement. Il en résulte que le taux combiné de GPT-4 Turbo est plus de 2,75 fois moins cher que celui de GPT-4. Ils ont travaillé très dur pour y parvenir et espèrent que tout le monde sera enthousiaste à ce sujet.
Ils ont dû choisir entre le prix et la vitesse lorsqu’ils ont décidé de donner la priorité à la question du prix, mais ils travailleront ensuite sur l’augmentation de la vitesse. Il a également annoncé une baisse de prix pour le GPT 3.5 Turbo 16K, avec une réduction de 3x des jetons d’entrée et une réduction de 2x des jetons de sortie, ce qui signifie que GPT 3.516K est désormais moins cher que le modèle précédent GPT 3.54K. La version GPT 3.5 Turbo 16K est également moins chère à exécuter que l’ancienne version 4K, et il espère que les changements répondront aux commentaires de tout le monde et est ravi d’apporter ces améliorations à tout le monde.
En présentant tout cela, il a mentionné qu’OpenAI a de la chance d’avoir un partenaire qui joue un rôle essentiel pour rendre cela possible. Il a donc fait venir un invité spécial, Satya Nadella, PDG de Microsoft.
Nadella se souvient d’avoir rencontré OpenAI pour la première fois où Altman lui a demandé s’il avait des crédits Azure disponibles, et ils ont parcouru un long chemin depuis. Il a fait l’éloge d’OpenAI pour avoir construit quelque chose de magique et a partagé deux des réflexions de Microsoft sur le partenariat : Premièrement, les charges de travail, où ils travaillent ensemble pour construire des systèmes qui prennent en charge les modèles qu’OpenAI construit, de l’alimentation aux centres de données, en passant par les racks et les accélérateurs, et les réseaux. L’objectif de Microsoft est de construire le meilleur système afin qu’OpenAI puisse construire le meilleur modèle et le mettre à la disposition des développeurs. Deuxièmement, Microsoft est lui-même un développeur et crée des produits. Nadella a mentionné que lorsqu’il a rencontré GitHub Copilot et GPT pour la première fois, sa croyance en l’ensemble de la génération de modèles de base a complètement changé. Ils s’engagent à développer leur produit sur les API d’OpenAI et espèrent mettre GitHub Copilot Enterprise à la disposition de tous les participants présents pour l’essayer.
Altman a également demandé à Nadella ce qu’elle pensait de l’avenir des partenariats et de l’avenir de l’IA. Nadella a souligné que Microsoft s’engage pleinement à fournir les systèmes et les ressources informatiques nécessaires pour soutenir OpenAI dans ses progrès audacieux sur sa feuille de route. Ils s’engagent à fournir les meilleurs systèmes d’entraînement et d’inférence, ainsi que le plus grand nombre de ressources informatiques, afin qu’OpenAI puisse continuer à être à la pointe de la technologie. Nadella pense que la véritable valeur de l’IA réside dans sa capacité à responsabiliser les gens, ce qui s’aligne sur OpenAI et la mission de Microsoft de donner à chaque personne et à chaque organisation de la planète les moyens d’en faire plus. Il a mentionné que la sécurité est un élément clé de leur collaboration, et qu’il s’agit d’un point central de leurs efforts conjoints, et non d’une réflexion après coup. Les mots de Nadella soulignent la profondeur et l’objectif du partenariat entre OpenAI et Microsoft, démontrant la vision commune des deux entreprises pour stimuler la croissance et l’adoption de l’IA.
Altman s’est ensuite tourné vers le sujet de la conférence, et bien qu’il s’agisse d’une conférence pour les développeurs, ils ont apporté quelques améliorations à ChatGPT. Désormais, ChatGPT utilise GPT-4 Turbo et toutes les dernières améliorations, y compris les dernières heures limites de connaissance, et continuera d’être mis à jour, qui sont déjà en vigueur le même jour. ChatGPT est désormais capable de naviguer sur le Web, d’écrire et d’exécuter du code, d’analyser des données, de générer des images et bien plus encore si nécessaire. Ils ont également entendu les commentaires des utilisateurs selon lesquels le sélecteur de modèle est extrêmement ennuyeux et a donc été supprimé. À partir d’aujourd’hui, les utilisateurs n’ont plus besoin de cliquer dans un menu déroulant, et ChatGPT saura automatiquement quelle fonctionnalité utiliser et quand.
Altman souligne que si le prix est une question importante, ce n’est pas l’élément principal de la demande du développeur. Ils croient que si les gens reçoivent de meilleurs outils, ils feront des choses incroyables. Les gens veulent que l’IA soit plus intelligente, plus personnalisée, plus personnalisable et capable d’en faire plus au nom de l’utilisateur. Finalement, l’utilisateur demande simplement le PC et il effectue toutes ces tâches pour vous. Dans le domaine de l’IA, ces capacités sont souvent appelées « agents ». Pour aborder la sécurité de l’IA, OpenAI estime qu’un déploiement progressif et itératif est la meilleure approche, et estime qu’il est particulièrement important d’avancer prudemment vers l’avenir de cet « agent ». Cela nécessitera beaucoup de travail technique et beaucoup de réflexion de la part de la société.
Ils ont donc fait le premier petit pas vers cet avenir. Altman était ravi de présenter GPT, la version de ChatGPT conçue pour un usage spécifique. Vous pouvez créer une version personnalisée de ChatGPT de presque n’importe quoi avec des instructions, des connaissances étendues et des actions, puis la publier pour que d’autres puissent l’utiliser. Parce qu’ils combinent des instructions, des connaissances étendues et des actions, ils peuvent être plus utiles, mieux adaptés à de multiples contextes et offrir un meilleur contrôle.
Ils faciliteront l’accomplissement de diverses tâches ou le rendront simplement plus amusant pour vous. Vous pouvez les utiliser directement dans ChatGPT. En fait, vous pouvez programmer GPT dans le langage en lui parlant. Il est facile de personnaliser le comportement en fonction de vos besoins. Cela rend leur construction très facile et donne du pouvoir à tout le monde.
Altman a poursuivi en disant qu’ils montreront ce que sont les GPT, comment les utiliser, comment les construire, puis discuteront de la façon dont ils seront distribués et découverts. Ensuite, pour les développeurs, ils montreront comment créer ces expériences de type agent dans leurs propres applications.
Il a donné quelques exemples. Les partenaires de Code.org s’efforcent d’élargir le programme d’informatique de l’école, et ils ont des cours utilisés par des dizaines de millions d’étudiants à travers le monde. Code.org a élaboré un plan de cours et un TPG pour aider les enseignants à offrir une expérience plus attrayante aux élèves du secondaire. Par exemple, si l’enseignant demande une façon créative d’expliquer la boucle, il le fera, et dans ce cas, il l’expliquera avec la façon dont un personnage de jeu vidéo ramasse à plusieurs reprises des pièces de monnaie, ce qui est très facile à comprendre pour un élève de huitième année. Ce GPT combine le vaste programme et l’expertise de code.org, permettant aux enseignants de s’adapter rapidement et facilement à leurs besoins.
Ensuite, Canva crée un GPT où vous pouvez commencer le travail de conception en décrivant le design que vous souhaitez en langage naturel. Si vous dites, faites une affiche pour la réception du Dev Day cet après-midi et fournissez quelques détails, cela générera des options de départ en appelant l’API de Canva.
Altman note que le concept peut être familier à certains. Ils ont développé le plugin en une action personnalisée pour GPT. Vous pouvez continuer à discuter avec celui-ci pour voir les différentes itérations, et lorsque vous voyez celui que vous aimez, vous pouvez cliquer pour vous rendre sur Canva pour profiter de l’expérience de conception complète.
Ensuite, ils ont voulu montrer un GPT en direct. Zapier a construit un GPT qui vous permet d’effectuer des actions sur 6000 applications, débloquant ainsi un large éventail de possibilités d’intégration. Altman a présenté Jessica, architecte de solutions chez OpenAI, qui sera en charge de la présentation.
L’architecte de solutions Jessica Shei est montée sur scène et a rapidement commencé la démonstration, Jessica soulignant que les GPT seraient situés dans le coin supérieur gauche de l’interface et montrant un exemple appelé actions Zapier AI. Elle a montré son calendrier de la journée et a mentionné qu’elle avait connecté des GPT à son calendrier.
Au cours de la présentation, Jessica a posé des questions sur le programme de la journée. Elle a insisté sur le fait que les TPG sont conçus dans un souci de sécurité et que le système demande la permission de l’utilisateur avant de partager une action ou des données. Elle permet aux GPT d’accéder à son emploi du temps et explique que les GPT sont conçus pour recevoir des instructions de l’utilisateur afin de décider quelle fonction invoquer pour effectuer l’action appropriée.
Ensuite, Jessica a montré comment les GPT se sont connectés avec succès à son calendrier et ont extrait les informations de l’événement. Elle a également demandé aux GPT de vérifier les conflits sur le calendrier et a montré qu’il avait réussi à en identifier un. Elle montre ensuite comment faire savoir à une personne nommée Sam qu’elle doit partir plus tôt et passer à une conversation avec Sam pour lui demander de le faire.
Lorsque GPT a terminé la demande, Jessica a demandé à Sam si elle avait reçu la notification, et Sam a confirmé la réception. Jessica a utilisé cela comme exemple pour illustrer le potentiel des TPG et a exprimé son impatience de voir ce que d’autres construiraient.
Sam a ensuite présenté d’autres exemples de GPT. Il a mentionné qu’en plus de ceux démontrés, il y a beaucoup de GPT qui sont en cours de création et qui le seront bientôt. Il s’est rendu compte que beaucoup de gens qui voulaient construire GPT ne pouvaient pas programmer, alors ils ont rendu possible pour les gens de programmer GPT par le biais de la conversation. Altman pense que le langage naturel sera une partie importante de la façon dont les gens utiliseront les ordinateurs à l’avenir, et considère cela comme un exemple précoce intéressant.
Ensuite, Altman montre comment construire un GPT. Il voulait créer un GPT qui aiderait les fondateurs et les développeurs à fournir des conseils lors du lancement de nouveaux projets. Il entre dans le constructeur GPT, lui dit ce qu’il veut, et GPT commence à construire des instructions détaillées basées sur sa description. Il propose également un nom « Startup Mentor » et commence à se remplir d’informations et de questions possibles en mode aperçu. Altman a téléchargé une transcription de son précédent discours sur l’entrepreneuriat pour fournir des conseils basés sur celui-ci, ajoutant « des commentaires concis et constructifs » à la directive.
Altman a ensuite essayé ce GPT dans la balise de prévisualisation et a été satisfait des résultats. Il a décidé de se le poster à lui-même pour le moment, afin de pouvoir l’affiner et le partager plus tard. Il a mentionné qu’il avait toujours voulu créer un tel robot et qu’il était maintenant heureux de pouvoir le réaliser. Altman a souligné que les GPT permettent aux gens de partager et de découvrir facilement des choses intéressantes qu’ils font avec ChatGPT. Les gens peuvent créer des GPT en privé, ou partager leurs créations publiquement via des liens, ou créer des GPT uniquement pour leur entreprise s’ils utilisent ChatGPT Enterprise. Ils prévoient de lancer un magasin GPT plus tard ce mois-ci, où les gens peuvent répertorier les GPT, et OpenAI présentera les meilleurs et les plus populaires GPT.
Altman a également mentionné qu’OpenAI veillera à ce que les GPT dans les magasins suivent leurs politiques, et qu’OpenAI valorise le partage des revenus et versera une partie des revenus à ceux qui construisent les GPT les plus utiles et les plus populaires. Ils sont impatients de favoriser un écosystème dynamique grâce à la boutique GPT et sont enthousiastes à l’idée que davantage d’informations seront partagées.
Altman a également souligné qu’il s’agit d’une conférence pour les développeurs qui apportent les mêmes concepts aux API. Il a mentionné que de nombreuses personnes ont déjà créé des expériences de type proxy sur des API, telles que Shopify Sidekick et Collide de Discord, ainsi que mon IA, un chatbot personnalisé qui peut être ajouté aux discussions de groupe et fournir des recommandations. Ces expériences sont formidables, mais leur construction est souvent difficile, prenant parfois des mois et des équipes de dizaines d’ingénieurs. Pour simplifier ce processus, ils ont lancé une nouvelle API d’assistance.
L’API d’assistance comprend des threads persistants, un interpréteur de code de récupération intégré, un interpréteur Python fonctionnel et un environnement sandbox, ainsi que la fonctionnalité d’appel de fonction améliorée dont ils ont parlé précédemment.
Raman, responsable de l’expérience des développeurs chez OpenAI, a ensuite montré comment cela fonctionne. Ramon se dit encouragé de voir autant de personnes intégrer l’IA dans leurs applications. Ramon a annoncé que non seulement ils introduisent de nouveaux modèles dans l’API, mais qu’ils sont également ravis d’améliorer l’expérience des développeurs afin qu’il soit plus facile pour les gens de créer des agents secondaires. Il montre ensuite directement le processus de construction.
Ramon a présenté l’application de voyage qu’il est en train de créer appelée « wanderlust » pour les explorateurs du monde entier. Il a également présenté des idées de destinations générées avec GPT-4, ainsi que l’utilisation du nouveau DALL· Illustrations générées par programmation par l’API E 3. Par la suite, Ramon a montré comment améliorer l’application en ajoutant un assistant simple. Il passe au nouveau terrain de jeu des outils d’assistance, crée un assistant, lui donne un nom, fournit des instructions initiales, sélectionne le modèle, active l’interpréteur de code et les fonctions de récupération, puis enregistre.
Ramon a ensuite expliqué comment intégrer l’assistant dans l’application, en examinant une partie du code et en montrant comment créer un nouveau fil de discussion pour chaque nouvel utilisateur et ajouter ses messages à ces fils de discussion. Il montre également comment exécuter l’assistant à tout moment pour renvoyer la réponse à l’application.
Ensuite, Ramon a montré l’appel de fonction, une fonctionnalité qu’il a particulièrement appréciée. Les appels de fonction garantissent désormais la sortie JSON, et plusieurs fonctions peuvent être appelées en même temps. Il a ensuite montré comment l’assistant connaît les caractéristiques pour inclure des étiquettes sur la carte de droite et ajoute des marqueurs à la carte en temps réel.
Ramon discute également de la fonction de récupération, qui consiste à donner aux assistants plus de connaissances que la messagerie instantanée des utilisateurs. Il télécharge un fichier PDF, qui est lu par le système et affiché à l’écran. Il glisse ensuite et dépose également les informations de réservation d’Airbnb dans la conversation.
Ramon a souligné que les développeurs ont généralement besoin de calculer des intégrations, de mettre en place des algorithmes de segmentation, et maintenant tout cela est géré par la nouvelle API avec état. Il montre également le tableau de bord du développeur où vous pouvez voir les étapes suivies par l’outil, y compris les fonctions qui ont été appelées et les fichiers PDF qui ont été téléchargés.
Ramon a ensuite discuté d’une nouvelle fonctionnalité que de nombreux développeurs attendaient : l’interpréteur de code, qui est désormais également disponible dans l’API. Il permet à l’IA d’écrire et d’exécuter du code et même de générer des fichiers à la volée. Il montre comment un interpréteur de code fonctionnerait si vous prononcez un problème qui nécessite une conversion de devise et des calculs de jours. Enfin, Ramon explique comment créer rapidement un agent capable de gérer l’état des conversations des utilisateurs, de tirer parti d’outils externes tels que la récupération de connaissances et les interpréteurs de code, et d’appeler ses propres fonctions pour implémenter des fonctionnalités.
Ramon a également introduit des fonctionnalités qui combinent des modèles et des appels de fonctionnalités nouvellement publiés, et il a créé un assistant personnalisé pour le Dev Day. De plus, il a décidé d’utiliser la voix au lieu de l’interface de chat. Il a montré une application Swift simple qui peut recevoir l’entrée du microphone et afficher ce qui se passe en arrière-plan dans les journaux du terminal. Il a utilisé le chuchotement pour convertir la saisie vocale en texte, a utilisé l’assistant de GPT-4 Turbo et a utilisé la nouvelle API TTS pour le faire sonner.
Ramon montre également comment l’assistant peut se connecter à Internet et effectuer des actions réelles pour l’utilisateur. Il a proposé à l’assistant de donner 500 $ en crédits OpenAI à cinq participants aléatoires à la journée des développeurs, et l’assistant a accompli la tâche avec succès.
Enfin, dans son discours de clôture de la journée des développeurs d’OpenAI, Sam Altman a déclaré que l’API Assistive était en phase de test bêta et qu’il était impatient de voir comment les développeurs l’utiliseront. Il a souligné que GPT et les outils d’assistance sont des pionniers sur la voie d’agents plus complexes qui seront en mesure de planifier et d’exécuter des tâches plus complexes pour les utilisateurs.
Altman réitère l’importance des déploiements itératifs progressifs et encourage les gens à commencer à utiliser ces agents dès maintenant afin de s’adapter à un monde futur où ils deviendront plus capables. Il a assuré qu’OpenAI continuerait à mettre à jour le système en fonction des commentaires des utilisateurs, affirmant qu’OpenAI avait une densité de talents exceptionnelle, mais qu’il fallait encore beaucoup d’efforts et de coordination pour y parvenir. Il a l’impression d’avoir les meilleurs collègues au monde et est incroyablement reconnaissant de pouvoir travailler avec eux.
Voici pourquoi l’équipe d’OpenAI travaille si dur : elle est convaincue que l’IA fera partie d’une révolution technologique et sociale qui changera le monde à bien des égards. Altman a mentionné qu’ils avaient discuté plus tôt qu’en donnant aux gens de meilleurs outils, ils pourraient changer le monde. Il est convaincu que l’IA apportera une autonomisation personnelle et une échelle d’action sans précédent, élevant ainsi l’humanité à un niveau sans précédent. À mesure que l’intelligence devient de plus en plus omniprésente, nous avons tous des superpouvoirs à tout moment. Il est enthousiaste à l’idée de la façon dont vous utiliserez la technologie et du nouvel avenir que nous construisons ensemble.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Première conférence des développeurs d’OpenAI : GPT-4 Turbo, GPT Store
Source : Il y a un nouveau Newin
Lors du lancement de la première journée des développeurs d’OpenAI, Sam Altman a développé une série de développements importants pour l’entreprise, qui ne se limitent pas à GPT-4 Turbo, un nouveau modèle avec plus de puissance, un contexte plus long et plus de contrôle, ainsi que le lancement de l’API d’assistance pour simplifier l’expérience des développeurs pour créer des agents assistés, OpenAI a souligné que le langage naturel sera un moyen important d’interagir avec les ordinateurs à l’avenir, et a également introduit la programmation GPT par la conversation Altman a annoncé le lancement prochain du GPT Store, qui permettra aux utilisateurs de partager et de découvrir des applications GPT innovantes et d’offrir des incitations au partage des revenus. Altman a également parlé de l’approfondissement de la collaboration avec Microsoft, de la présentation du nouveau modèle de synthèse vocale et de l’amélioration des appels de fonctionnalités, qui peuvent être résumés dans les sessions suivantes :
Voici tout le contenu complet de la première journée des développeurs d’OpenAI :
Tout d’abord, Altman rappelle la sortie de ChatGPT le 30 novembre comme un aperçu discret de la recherche et annonce fièrement le lancement de GPT-4 en mars, le modèle le plus puissant au monde à l’heure actuelle.
Altman a également introduit les capacités vocales et visuelles introduites dans ChatGPT au cours des derniers mois, lui donnant la possibilité de voir, d’entendre et de parler, et a annoncé que DALL· Le lancement de E 3, le modèle d’image le plus avancé au monde, a été intégré à ChatGPT.
Pour les clients d’entreprise, OpenAI a lancé ChatGPT Enterprise, qui offre un accès GPT plus rapide, des fenêtres contextuelles plus longues et davantage de protections de sécurité et de confidentialité de niveau entreprise. Altman a révélé qu’environ 2 millions de développeurs utilisent leurs API, que plus de 92 % des entreprises du Fortune 500 créent des solutions basées sur leurs produits et que ChatGPT compte désormais environ 100 millions d’utilisateurs actifs hebdomadaires. En particulier, il a noté que cette réussite repose entièrement sur le bouche-à-oreille, car les utilisateurs trouvent le produit utile et le recommandent à leurs amis. Il a conclu en notant que si les données sont impressionnantes, ce qui est plus important, c’est la façon dont les gens utilisent ces produits et comment ils tirent parti de l’IA, puis il a montré une vidéo qui visualise ces avancées.
Lors de la conférence des développeurs d’OpenAI, Sam Altman nous a montré comment l’IA peut avoir un impact profond sur la vie personnelle et la créativité des gens dans une vidéo. L’un des cas de la vidéo raconte l’histoire d’un homme qui utilise ChatGPT d’une manière non romantique, mais respectueuse et affectueuse, pour dire à son père son amour et son soutien dans la langue maternelle de son père – le tagalog – et une structure grammaticale complexe. Ce cas démontre la capacité de ChatGPT à comprendre et à appliquer les nuances culturelles et linguistiques.
Selon Altman, les applications créatives de ChatGPT sont incroyables et peuvent aider les créateurs à élargir leur réflexion et à renforcer leur confiance. Par exemple, quelqu’un qui utilise ChatGPT pour l’aider dans ses tâches quotidiennes, comme vérifier ce qui manque dans le réfrigérateur, planifier une recette végétarienne ou même aider à créer des feuilles de calcul et à écrire du code, et le personnage d’une autre vidéo découvre l’affinité, la patience, les connaissances et la réactivité de ChatGPT. Pour une étudiante 4.0 et mère de quatre enfants, la capacité de ChatGPT à fournir des réponses aux questions et aux explications réduit sa dépendance aux tuteurs et lui permet de passer plus de temps avec sa famille et elle-même. Enfin, il y a aussi un homme dans la vidéo qui raconte comment il a été limité à l’usage de sa main gauche après avoir subi une opération de la moelle épinière et du cerveau. Maintenant, en utilisant la saisie vocale et les fonctionnalités conversationnelles de ChatGPT, cet utilisateur a été grandement aidé et facilité. Ces études de cas illustrent le potentiel de ChatGPT à faciliter la vie quotidienne, à soutenir l’apprentissage et à surmonter les obstacles, tout en démontrant comment l’IA peut connecter et responsabiliser les utilisateurs à l’échelle mondiale comme jamais auparavant.
Sam Altman a ensuite expliqué comment les gens tirent parti de leur technologie et a souligné que c’est exactement ce qu’ils font. Il a ensuite annoncé une série de nouveaux développements. Altman dit qu’ils ont passé beaucoup de temps à parler aux développeurs du monde entier et à écouter leurs commentaires, ce qui a eu un impact profond sur ce que nous allons montrer aujourd’hui.
OpenAI a lancé un nouveau modèle, GPT-4 Turbo. Ce nouveau modèle répondra aux besoins de nombreux développeurs. Il a détaillé six mises à jour majeures : la première est la longueur du contexte, GPT-4 prend en charge des contextes allant jusqu’à 8 000 jetons et, dans certains cas, peut atteindre 32 000. GPT-4 Turbo prend en charge des contextes allant jusqu’à 128 000 jetons, ce qui équivaut à 300 pages d’un livre standard et 16 fois plus long que le contexte de 8 000 jetons. En plus de la longueur plus longue du contexte, la précision de ce modèle lorsqu’il s’agit de contextes longs a également été considérablement améliorée.
La deuxième mise à jour est plus de contrôle. Pour donner aux développeurs plus de contrôle sur les réponses et les sorties des modèles, ils ont introduit une nouvelle fonctionnalité appelée schéma JSON pour s’assurer que les modèles répondent à un JSON valide, ce qui simplifiera considérablement les appels d’API. Le modèle s’est également amélioré en termes d’appels de fonctions, permettant d’appeler plusieurs fonctions en même temps et de mieux suivre les instructions. Ils ont également introduit une nouvelle fonctionnalité appelée « Reproducible Output », qui permet au modèle de renvoyer une sortie cohérente en passant un paramètre de départ, ce qui fournit évidemment un degré de contrôle plus élevé sur le comportement du modèle. Cette fonctionnalité est actuellement en version bêta.
Dans les semaines à venir, ils déploieront une nouvelle fonctionnalité qui permettra de visualiser les sondes de log dans l’API. La troisième mise à jour est une meilleure connaissance du monde. Pour donner au modèle l’accès à des connaissances du monde plus précises, ils ont introduit une fonction de récupération qui permet d’extraire des connaissances de documents externes ou de bases de données. Ils ont également mis à jour la date limite de connaissance, et les connaissances mondiales de GPT-4 Turbo ont été mises à jour jusqu’en avril 2023 et continueront de s’améliorer.
La quatrième mise à jour est une nouvelle modalité, DALL· Les capacités visuelles de E 3, GPT-4 Turbo et le nouveau modèle de synthèse vocale arrivent tous dans l’API aujourd’hui, et une poignée de clients utilisent déjà DALL· E 3 Génère des images et des dessins par programmation. Aujourd’hui, Coca-Cola lance une campagne pour permettre à ses clients d’utiliser DALL· E 3 Générez des cartes de vœux de Diwali.
Bien sûr, leurs systèmes de sécurité aident les développeurs à empêcher les applications d’être utilisées à mauvais escient, et ces outils peuvent être utilisés dans les API. GPT-4 Turbo peut désormais accepter l’entrée d’images via l’API et générer des légendes, des classifications et des analyses. Par exemple, Miis utilise cette technologie pour aider les personnes aveugles ou malvoyantes dans leurs tâches quotidiennes, comme l’identification du produit devant elles. Et avec le nouveau modèle de synthèse vocale, vous serez en mesure de générer un son naturel à partir de texte dans l’API, avec six sons prédéfinis au choix.
Altman a donné un exemple de son qui a montré le naturel de leur nouveau modèle de synthèse vocale. Cette technologie de voix à voix rend l’interaction de l’application plus naturelle et accessible, et débloque de nombreux cas d’utilisation tels que l’apprentissage des langues et les assistants vocaux.
Altman a également annoncé la prochaine version de son modèle de reconnaissance vocale open source, Whisper v3, et a déclaré qu’il ajouterait bientôt des API. Cette version a amélioré les performances dans plusieurs langues, et il pense que les développeurs l’aimeront vraiment.
Ensuite, il a abordé la question de la personnalisation. Depuis le lancement de GPT 3.5 il y a quelques mois, la fonction de réglage fin a bien fonctionné. À partir d’aujourd’hui, cela sera étendu à la version 16K du modèle. Ils invitent également les utilisateurs qui utilisent activement le réglage fin à postuler au programme d’accès à l’expérience de réglage fin GPT-4. L’API de réglage fin est idéale pour améliorer les performances d’un modèle avec relativement peu de données dans une variété d’applications, qu’il s’agisse d’apprendre des domaines de connaissances entièrement nouveaux ou de travailler avec de grandes quantités de données propriétaires.
Dans la cinquième mise à jour, Altman a annoncé une nouvelle initiative appelée « Custom Models », dans le cadre de laquelle les chercheurs d’OpenAI travailleront en étroite collaboration avec l’entreprise pour utiliser leurs outils afin de créer des modèles personnalisés spécialisés pour des cas d’utilisation spécifiques. Cela inclut la modification de chaque étape du processus d’entraînement du modèle, la réalisation d’un pré-entraînement spécifique à un domaine, la personnalisation du processus post-entraînement d’apprentissage par renforcement, etc. Il admet qu’au début, ils ne pourront pas travailler avec beaucoup d’entreprises, ce qui représentera beaucoup de travail et ne sera pas bon marché, du moins au début. Mais s’il y a des entreprises qui cherchent à repousser leurs limites actuelles, contactez-les.
De plus, Altman a annoncé des limites de débit plus élevées. Ils doubleront le nombre de jetons par minute pour tous les clients GPT-4 existants, ce qui facilitera l’utilisation de plus, et pourront demander des modifications supplémentaires de la limite de débit et du quota directement dans les paramètres du compte API. En plus de ces limites de débit, ils ont également introduit le bouclier de droit d’auteur, ce qui signifie que si un client fait face à une action en justice pour violation du droit d’auteur, OpenAI interviendra pour protéger le client et couvrir les coûts encourus. Cela s’applique à la fois à ChatGPT Enterprise et aux API. Il rappelle clairement à tout le monde qu’ils n’utilisent jamais les données des API ou de ChatGPT Enterprise pour la formation.
Altman a poursuivi en parlant d’une demande de développeur qui était plus importante que toutes les précédentes, et c’était la question de la tarification. Il a annoncé que GPT-4 Turbo est non seulement plus intelligent que GPT-4, mais aussi moins cher, ce qui entraîne une réduction de 3 fois du jeton et une réduction de 2 fois du jeton d’achèvement. La nouvelle tarification est de 0,01 USD pour 1 000 jetons d’invite et de 0,03 USD pour 1 000 jetons d’achèvement. Il en résulte que le taux combiné de GPT-4 Turbo est plus de 2,75 fois moins cher que celui de GPT-4. Ils ont travaillé très dur pour y parvenir et espèrent que tout le monde sera enthousiaste à ce sujet.
Ils ont dû choisir entre le prix et la vitesse lorsqu’ils ont décidé de donner la priorité à la question du prix, mais ils travailleront ensuite sur l’augmentation de la vitesse. Il a également annoncé une baisse de prix pour le GPT 3.5 Turbo 16K, avec une réduction de 3x des jetons d’entrée et une réduction de 2x des jetons de sortie, ce qui signifie que GPT 3.516K est désormais moins cher que le modèle précédent GPT 3.54K. La version GPT 3.5 Turbo 16K est également moins chère à exécuter que l’ancienne version 4K, et il espère que les changements répondront aux commentaires de tout le monde et est ravi d’apporter ces améliorations à tout le monde.
En présentant tout cela, il a mentionné qu’OpenAI a de la chance d’avoir un partenaire qui joue un rôle essentiel pour rendre cela possible. Il a donc fait venir un invité spécial, Satya Nadella, PDG de Microsoft.
Nadella se souvient d’avoir rencontré OpenAI pour la première fois où Altman lui a demandé s’il avait des crédits Azure disponibles, et ils ont parcouru un long chemin depuis. Il a fait l’éloge d’OpenAI pour avoir construit quelque chose de magique et a partagé deux des réflexions de Microsoft sur le partenariat : Premièrement, les charges de travail, où ils travaillent ensemble pour construire des systèmes qui prennent en charge les modèles qu’OpenAI construit, de l’alimentation aux centres de données, en passant par les racks et les accélérateurs, et les réseaux. L’objectif de Microsoft est de construire le meilleur système afin qu’OpenAI puisse construire le meilleur modèle et le mettre à la disposition des développeurs. Deuxièmement, Microsoft est lui-même un développeur et crée des produits. Nadella a mentionné que lorsqu’il a rencontré GitHub Copilot et GPT pour la première fois, sa croyance en l’ensemble de la génération de modèles de base a complètement changé. Ils s’engagent à développer leur produit sur les API d’OpenAI et espèrent mettre GitHub Copilot Enterprise à la disposition de tous les participants présents pour l’essayer.
Altman a également demandé à Nadella ce qu’elle pensait de l’avenir des partenariats et de l’avenir de l’IA. Nadella a souligné que Microsoft s’engage pleinement à fournir les systèmes et les ressources informatiques nécessaires pour soutenir OpenAI dans ses progrès audacieux sur sa feuille de route. Ils s’engagent à fournir les meilleurs systèmes d’entraînement et d’inférence, ainsi que le plus grand nombre de ressources informatiques, afin qu’OpenAI puisse continuer à être à la pointe de la technologie. Nadella pense que la véritable valeur de l’IA réside dans sa capacité à responsabiliser les gens, ce qui s’aligne sur OpenAI et la mission de Microsoft de donner à chaque personne et à chaque organisation de la planète les moyens d’en faire plus. Il a mentionné que la sécurité est un élément clé de leur collaboration, et qu’il s’agit d’un point central de leurs efforts conjoints, et non d’une réflexion après coup. Les mots de Nadella soulignent la profondeur et l’objectif du partenariat entre OpenAI et Microsoft, démontrant la vision commune des deux entreprises pour stimuler la croissance et l’adoption de l’IA.
Altman s’est ensuite tourné vers le sujet de la conférence, et bien qu’il s’agisse d’une conférence pour les développeurs, ils ont apporté quelques améliorations à ChatGPT. Désormais, ChatGPT utilise GPT-4 Turbo et toutes les dernières améliorations, y compris les dernières heures limites de connaissance, et continuera d’être mis à jour, qui sont déjà en vigueur le même jour. ChatGPT est désormais capable de naviguer sur le Web, d’écrire et d’exécuter du code, d’analyser des données, de générer des images et bien plus encore si nécessaire. Ils ont également entendu les commentaires des utilisateurs selon lesquels le sélecteur de modèle est extrêmement ennuyeux et a donc été supprimé. À partir d’aujourd’hui, les utilisateurs n’ont plus besoin de cliquer dans un menu déroulant, et ChatGPT saura automatiquement quelle fonctionnalité utiliser et quand.
Altman souligne que si le prix est une question importante, ce n’est pas l’élément principal de la demande du développeur. Ils croient que si les gens reçoivent de meilleurs outils, ils feront des choses incroyables. Les gens veulent que l’IA soit plus intelligente, plus personnalisée, plus personnalisable et capable d’en faire plus au nom de l’utilisateur. Finalement, l’utilisateur demande simplement le PC et il effectue toutes ces tâches pour vous. Dans le domaine de l’IA, ces capacités sont souvent appelées « agents ». Pour aborder la sécurité de l’IA, OpenAI estime qu’un déploiement progressif et itératif est la meilleure approche, et estime qu’il est particulièrement important d’avancer prudemment vers l’avenir de cet « agent ». Cela nécessitera beaucoup de travail technique et beaucoup de réflexion de la part de la société.
Ils ont donc fait le premier petit pas vers cet avenir. Altman était ravi de présenter GPT, la version de ChatGPT conçue pour un usage spécifique. Vous pouvez créer une version personnalisée de ChatGPT de presque n’importe quoi avec des instructions, des connaissances étendues et des actions, puis la publier pour que d’autres puissent l’utiliser. Parce qu’ils combinent des instructions, des connaissances étendues et des actions, ils peuvent être plus utiles, mieux adaptés à de multiples contextes et offrir un meilleur contrôle.
Ils faciliteront l’accomplissement de diverses tâches ou le rendront simplement plus amusant pour vous. Vous pouvez les utiliser directement dans ChatGPT. En fait, vous pouvez programmer GPT dans le langage en lui parlant. Il est facile de personnaliser le comportement en fonction de vos besoins. Cela rend leur construction très facile et donne du pouvoir à tout le monde.
Altman a poursuivi en disant qu’ils montreront ce que sont les GPT, comment les utiliser, comment les construire, puis discuteront de la façon dont ils seront distribués et découverts. Ensuite, pour les développeurs, ils montreront comment créer ces expériences de type agent dans leurs propres applications.
Il a donné quelques exemples. Les partenaires de Code.org s’efforcent d’élargir le programme d’informatique de l’école, et ils ont des cours utilisés par des dizaines de millions d’étudiants à travers le monde. Code.org a élaboré un plan de cours et un TPG pour aider les enseignants à offrir une expérience plus attrayante aux élèves du secondaire. Par exemple, si l’enseignant demande une façon créative d’expliquer la boucle, il le fera, et dans ce cas, il l’expliquera avec la façon dont un personnage de jeu vidéo ramasse à plusieurs reprises des pièces de monnaie, ce qui est très facile à comprendre pour un élève de huitième année. Ce GPT combine le vaste programme et l’expertise de code.org, permettant aux enseignants de s’adapter rapidement et facilement à leurs besoins.
Ensuite, Canva crée un GPT où vous pouvez commencer le travail de conception en décrivant le design que vous souhaitez en langage naturel. Si vous dites, faites une affiche pour la réception du Dev Day cet après-midi et fournissez quelques détails, cela générera des options de départ en appelant l’API de Canva.
Altman note que le concept peut être familier à certains. Ils ont développé le plugin en une action personnalisée pour GPT. Vous pouvez continuer à discuter avec celui-ci pour voir les différentes itérations, et lorsque vous voyez celui que vous aimez, vous pouvez cliquer pour vous rendre sur Canva pour profiter de l’expérience de conception complète.
Ensuite, ils ont voulu montrer un GPT en direct. Zapier a construit un GPT qui vous permet d’effectuer des actions sur 6000 applications, débloquant ainsi un large éventail de possibilités d’intégration. Altman a présenté Jessica, architecte de solutions chez OpenAI, qui sera en charge de la présentation.
L’architecte de solutions Jessica Shei est montée sur scène et a rapidement commencé la démonstration, Jessica soulignant que les GPT seraient situés dans le coin supérieur gauche de l’interface et montrant un exemple appelé actions Zapier AI. Elle a montré son calendrier de la journée et a mentionné qu’elle avait connecté des GPT à son calendrier.
Au cours de la présentation, Jessica a posé des questions sur le programme de la journée. Elle a insisté sur le fait que les TPG sont conçus dans un souci de sécurité et que le système demande la permission de l’utilisateur avant de partager une action ou des données. Elle permet aux GPT d’accéder à son emploi du temps et explique que les GPT sont conçus pour recevoir des instructions de l’utilisateur afin de décider quelle fonction invoquer pour effectuer l’action appropriée.
Ensuite, Jessica a montré comment les GPT se sont connectés avec succès à son calendrier et ont extrait les informations de l’événement. Elle a également demandé aux GPT de vérifier les conflits sur le calendrier et a montré qu’il avait réussi à en identifier un. Elle montre ensuite comment faire savoir à une personne nommée Sam qu’elle doit partir plus tôt et passer à une conversation avec Sam pour lui demander de le faire.
Lorsque GPT a terminé la demande, Jessica a demandé à Sam si elle avait reçu la notification, et Sam a confirmé la réception. Jessica a utilisé cela comme exemple pour illustrer le potentiel des TPG et a exprimé son impatience de voir ce que d’autres construiraient.
Sam a ensuite présenté d’autres exemples de GPT. Il a mentionné qu’en plus de ceux démontrés, il y a beaucoup de GPT qui sont en cours de création et qui le seront bientôt. Il s’est rendu compte que beaucoup de gens qui voulaient construire GPT ne pouvaient pas programmer, alors ils ont rendu possible pour les gens de programmer GPT par le biais de la conversation. Altman pense que le langage naturel sera une partie importante de la façon dont les gens utiliseront les ordinateurs à l’avenir, et considère cela comme un exemple précoce intéressant.
Ensuite, Altman montre comment construire un GPT. Il voulait créer un GPT qui aiderait les fondateurs et les développeurs à fournir des conseils lors du lancement de nouveaux projets. Il entre dans le constructeur GPT, lui dit ce qu’il veut, et GPT commence à construire des instructions détaillées basées sur sa description. Il propose également un nom « Startup Mentor » et commence à se remplir d’informations et de questions possibles en mode aperçu. Altman a téléchargé une transcription de son précédent discours sur l’entrepreneuriat pour fournir des conseils basés sur celui-ci, ajoutant « des commentaires concis et constructifs » à la directive.
Altman a ensuite essayé ce GPT dans la balise de prévisualisation et a été satisfait des résultats. Il a décidé de se le poster à lui-même pour le moment, afin de pouvoir l’affiner et le partager plus tard. Il a mentionné qu’il avait toujours voulu créer un tel robot et qu’il était maintenant heureux de pouvoir le réaliser. Altman a souligné que les GPT permettent aux gens de partager et de découvrir facilement des choses intéressantes qu’ils font avec ChatGPT. Les gens peuvent créer des GPT en privé, ou partager leurs créations publiquement via des liens, ou créer des GPT uniquement pour leur entreprise s’ils utilisent ChatGPT Enterprise. Ils prévoient de lancer un magasin GPT plus tard ce mois-ci, où les gens peuvent répertorier les GPT, et OpenAI présentera les meilleurs et les plus populaires GPT.
Altman a également mentionné qu’OpenAI veillera à ce que les GPT dans les magasins suivent leurs politiques, et qu’OpenAI valorise le partage des revenus et versera une partie des revenus à ceux qui construisent les GPT les plus utiles et les plus populaires. Ils sont impatients de favoriser un écosystème dynamique grâce à la boutique GPT et sont enthousiastes à l’idée que davantage d’informations seront partagées.
Altman a également souligné qu’il s’agit d’une conférence pour les développeurs qui apportent les mêmes concepts aux API. Il a mentionné que de nombreuses personnes ont déjà créé des expériences de type proxy sur des API, telles que Shopify Sidekick et Collide de Discord, ainsi que mon IA, un chatbot personnalisé qui peut être ajouté aux discussions de groupe et fournir des recommandations. Ces expériences sont formidables, mais leur construction est souvent difficile, prenant parfois des mois et des équipes de dizaines d’ingénieurs. Pour simplifier ce processus, ils ont lancé une nouvelle API d’assistance.
L’API d’assistance comprend des threads persistants, un interpréteur de code de récupération intégré, un interpréteur Python fonctionnel et un environnement sandbox, ainsi que la fonctionnalité d’appel de fonction améliorée dont ils ont parlé précédemment.
Raman, responsable de l’expérience des développeurs chez OpenAI, a ensuite montré comment cela fonctionne. Ramon se dit encouragé de voir autant de personnes intégrer l’IA dans leurs applications. Ramon a annoncé que non seulement ils introduisent de nouveaux modèles dans l’API, mais qu’ils sont également ravis d’améliorer l’expérience des développeurs afin qu’il soit plus facile pour les gens de créer des agents secondaires. Il montre ensuite directement le processus de construction.
Ramon a présenté l’application de voyage qu’il est en train de créer appelée « wanderlust » pour les explorateurs du monde entier. Il a également présenté des idées de destinations générées avec GPT-4, ainsi que l’utilisation du nouveau DALL· Illustrations générées par programmation par l’API E 3. Par la suite, Ramon a montré comment améliorer l’application en ajoutant un assistant simple. Il passe au nouveau terrain de jeu des outils d’assistance, crée un assistant, lui donne un nom, fournit des instructions initiales, sélectionne le modèle, active l’interpréteur de code et les fonctions de récupération, puis enregistre.
Ramon a ensuite expliqué comment intégrer l’assistant dans l’application, en examinant une partie du code et en montrant comment créer un nouveau fil de discussion pour chaque nouvel utilisateur et ajouter ses messages à ces fils de discussion. Il montre également comment exécuter l’assistant à tout moment pour renvoyer la réponse à l’application.
Ensuite, Ramon a montré l’appel de fonction, une fonctionnalité qu’il a particulièrement appréciée. Les appels de fonction garantissent désormais la sortie JSON, et plusieurs fonctions peuvent être appelées en même temps. Il a ensuite montré comment l’assistant connaît les caractéristiques pour inclure des étiquettes sur la carte de droite et ajoute des marqueurs à la carte en temps réel.
Ramon discute également de la fonction de récupération, qui consiste à donner aux assistants plus de connaissances que la messagerie instantanée des utilisateurs. Il télécharge un fichier PDF, qui est lu par le système et affiché à l’écran. Il glisse ensuite et dépose également les informations de réservation d’Airbnb dans la conversation.
Ramon a souligné que les développeurs ont généralement besoin de calculer des intégrations, de mettre en place des algorithmes de segmentation, et maintenant tout cela est géré par la nouvelle API avec état. Il montre également le tableau de bord du développeur où vous pouvez voir les étapes suivies par l’outil, y compris les fonctions qui ont été appelées et les fichiers PDF qui ont été téléchargés.
Ramon a ensuite discuté d’une nouvelle fonctionnalité que de nombreux développeurs attendaient : l’interpréteur de code, qui est désormais également disponible dans l’API. Il permet à l’IA d’écrire et d’exécuter du code et même de générer des fichiers à la volée. Il montre comment un interpréteur de code fonctionnerait si vous prononcez un problème qui nécessite une conversion de devise et des calculs de jours. Enfin, Ramon explique comment créer rapidement un agent capable de gérer l’état des conversations des utilisateurs, de tirer parti d’outils externes tels que la récupération de connaissances et les interpréteurs de code, et d’appeler ses propres fonctions pour implémenter des fonctionnalités.
Ramon a également introduit des fonctionnalités qui combinent des modèles et des appels de fonctionnalités nouvellement publiés, et il a créé un assistant personnalisé pour le Dev Day. De plus, il a décidé d’utiliser la voix au lieu de l’interface de chat. Il a montré une application Swift simple qui peut recevoir l’entrée du microphone et afficher ce qui se passe en arrière-plan dans les journaux du terminal. Il a utilisé le chuchotement pour convertir la saisie vocale en texte, a utilisé l’assistant de GPT-4 Turbo et a utilisé la nouvelle API TTS pour le faire sonner.
Ramon montre également comment l’assistant peut se connecter à Internet et effectuer des actions réelles pour l’utilisateur. Il a proposé à l’assistant de donner 500 $ en crédits OpenAI à cinq participants aléatoires à la journée des développeurs, et l’assistant a accompli la tâche avec succès.
Enfin, dans son discours de clôture de la journée des développeurs d’OpenAI, Sam Altman a déclaré que l’API Assistive était en phase de test bêta et qu’il était impatient de voir comment les développeurs l’utiliseront. Il a souligné que GPT et les outils d’assistance sont des pionniers sur la voie d’agents plus complexes qui seront en mesure de planifier et d’exécuter des tâches plus complexes pour les utilisateurs.
Altman réitère l’importance des déploiements itératifs progressifs et encourage les gens à commencer à utiliser ces agents dès maintenant afin de s’adapter à un monde futur où ils deviendront plus capables. Il a assuré qu’OpenAI continuerait à mettre à jour le système en fonction des commentaires des utilisateurs, affirmant qu’OpenAI avait une densité de talents exceptionnelle, mais qu’il fallait encore beaucoup d’efforts et de coordination pour y parvenir. Il a l’impression d’avoir les meilleurs collègues au monde et est incroyablement reconnaissant de pouvoir travailler avec eux.
Voici pourquoi l’équipe d’OpenAI travaille si dur : elle est convaincue que l’IA fera partie d’une révolution technologique et sociale qui changera le monde à bien des égards. Altman a mentionné qu’ils avaient discuté plus tôt qu’en donnant aux gens de meilleurs outils, ils pourraient changer le monde. Il est convaincu que l’IA apportera une autonomisation personnelle et une échelle d’action sans précédent, élevant ainsi l’humanité à un niveau sans précédent. À mesure que l’intelligence devient de plus en plus omniprésente, nous avons tous des superpouvoirs à tout moment. Il est enthousiaste à l’idée de la façon dont vous utiliserez la technologie et du nouvel avenir que nous construisons ensemble.