En el lanzamiento del primer día del desarrollador de OpenAI, Sam Altman explicó una serie de desarrollos importantes para la compañía, no limitados a GPT-4 Turbo, un nuevo modelo con más potencia, contexto más largo y más control, así como el lanzamiento de la API de asistencia para simplificar la experiencia de los desarrolladores para crear agentes asistidos, OpenAI destacó que el lenguaje natural será una forma importante de interactuar con las computadoras en el futuro, y también introdujo la programación GPT a través de la conversación Altman anunció el próximo lanzamiento de GPT Store, que permitirá a los usuarios compartir y descubrir aplicaciones innovadoras de GPT y proporcionar incentivos de participación en los ingresos. Altman también habló sobre la profundización de la colaboración con Microsoft, mostrando el nuevo modelo de texto a voz y las llamadas de características mejoradas, que se pueden resumir en las siguientes sesiones:
GPT-4 Turbo: Se han lanzado nuevos modelos, con mayor longitud de contexto y control más preciso.
API de asistencia: Proporciona un proceso simplificado para que los desarrolladores creen un agente secundario.
Programación en lenguaje natural: Muestra cómo crear GPT a través de conversaciones.
GPT Store: Permite a los usuarios compartir y descubrir aplicaciones GPT y proporciona un reparto de ingresos para los creadores.
• Colaboración con Microsoft: Se presentó un nuevo modelo de texto a voz, así como un discurso del CEO de Microsoft, Satya Nadella.
Agradecimiento del equipo: Altman expresó su gratitud al equipo de OpenAI por su trabajo.
Tech Showcase: Se mostraron nuevas funciones, incluida una demostración de aplicaciones de viajes y un asistente activado por voz.
Aquí está todo el contenido completo del primer día del desarrollador de OpenAI:
En primer lugar, Altman recuerda el lanzamiento de ChatGPT el 30 de noviembre como un avance de investigación discreto y anuncia con orgullo el lanzamiento de GPT-4 en marzo, el modelo más potente del mundo en este momento.
Altman también presentó las capacidades visuales y de voz introducidas en ChatGPT en los últimos meses, dándole la capacidad de ver, oír y hablar, y anunció que DALL· El lanzamiento de E 3, el modelo de imagen más avanzado del mundo y que se ha integrado en ChatGPT.
Para los clientes de nivel empresarial, OpenAI lanzó ChatGPT Enterprise, que proporciona un acceso GPT más rápido, ventanas de contexto más largas y más protecciones de seguridad y privacidad de nivel empresarial. Altman reveló que alrededor de 2 millones de desarrolladores están utilizando sus API, más del 92% de las empresas de Fortune 500 están creando soluciones basadas en sus productos y ChatGPT ahora tiene alrededor de 100 millones de usuarios activos semanales. En particular, señaló que este logro depende completamente del boca a boca, ya que los usuarios encuentran útil el producto y lo recomiendan a sus amigos. Concluyó señalando que, si bien los datos son impresionantes, lo que es más importante es cómo las personas están usando estos productos y cómo están aprovechando la IA, y luego mostró un video que visualiza estos avances.
En la conferencia de desarrolladores de OpenAI, Sam Altman nos mostró cómo la IA puede tener un impacto profundo en la vida personal y la creatividad de las personas en un video. Uno de los casos del video habla de un hombre que usa ChatGPT de una manera no romántica, sino respetuosa y cariñosa, para decirle a su padre su amor y apoyo en el idioma nativo de su padre, el tagalo, y una estructura gramatical compleja. Este caso demuestra la capacidad de ChatGPT para comprender y aplicar matices culturales y lingüísticos.
Según Altman, las aplicaciones creativas de ChatGPT son increíbles y pueden ayudar a los creadores a ampliar su pensamiento y aumentar su confianza. Un ejemplo es alguien que usa ChatGPT para ayudarlo con las tareas cotidianas, como verificar lo que falta en el refrigerador, planificar una receta vegetariana o incluso ayudar a crear hojas de cálculo y escribir código, y el personaje de otro video descubre la afinidad, la paciencia, el conocimiento y la capacidad de respuesta de ChatGPT. Para una estudiante 4.0 y madre de cuatro hijos, la capacidad de ChatGPT para proporcionar respuestas a preguntas y explicaciones reduce su dependencia de los tutores y le permite pasar más tiempo con su familia y consigo misma. Finalmente, también hay un hombre en el video que cuenta cómo se vio limitado al uso de su mano izquierda después de someterse a una cirugía de médula espinal y cerebro. Ahora, mediante el uso de la entrada de voz y las funciones conversacionales de ChatGPT, este usuario ha sido muy ayudado y facilitado. Estas historias de casos ilustran el potencial de ChatGPT para ayudar en la vida diaria, apoyar el aprendizaje y superar obstáculos, al tiempo que demuestran cómo la IA puede conectar y empoderar a los usuarios a escala global como nunca antes.
A continuación, Sam Altman compartió cómo la gente está aprovechando su tecnología y enfatizó que es exactamente lo que hacen. A continuación, anunció una serie de novedades. Altman dice que han pasado mucho tiempo hablando con desarrolladores de todo el mundo y escuchando sus comentarios, lo que ha tenido un profundo impacto en lo que vamos a mostrar hoy.
OpenAI ha lanzado un nuevo modelo, GPT-4 Turbo. Este nuevo modelo abordará las necesidades de muchos desarrolladores. Detalló seis actualizaciones importantes: la primera es la longitud del contexto, GPT-4 admite contextos de hasta 8.000 tokens, y en algunos casos puede llegar a 32.000. GPT-4 Turbo admite contextos de hasta 128.000 tokens, lo que equivale a 300 páginas de un libro estándar y 16 veces más largo que el contexto de 8.000 tokens. Además de la mayor longitud del contexto, también se ha mejorado significativamente la precisión de este modelo cuando se trata de contextos largos.
La segunda actualización es más control. Para dar a los desarrolladores más control sobre las respuestas y los resultados del modelo, han introducido una nueva característica llamada Esquema JSON para garantizar que los modelos respondan a un JSON válido, lo que simplificará en gran medida las llamadas a la API. El modelo también ha mejorado en términos de llamadas a funciones, lo que permite llamar a varias funciones al mismo tiempo y seguir mejor las instrucciones. También introdujeron una nueva característica llamada "Salida reproducible", que permite que el modelo devuelva una salida consistente al pasar un parámetro semilla, lo que obviamente proporciona un mayor grado de control sobre el comportamiento del modelo. Esta función se encuentra actualmente en versión beta.
En las próximas semanas, lanzarán una nueva función que permitirá ver los sondeos de registro en la API. La tercera actualización es un mejor conocimiento del mundo. Para dar al modelo acceso a un conocimiento más preciso del mundo, introdujeron una función de recuperación que permite extraer conocimiento de documentos o bases de datos externos. También han actualizado la fecha límite de conocimiento, y el conocimiento mundial de GPT-4 Turbo se ha actualizado a abril de 2023 y seguirá mejorando.
La cuarta actualización es una nueva modalidad, DALL· E 3, las capacidades visuales de GPT-4 Turbo y el nuevo modelo de texto a voz están llegando hoy a la API, y un puñado de clientes ya están usando DALL· E 3 Genera imágenes y diseños mediante programación. Hoy, Coca-Cola lanza una campaña para permitir que los clientes utilicen DALL· E 3 Genere tarjetas de felicitación de Diwali.
Por supuesto, sus sistemas de seguridad ayudan a los desarrolladores a evitar que las aplicaciones se utilicen indebidamente, y estas herramientas se pueden utilizar en las API. GPT-4 Turbo ahora puede aceptar la entrada de imágenes a través de la API y generar subtítulos, clasificaciones y análisis. Por ejemplo, Miis utiliza esta tecnología para ayudar a las personas ciegas o con baja visión en tareas cotidianas, como identificar el producto que tienen delante. Y con el nuevo modelo de texto a voz, podrás generar audio con un sonido natural a partir del texto de la API, con seis sonidos preestablecidos para elegir.
Altman puso un ejemplo de sonido que mostraba la naturalidad de su nuevo modelo de texto a voz. Esta tecnología de voz a voz hace que la interacción de la aplicación sea más natural y accesible, y desbloquea muchos casos de uso, como el aprendizaje de idiomas y los asistentes de voz.
Altman también anunció la próxima versión de su modelo de reconocimiento de voz de código abierto, Whisper v3, y dijo que pronto agregará API. Esta versión ha mejorado el rendimiento en varios idiomas, y cree que a los desarrolladores les gustará mucho.
A continuación, abordó el tema de la personalización. Desde el lanzamiento de GPT 3.5 hace unos meses, la función de ajuste fino ha funcionado bien. A partir de hoy, esto se extenderá a la versión de 16K del modelo. También invitan a los usuarios que utilizan activamente el ajuste fino a solicitar el Programa de Acceso a Experimentos de Ajuste Fino GPT-4. La API de ajuste fino es ideal para mejorar el rendimiento de un modelo con relativamente pocos datos en una variedad de aplicaciones, ya sea para aprender áreas de conocimiento completamente nuevas o para trabajar con grandes cantidades de datos propietarios.
En la quinta actualización, Altman anunció una nueva iniciativa llamada "Modelos personalizados", en la que los investigadores de OpenAI trabajarán en estrecha colaboración con la empresa para utilizar sus herramientas para crear modelos personalizados especializados para casos de uso específicos. Esto incluye la modificación de cada paso del proceso de entrenamiento del modelo, la realización de un entrenamiento previo específico del dominio, la personalización del proceso posterior al entrenamiento de aprendizaje por refuerzo, etc. Admite que al principio no podrán trabajar con muchas empresas, lo que supondrá mucho trabajo y no barato, al menos inicialmente. Pero si hay empresas que buscan llevar las cosas a sus límites actuales, comunícate con ellas.
Además, Altman anunció límites de tasas más altos. Duplicarán el número de tokens por minuto para todos los clientes existentes de GPT-4, lo que facilitará hacer más, y pueden solicitar más cambios en el límite de velocidad y la cuota directamente en la configuración de la cuenta de la API. Además de estos límites de velocidad, también han introducido el Escudo de derechos de autor, lo que significa que si un cliente se enfrenta a una reclamación legal por infracción de derechos de autor, OpenAI intervendrá para proteger al cliente y cubrir los costes incurridos. Esto se aplica tanto a ChatGPT Enterprise como a las API. Recuerda claramente a todo el mundo que nunca utilizan datos de las API o de ChatGPT Enterprise para el entrenamiento.
Altman continuó hablando sobre una solicitud de desarrollador que era más grande que todas las anteriores, y ese era el problema de los precios. Anunció que GPT-4 Turbo no solo es más inteligente que GPT-4, sino también más barato, lo que provocó una reducción de 3 veces en el token y una reducción de 2 veces en el token de finalización. El nuevo precio es de 0,01 dólares por cada 1.000 tokens de solicitud y de 0,03 dólares por cada 1.000 tokens de finalización. Esto hace que la tasa combinada de GPT-4 Turbo sea más de 2,75 veces más barata que la de GPT-4. Han trabajado muy duro para lograrlo y esperan que todos se entusiasmen con ello.
Tuvieron que elegir entre precio y velocidad a la hora de decidir priorizar el tema del precio, pero a continuación trabajarán en aumentar la velocidad. También anunció un recorte de precio para el GPT 3.5 Turbo 16K, con una reducción de 3 veces en los tokens de entrada y una reducción de 2 veces en los tokens de salida, lo que significa que GPT 3.516K es ahora más barato que el modelo GPT 3.54K anterior. La versión GPT 3.5 Turbo 16K también es más barata de ejecutar que la versión 4K más antigua y ajustada, y espera que los cambios aborden los comentarios de todos y está emocionado de llevar estas mejoras a todos.
Al presentarlo todo, mencionó que OpenAI tiene la suerte de tener un socio que desempeña un papel vital para hacer esto posible. Así que trajo a un invitado especial, Satya Nadella, CEO de Microsoft.
Nadella recuerda que se encontró por primera vez con OpenAI, donde Altman le preguntó si tenía algunos créditos de Azure disponibles, y han recorrido un largo camino desde entonces. Elogió a OpenAI por construir algo mágico y compartió dos de los pensamientos de Microsoft sobre la asociación: primero, las cargas de trabajo, donde trabajan juntos para construir sistemas que admitan los modelos que OpenAI está construyendo, desde la energía hasta los centros de datos, pasando por los racks y aceleradores, y las redes. El objetivo de Microsoft es construir el mejor sistema para que OpenAI pueda construir el mejor modelo y ponerlo a disposición de los desarrolladores. En segundo lugar, Microsoft es un desarrollador y está creando productos. Nadella mencionó que cuando conoció a GitHub Copilot y GPT, su creencia en toda la generación de modelos base cambió por completo. Están comprometidos a construir su producto sobre las API de OpenAI y esperan que GitHub Copilot Enterprise esté disponible para que todos los asistentes lo prueben.
Altman también le preguntó a Nadella su opinión sobre el futuro de las asociaciones y el futuro de la IA. Nadella enfatizó que Microsoft está totalmente comprometido a proporcionar los sistemas y recursos informáticos necesarios para respaldar a OpenAI en su audaz progreso en su hoja de ruta. Se comprometen a proporcionar los mejores sistemas de entrenamiento e inferencia, así como la mayor cantidad de recursos informáticos, para que OpenAI pueda continuar impulsando la vanguardia. Nadella cree que el verdadero valor de la IA radica en su capacidad para empoderar a las personas, lo que se alinea con la misión de OpenAI y Microsoft de empoderar a todas las personas y organizaciones del planeta para que hagan más. Mencionó que la seguridad es un enfoque clave en su colaboración, y que es un enfoque de sus esfuerzos conjuntos, no una ocurrencia tardía. Las palabras de Nadella subrayan la profundidad y el propósito de la asociación de OpenAI y Microsoft, lo que demuestra la visión compartida de las dos compañías para impulsar el crecimiento y la adopción de la IA.
A continuación, Altman pasó al tema de la conferencia y, aunque se trataba de una conferencia para desarrolladores, introdujeron algunas mejoras en ChatGPT. Ahora, ChatGPT utiliza GPT-4 Turbo y todas las últimas mejoras, incluidos los últimos tiempos de corte de conocimiento, y seguirá actualizándose, que ya están vigentes el mismo día. ChatGPT ahora puede navegar por la web, escribir y ejecutar código, analizar datos, generar imágenes y mucho más cuando sea necesario. También han escuchado los comentarios de los usuarios de que el selector de modelos es extremadamente molesto y, por lo tanto, se ha eliminado. A partir de hoy, los usuarios no tienen que hacer clic en un menú desplegable, y ChatGPT sabrá automáticamente qué función usar y cuándo.
Altman señala que, si bien el precio es un tema importante, no es lo principal en la solicitud del desarrollador. Creen que si a las personas se les dan mejores herramientas, harán cosas increíbles. La gente quiere que la IA sea más inteligente, más personalizada, más personalizable y capaz de hacer más en nombre del usuario. Eventualmente, el usuario simplemente solicita la PC y hace todas estas tareas por usted. En el campo de la IA, estas capacidades a menudo se denominan "agentes". Para abordar la seguridad de la IA, OpenAI cree que un despliegue gradual e iterativo es el mejor enfoque, y cree que es especialmente importante avanzar con cautela hacia el futuro de este "agente". Esto requerirá mucho trabajo técnico y mucha reflexión por parte de la sociedad.
Así que dieron el primer pequeño paso hacia este futuro. Altman estaba encantado de presentar GPT, la versión de ChatGPT diseñada para un propósito específico. Puede crear una versión personalizada de ChatGPT de casi cualquier cosa con instrucciones, conocimientos extendidos y acciones, y luego publicarla para que otros la usen. Debido a que combinan instrucciones, conocimiento extendido y acción, pueden ser más útiles, adaptarse mejor a múltiples contextos y proporcionar un mejor control.
Harán que sea más fácil realizar varias tareas o simplemente lo harán más divertido para ti. Puedes usarlos directamente en ChatGPT. En realidad, puedes programar GPT en lenguaje hablando con él. Es fácil personalizar el comportamiento para que se adapte a sus necesidades. Esto hace que sea muy fácil construirlos y empodera a todos.
Altman continuó diciendo que mostrarán qué son los GPT, cómo usarlos, cómo construirlos, y luego discutirán cómo se distribuirán y descubrirán. A continuación, los desarrolladores mostrarán cómo crear estas experiencias similares a las de los agentes en sus propias aplicaciones.
Presentó algunos ejemplos. Los socios de Code.org están trabajando para ampliar el plan de estudios de ciencias de la computación de la escuela, y tienen cursos utilizados por decenas de millones de estudiantes en todo el mundo. Code.org ha desarrollado un plan de lecciones y GPT para ayudar a los maestros a brindar una experiencia más atractiva para los estudiantes de secundaria. Por ejemplo, si el profesor pide una forma creativa de explicar el bucle, lo hará, y en este caso, lo explicará con la forma en que un personaje de un videojuego recoge monedas repetidamente, lo cual es muy fácil de entender para un niño de octavo grado. Este GPT combina el amplio plan de estudios y la experiencia de code.org, lo que permite a los profesores adaptarse rápida y fácilmente a sus necesidades.
A continuación, Canva crea un GPT en el que puedes comenzar a trabajar en el diseño describiendo el diseño que deseas en lenguaje natural. Si dices, haz un póster para la recepción del Día del Desarrollo esta tarde y proporciona algunos detalles, generará algunas opciones de inicio llamando a la API de Canva.
Altman señala que el concepto puede ser familiar para algunos. Desarrollaron el plugin en una acción personalizada para GPT. Puedes seguir chateando con este para ver las diferentes iteraciones, y cuando veas la que te gusta, puedes hacer clic para viajar a Canva y disfrutar de la experiencia de diseño completa.
Luego, quisieron mostrar un GPT en vivo. Zapier ha creado un GPT que le permite realizar acciones en 6000 aplicaciones, desbloqueando una amplia gama de posibilidades de integración. Altman presentó a Jessica, arquitecta de soluciones de OpenAI, quien estará a cargo de la presentación.
La arquitecta de soluciones Jessica Shei subió al escenario y rápidamente comenzó la demostración, con Jessica señalando que los GPT se ubicarían en la esquina superior izquierda de la interfaz y mostrando un ejemplo llamado acciones de IA de Zapier. Mostró su calendario del día y mencionó que había conectado GPT a su calendario.
Durante la presentación, Jessica preguntó sobre el horario del día. Enfatizó que los GPT se construyen teniendo en cuenta la seguridad, y el sistema solicita el permiso del usuario antes de compartir cualquier acción o datos. Permite que los GPT accedan a su programación y explica que los GPT están diseñados para recibir instrucciones del usuario para decidir qué función invocar para realizar la acción adecuada.
A continuación, Jessica mostró cómo los GPT se conectaron con éxito a su calendario y extrajeron la información del evento. También dio instrucciones a los GPT para que comprobaran si había conflictos en el calendario y demostró que había identificado con éxito uno. Luego demuestra cómo hacerle saber a una persona llamada Sam que necesita irse temprano y cambiar a una conversación con Sam para solicitarlo.
Cuando GPT completó la solicitud, Jessica le preguntó a Sam si había recibido la notificación, y Sam confirmó la recepción. Jessica usó esto como ejemplo para ilustrar el potencial de los GPT y expresó su anticipación de ver lo que otros construirían.
A continuación, Sam presentó más ejemplos de GPT. Mencionó que además de los demostrados, hay muchos GPT que se están creando y se crearán próximamente. Se dio cuenta de que muchas personas que querían construir GPT no podían programar, por lo que hicieron posible que la gente programara GPT a través de la conversación. Altman cree que el lenguaje natural será una parte importante de la forma en que las personas usarán las computadoras en el futuro, y ve esto como un ejemplo temprano interesante.
A continuación, Altman muestra cómo construir un GPT. Quería crear un GPT que ayudara a los fundadores y desarrolladores a asesorar a la hora de lanzar nuevos proyectos. Entra en el constructor de GPT, le dice lo que quiere y GPT comienza a crear instrucciones detalladas basadas en su descripción. También se le ocurre un nombre "Startup Mentor" y comienza a llenarse con información y posibles preguntas en modo de vista previa. Altman subió una transcripción de su discurso anterior sobre emprendimiento para brindar consejos basados en él, agregando "comentarios concisos y constructivos" a la directiva.
Altman probó este GPT en la etiqueta de vista previa y quedó satisfecho con los resultados. Decidió publicárselo a sí mismo por el momento, para poder refinarlo aún más y compartirlo más tarde. Mencionó que siempre había querido crear un robot de este tipo y que ahora estaba feliz de poder hacerlo realidad. Altman enfatizó que los GPT permiten a las personas compartir y descubrir fácilmente cosas interesantes que hacen con ChatGPT. Las personas pueden crear GPT de forma privada, o compartir sus creaciones públicamente a través de enlaces, o hacer GPT solo para su empresa si usan ChatGPT Enterprise. Planean lanzar una tienda GPT a finales de este mes, donde la gente puede enumerar GPT, y OpenAI contará con los mejores y más populares GPT.
Altman también mencionó que OpenAI se asegurará de que los GPT en las tiendas sigan sus políticas, y que OpenAI valora el reparto de ingresos y pagará una parte de los ingresos a aquellos que construyan los GPT más útiles y populares. Esperan fomentar un ecosistema vibrante a través de la GPT Store y están entusiasmados con la mayor información que se compartirá.
Altman también enfatizó que esta es una conferencia para desarrolladores que están llevando los mismos conceptos a las API. Mencionó que muchas personas ya han creado experiencias similares a las de un proxy en las API, como Shopify Sidekick y Collide de Discord, así como my AI, un chatbot personalizado que se puede agregar a los chats grupales y brindar recomendaciones. Estas experiencias son geniales, pero construirlas a menudo es difícil, a veces lleva meses y equipos de docenas de ingenieros. Para simplificar este proceso, han lanzado una nueva API de asistencia.
La API de asistencia incluye subprocesos persistentes, un intérprete de código de recuperación integrado, un intérprete de Python y un entorno de espacio aislado que funcionan, y la funcionalidad mejorada de llamada a funciones que se describió anteriormente.
A continuación, Raman, Jefe de Experiencia de Desarrollador de OpenAI, mostró cómo funciona esto. Ramón dice que le anima ver a tanta gente incorporando la IA en sus aplicaciones. Ramon anunció que no solo están introduciendo nuevos patrones en la API, sino que también están entusiasmados por mejorar la experiencia de los desarrolladores para que sea más fácil para las personas crear agentes secundarios. A continuación, muestra directamente el proceso de compilación.
Ramón presentó la aplicación de viajes que está construyendo llamada "wanderlust" para exploradores de todo el mundo. También mostró ideas de destinos generadas con GPT-4, así como el uso del nuevo DALL· Ilustraciones generadas mediante programación por la API de E 3. Posteriormente, Ramón mostró cómo mejorar la aplicación agregando un asistente simple. Cambia al nuevo patio de herramientas de asistencia, crea un asistente, le da un nombre, proporciona instrucciones iniciales, selecciona el modelo, habilita el intérprete de código y las funciones de recuperación y, a continuación, guarda.
Ramón continuó explicando cómo integrar el asistente en la aplicación, observando parte del código y demostrando cómo crear un nuevo hilo para cada nuevo usuario y agregar sus mensajes a esos hilos. También muestra cómo ejecutar el asistente en cualquier momento para devolver la respuesta a la aplicación.
A continuación, Ramón mostró la llamada de función, una característica que le gustó especialmente. Las llamadas a funciones ahora garantizan la salida JSON y se pueden llamar a varias funciones al mismo tiempo. A continuación, demostró cómo el asistente conoce las entidades para incluir etiquetas en el mapa de la derecha y agrega marcadores al mapa en tiempo real.
Ramón también habla de la función de recuperación, que consiste en dar a los asistentes más conocimientos que la mensajería instantánea del usuario. Carga un archivo PDF, que es leído por el sistema y se muestra en la pantalla. A continuación, arrastra y suelta la información de la reserva de Airbnb también en la conversación.
Ramon enfatizó que los desarrolladores normalmente necesitan calcular incrustaciones, configurar algoritmos de fragmentación, y ahora todo esto es manejado por la nueva API con estado. También muestra el panel de control del desarrollador, donde puede ver los pasos realizados por la herramienta, incluidas las funciones a las que se llamó y los archivos PDF que se cargaron.
A continuación, Ramón habló de una nueva característica que muchos desarrolladores han estado esperando: el intérprete de código, que ahora también está disponible en la API. Permite a la IA escribir y ejecutar código e incluso generar archivos sobre la marcha. Demuestra cómo funcionaría un intérprete de código si se dice un problema que requiere conversión de moneda y cálculos de días. Por último, Ramon describe cómo crear rápidamente un agente que pueda gestionar el estado de las conversaciones de los usuarios, aprovechar herramientas externas como la recuperación de conocimientos y los intérpretes de código, y llamar a sus propias funciones para implementar la funcionalidad.
Ramon también introdujo características que combinan patrones recién lanzados y llamadas de características, y creó un asistente personalizado para el Día del Desarrollo. Además, decidió usar la voz en lugar de la interfaz de chat. Mostró una sencilla aplicación Swift que puede recibir la entrada del micrófono y mostrar lo que está sucediendo en segundo plano en los registros de la terminal. Utilizó el susurro para convertir la entrada de voz en texto, utilizó el asistente de GPT-4 Turbo y utilizó la nueva API TTS para hacerlo sonar.
Ramon también demuestra cómo el asistente puede conectarse a Internet y realizar acciones del mundo real para el usuario. Se ofreció a que el asistente diera 500 dólares en créditos de OpenAI a cinco participantes aleatorios del Dev Day, y el asistente completó con éxito la tarea.
Finalmente, en sus comentarios finales en el Día del Desarrollador de OpenAI, Sam Altman dijo que la API de asistencia está en pruebas beta y que está emocionado de ver cómo la usarán los desarrolladores. Enfatizó que GPT y las herramientas de asistencia son pioneras en el camino hacia agentes más complejos que podrán planificar y ejecutar tareas más complejas para los usuarios.
Altman reitera la importancia de los despliegues iterativos graduales y anima a las personas a comenzar a usar estos agentes ahora para adaptarse a un mundo futuro en el que se vuelvan más capaces. Aseguró que OpenAI continuará actualizando el sistema en función de los comentarios de los usuarios, diciendo que OpenAI tiene una densidad de talento sobresaliente, pero aún se necesita mucho esfuerzo y coordinación para lograr todo esto. Siente que tiene a los mejores colegas del mundo y está increíblemente agradecido de poder trabajar con ellos.
He aquí por qué el equipo de OpenAI está trabajando tan duro: creen que la IA será parte de una revolución tecnológica y social que cambiará el mundo de muchas maneras. Altman mencionó que habían discutido anteriormente que al darle a la gente mejores herramientas, podrían cambiar el mundo. Cree que la IA aportará un empoderamiento personal y una escala de agencia sin precedentes, elevando así a la humanidad a un nivel sin precedentes. A medida que la inteligencia se vuelve más omnipresente, todos tenemos superpoderes en todo momento. Está entusiasmado con la forma en que usará la tecnología y el nuevo futuro que estamos construyendo juntos.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
La primera conferencia de desarrolladores de OpenAI: GPT-4 Turbo, GPT Store
Fuente: Hay un nuevo Newin
En el lanzamiento del primer día del desarrollador de OpenAI, Sam Altman explicó una serie de desarrollos importantes para la compañía, no limitados a GPT-4 Turbo, un nuevo modelo con más potencia, contexto más largo y más control, así como el lanzamiento de la API de asistencia para simplificar la experiencia de los desarrolladores para crear agentes asistidos, OpenAI destacó que el lenguaje natural será una forma importante de interactuar con las computadoras en el futuro, y también introdujo la programación GPT a través de la conversación Altman anunció el próximo lanzamiento de GPT Store, que permitirá a los usuarios compartir y descubrir aplicaciones innovadoras de GPT y proporcionar incentivos de participación en los ingresos. Altman también habló sobre la profundización de la colaboración con Microsoft, mostrando el nuevo modelo de texto a voz y las llamadas de características mejoradas, que se pueden resumir en las siguientes sesiones:
Aquí está todo el contenido completo del primer día del desarrollador de OpenAI:
En primer lugar, Altman recuerda el lanzamiento de ChatGPT el 30 de noviembre como un avance de investigación discreto y anuncia con orgullo el lanzamiento de GPT-4 en marzo, el modelo más potente del mundo en este momento.
Altman también presentó las capacidades visuales y de voz introducidas en ChatGPT en los últimos meses, dándole la capacidad de ver, oír y hablar, y anunció que DALL· El lanzamiento de E 3, el modelo de imagen más avanzado del mundo y que se ha integrado en ChatGPT.
Para los clientes de nivel empresarial, OpenAI lanzó ChatGPT Enterprise, que proporciona un acceso GPT más rápido, ventanas de contexto más largas y más protecciones de seguridad y privacidad de nivel empresarial. Altman reveló que alrededor de 2 millones de desarrolladores están utilizando sus API, más del 92% de las empresas de Fortune 500 están creando soluciones basadas en sus productos y ChatGPT ahora tiene alrededor de 100 millones de usuarios activos semanales. En particular, señaló que este logro depende completamente del boca a boca, ya que los usuarios encuentran útil el producto y lo recomiendan a sus amigos. Concluyó señalando que, si bien los datos son impresionantes, lo que es más importante es cómo las personas están usando estos productos y cómo están aprovechando la IA, y luego mostró un video que visualiza estos avances.
En la conferencia de desarrolladores de OpenAI, Sam Altman nos mostró cómo la IA puede tener un impacto profundo en la vida personal y la creatividad de las personas en un video. Uno de los casos del video habla de un hombre que usa ChatGPT de una manera no romántica, sino respetuosa y cariñosa, para decirle a su padre su amor y apoyo en el idioma nativo de su padre, el tagalo, y una estructura gramatical compleja. Este caso demuestra la capacidad de ChatGPT para comprender y aplicar matices culturales y lingüísticos.
Según Altman, las aplicaciones creativas de ChatGPT son increíbles y pueden ayudar a los creadores a ampliar su pensamiento y aumentar su confianza. Un ejemplo es alguien que usa ChatGPT para ayudarlo con las tareas cotidianas, como verificar lo que falta en el refrigerador, planificar una receta vegetariana o incluso ayudar a crear hojas de cálculo y escribir código, y el personaje de otro video descubre la afinidad, la paciencia, el conocimiento y la capacidad de respuesta de ChatGPT. Para una estudiante 4.0 y madre de cuatro hijos, la capacidad de ChatGPT para proporcionar respuestas a preguntas y explicaciones reduce su dependencia de los tutores y le permite pasar más tiempo con su familia y consigo misma. Finalmente, también hay un hombre en el video que cuenta cómo se vio limitado al uso de su mano izquierda después de someterse a una cirugía de médula espinal y cerebro. Ahora, mediante el uso de la entrada de voz y las funciones conversacionales de ChatGPT, este usuario ha sido muy ayudado y facilitado. Estas historias de casos ilustran el potencial de ChatGPT para ayudar en la vida diaria, apoyar el aprendizaje y superar obstáculos, al tiempo que demuestran cómo la IA puede conectar y empoderar a los usuarios a escala global como nunca antes.
A continuación, Sam Altman compartió cómo la gente está aprovechando su tecnología y enfatizó que es exactamente lo que hacen. A continuación, anunció una serie de novedades. Altman dice que han pasado mucho tiempo hablando con desarrolladores de todo el mundo y escuchando sus comentarios, lo que ha tenido un profundo impacto en lo que vamos a mostrar hoy.
OpenAI ha lanzado un nuevo modelo, GPT-4 Turbo. Este nuevo modelo abordará las necesidades de muchos desarrolladores. Detalló seis actualizaciones importantes: la primera es la longitud del contexto, GPT-4 admite contextos de hasta 8.000 tokens, y en algunos casos puede llegar a 32.000. GPT-4 Turbo admite contextos de hasta 128.000 tokens, lo que equivale a 300 páginas de un libro estándar y 16 veces más largo que el contexto de 8.000 tokens. Además de la mayor longitud del contexto, también se ha mejorado significativamente la precisión de este modelo cuando se trata de contextos largos.
La segunda actualización es más control. Para dar a los desarrolladores más control sobre las respuestas y los resultados del modelo, han introducido una nueva característica llamada Esquema JSON para garantizar que los modelos respondan a un JSON válido, lo que simplificará en gran medida las llamadas a la API. El modelo también ha mejorado en términos de llamadas a funciones, lo que permite llamar a varias funciones al mismo tiempo y seguir mejor las instrucciones. También introdujeron una nueva característica llamada "Salida reproducible", que permite que el modelo devuelva una salida consistente al pasar un parámetro semilla, lo que obviamente proporciona un mayor grado de control sobre el comportamiento del modelo. Esta función se encuentra actualmente en versión beta.
En las próximas semanas, lanzarán una nueva función que permitirá ver los sondeos de registro en la API. La tercera actualización es un mejor conocimiento del mundo. Para dar al modelo acceso a un conocimiento más preciso del mundo, introdujeron una función de recuperación que permite extraer conocimiento de documentos o bases de datos externos. También han actualizado la fecha límite de conocimiento, y el conocimiento mundial de GPT-4 Turbo se ha actualizado a abril de 2023 y seguirá mejorando.
La cuarta actualización es una nueva modalidad, DALL· E 3, las capacidades visuales de GPT-4 Turbo y el nuevo modelo de texto a voz están llegando hoy a la API, y un puñado de clientes ya están usando DALL· E 3 Genera imágenes y diseños mediante programación. Hoy, Coca-Cola lanza una campaña para permitir que los clientes utilicen DALL· E 3 Genere tarjetas de felicitación de Diwali.
Por supuesto, sus sistemas de seguridad ayudan a los desarrolladores a evitar que las aplicaciones se utilicen indebidamente, y estas herramientas se pueden utilizar en las API. GPT-4 Turbo ahora puede aceptar la entrada de imágenes a través de la API y generar subtítulos, clasificaciones y análisis. Por ejemplo, Miis utiliza esta tecnología para ayudar a las personas ciegas o con baja visión en tareas cotidianas, como identificar el producto que tienen delante. Y con el nuevo modelo de texto a voz, podrás generar audio con un sonido natural a partir del texto de la API, con seis sonidos preestablecidos para elegir.
Altman puso un ejemplo de sonido que mostraba la naturalidad de su nuevo modelo de texto a voz. Esta tecnología de voz a voz hace que la interacción de la aplicación sea más natural y accesible, y desbloquea muchos casos de uso, como el aprendizaje de idiomas y los asistentes de voz.
Altman también anunció la próxima versión de su modelo de reconocimiento de voz de código abierto, Whisper v3, y dijo que pronto agregará API. Esta versión ha mejorado el rendimiento en varios idiomas, y cree que a los desarrolladores les gustará mucho.
A continuación, abordó el tema de la personalización. Desde el lanzamiento de GPT 3.5 hace unos meses, la función de ajuste fino ha funcionado bien. A partir de hoy, esto se extenderá a la versión de 16K del modelo. También invitan a los usuarios que utilizan activamente el ajuste fino a solicitar el Programa de Acceso a Experimentos de Ajuste Fino GPT-4. La API de ajuste fino es ideal para mejorar el rendimiento de un modelo con relativamente pocos datos en una variedad de aplicaciones, ya sea para aprender áreas de conocimiento completamente nuevas o para trabajar con grandes cantidades de datos propietarios.
En la quinta actualización, Altman anunció una nueva iniciativa llamada "Modelos personalizados", en la que los investigadores de OpenAI trabajarán en estrecha colaboración con la empresa para utilizar sus herramientas para crear modelos personalizados especializados para casos de uso específicos. Esto incluye la modificación de cada paso del proceso de entrenamiento del modelo, la realización de un entrenamiento previo específico del dominio, la personalización del proceso posterior al entrenamiento de aprendizaje por refuerzo, etc. Admite que al principio no podrán trabajar con muchas empresas, lo que supondrá mucho trabajo y no barato, al menos inicialmente. Pero si hay empresas que buscan llevar las cosas a sus límites actuales, comunícate con ellas.
Además, Altman anunció límites de tasas más altos. Duplicarán el número de tokens por minuto para todos los clientes existentes de GPT-4, lo que facilitará hacer más, y pueden solicitar más cambios en el límite de velocidad y la cuota directamente en la configuración de la cuenta de la API. Además de estos límites de velocidad, también han introducido el Escudo de derechos de autor, lo que significa que si un cliente se enfrenta a una reclamación legal por infracción de derechos de autor, OpenAI intervendrá para proteger al cliente y cubrir los costes incurridos. Esto se aplica tanto a ChatGPT Enterprise como a las API. Recuerda claramente a todo el mundo que nunca utilizan datos de las API o de ChatGPT Enterprise para el entrenamiento.
Altman continuó hablando sobre una solicitud de desarrollador que era más grande que todas las anteriores, y ese era el problema de los precios. Anunció que GPT-4 Turbo no solo es más inteligente que GPT-4, sino también más barato, lo que provocó una reducción de 3 veces en el token y una reducción de 2 veces en el token de finalización. El nuevo precio es de 0,01 dólares por cada 1.000 tokens de solicitud y de 0,03 dólares por cada 1.000 tokens de finalización. Esto hace que la tasa combinada de GPT-4 Turbo sea más de 2,75 veces más barata que la de GPT-4. Han trabajado muy duro para lograrlo y esperan que todos se entusiasmen con ello.
Tuvieron que elegir entre precio y velocidad a la hora de decidir priorizar el tema del precio, pero a continuación trabajarán en aumentar la velocidad. También anunció un recorte de precio para el GPT 3.5 Turbo 16K, con una reducción de 3 veces en los tokens de entrada y una reducción de 2 veces en los tokens de salida, lo que significa que GPT 3.516K es ahora más barato que el modelo GPT 3.54K anterior. La versión GPT 3.5 Turbo 16K también es más barata de ejecutar que la versión 4K más antigua y ajustada, y espera que los cambios aborden los comentarios de todos y está emocionado de llevar estas mejoras a todos.
Al presentarlo todo, mencionó que OpenAI tiene la suerte de tener un socio que desempeña un papel vital para hacer esto posible. Así que trajo a un invitado especial, Satya Nadella, CEO de Microsoft.
Nadella recuerda que se encontró por primera vez con OpenAI, donde Altman le preguntó si tenía algunos créditos de Azure disponibles, y han recorrido un largo camino desde entonces. Elogió a OpenAI por construir algo mágico y compartió dos de los pensamientos de Microsoft sobre la asociación: primero, las cargas de trabajo, donde trabajan juntos para construir sistemas que admitan los modelos que OpenAI está construyendo, desde la energía hasta los centros de datos, pasando por los racks y aceleradores, y las redes. El objetivo de Microsoft es construir el mejor sistema para que OpenAI pueda construir el mejor modelo y ponerlo a disposición de los desarrolladores. En segundo lugar, Microsoft es un desarrollador y está creando productos. Nadella mencionó que cuando conoció a GitHub Copilot y GPT, su creencia en toda la generación de modelos base cambió por completo. Están comprometidos a construir su producto sobre las API de OpenAI y esperan que GitHub Copilot Enterprise esté disponible para que todos los asistentes lo prueben.
Altman también le preguntó a Nadella su opinión sobre el futuro de las asociaciones y el futuro de la IA. Nadella enfatizó que Microsoft está totalmente comprometido a proporcionar los sistemas y recursos informáticos necesarios para respaldar a OpenAI en su audaz progreso en su hoja de ruta. Se comprometen a proporcionar los mejores sistemas de entrenamiento e inferencia, así como la mayor cantidad de recursos informáticos, para que OpenAI pueda continuar impulsando la vanguardia. Nadella cree que el verdadero valor de la IA radica en su capacidad para empoderar a las personas, lo que se alinea con la misión de OpenAI y Microsoft de empoderar a todas las personas y organizaciones del planeta para que hagan más. Mencionó que la seguridad es un enfoque clave en su colaboración, y que es un enfoque de sus esfuerzos conjuntos, no una ocurrencia tardía. Las palabras de Nadella subrayan la profundidad y el propósito de la asociación de OpenAI y Microsoft, lo que demuestra la visión compartida de las dos compañías para impulsar el crecimiento y la adopción de la IA.
A continuación, Altman pasó al tema de la conferencia y, aunque se trataba de una conferencia para desarrolladores, introdujeron algunas mejoras en ChatGPT. Ahora, ChatGPT utiliza GPT-4 Turbo y todas las últimas mejoras, incluidos los últimos tiempos de corte de conocimiento, y seguirá actualizándose, que ya están vigentes el mismo día. ChatGPT ahora puede navegar por la web, escribir y ejecutar código, analizar datos, generar imágenes y mucho más cuando sea necesario. También han escuchado los comentarios de los usuarios de que el selector de modelos es extremadamente molesto y, por lo tanto, se ha eliminado. A partir de hoy, los usuarios no tienen que hacer clic en un menú desplegable, y ChatGPT sabrá automáticamente qué función usar y cuándo.
Altman señala que, si bien el precio es un tema importante, no es lo principal en la solicitud del desarrollador. Creen que si a las personas se les dan mejores herramientas, harán cosas increíbles. La gente quiere que la IA sea más inteligente, más personalizada, más personalizable y capaz de hacer más en nombre del usuario. Eventualmente, el usuario simplemente solicita la PC y hace todas estas tareas por usted. En el campo de la IA, estas capacidades a menudo se denominan "agentes". Para abordar la seguridad de la IA, OpenAI cree que un despliegue gradual e iterativo es el mejor enfoque, y cree que es especialmente importante avanzar con cautela hacia el futuro de este "agente". Esto requerirá mucho trabajo técnico y mucha reflexión por parte de la sociedad.
Así que dieron el primer pequeño paso hacia este futuro. Altman estaba encantado de presentar GPT, la versión de ChatGPT diseñada para un propósito específico. Puede crear una versión personalizada de ChatGPT de casi cualquier cosa con instrucciones, conocimientos extendidos y acciones, y luego publicarla para que otros la usen. Debido a que combinan instrucciones, conocimiento extendido y acción, pueden ser más útiles, adaptarse mejor a múltiples contextos y proporcionar un mejor control.
Harán que sea más fácil realizar varias tareas o simplemente lo harán más divertido para ti. Puedes usarlos directamente en ChatGPT. En realidad, puedes programar GPT en lenguaje hablando con él. Es fácil personalizar el comportamiento para que se adapte a sus necesidades. Esto hace que sea muy fácil construirlos y empodera a todos.
Altman continuó diciendo que mostrarán qué son los GPT, cómo usarlos, cómo construirlos, y luego discutirán cómo se distribuirán y descubrirán. A continuación, los desarrolladores mostrarán cómo crear estas experiencias similares a las de los agentes en sus propias aplicaciones.
Presentó algunos ejemplos. Los socios de Code.org están trabajando para ampliar el plan de estudios de ciencias de la computación de la escuela, y tienen cursos utilizados por decenas de millones de estudiantes en todo el mundo. Code.org ha desarrollado un plan de lecciones y GPT para ayudar a los maestros a brindar una experiencia más atractiva para los estudiantes de secundaria. Por ejemplo, si el profesor pide una forma creativa de explicar el bucle, lo hará, y en este caso, lo explicará con la forma en que un personaje de un videojuego recoge monedas repetidamente, lo cual es muy fácil de entender para un niño de octavo grado. Este GPT combina el amplio plan de estudios y la experiencia de code.org, lo que permite a los profesores adaptarse rápida y fácilmente a sus necesidades.
A continuación, Canva crea un GPT en el que puedes comenzar a trabajar en el diseño describiendo el diseño que deseas en lenguaje natural. Si dices, haz un póster para la recepción del Día del Desarrollo esta tarde y proporciona algunos detalles, generará algunas opciones de inicio llamando a la API de Canva.
Altman señala que el concepto puede ser familiar para algunos. Desarrollaron el plugin en una acción personalizada para GPT. Puedes seguir chateando con este para ver las diferentes iteraciones, y cuando veas la que te gusta, puedes hacer clic para viajar a Canva y disfrutar de la experiencia de diseño completa.
Luego, quisieron mostrar un GPT en vivo. Zapier ha creado un GPT que le permite realizar acciones en 6000 aplicaciones, desbloqueando una amplia gama de posibilidades de integración. Altman presentó a Jessica, arquitecta de soluciones de OpenAI, quien estará a cargo de la presentación.
La arquitecta de soluciones Jessica Shei subió al escenario y rápidamente comenzó la demostración, con Jessica señalando que los GPT se ubicarían en la esquina superior izquierda de la interfaz y mostrando un ejemplo llamado acciones de IA de Zapier. Mostró su calendario del día y mencionó que había conectado GPT a su calendario.
Durante la presentación, Jessica preguntó sobre el horario del día. Enfatizó que los GPT se construyen teniendo en cuenta la seguridad, y el sistema solicita el permiso del usuario antes de compartir cualquier acción o datos. Permite que los GPT accedan a su programación y explica que los GPT están diseñados para recibir instrucciones del usuario para decidir qué función invocar para realizar la acción adecuada.
A continuación, Jessica mostró cómo los GPT se conectaron con éxito a su calendario y extrajeron la información del evento. También dio instrucciones a los GPT para que comprobaran si había conflictos en el calendario y demostró que había identificado con éxito uno. Luego demuestra cómo hacerle saber a una persona llamada Sam que necesita irse temprano y cambiar a una conversación con Sam para solicitarlo.
Cuando GPT completó la solicitud, Jessica le preguntó a Sam si había recibido la notificación, y Sam confirmó la recepción. Jessica usó esto como ejemplo para ilustrar el potencial de los GPT y expresó su anticipación de ver lo que otros construirían.
A continuación, Sam presentó más ejemplos de GPT. Mencionó que además de los demostrados, hay muchos GPT que se están creando y se crearán próximamente. Se dio cuenta de que muchas personas que querían construir GPT no podían programar, por lo que hicieron posible que la gente programara GPT a través de la conversación. Altman cree que el lenguaje natural será una parte importante de la forma en que las personas usarán las computadoras en el futuro, y ve esto como un ejemplo temprano interesante.
A continuación, Altman muestra cómo construir un GPT. Quería crear un GPT que ayudara a los fundadores y desarrolladores a asesorar a la hora de lanzar nuevos proyectos. Entra en el constructor de GPT, le dice lo que quiere y GPT comienza a crear instrucciones detalladas basadas en su descripción. También se le ocurre un nombre "Startup Mentor" y comienza a llenarse con información y posibles preguntas en modo de vista previa. Altman subió una transcripción de su discurso anterior sobre emprendimiento para brindar consejos basados en él, agregando "comentarios concisos y constructivos" a la directiva.
Altman probó este GPT en la etiqueta de vista previa y quedó satisfecho con los resultados. Decidió publicárselo a sí mismo por el momento, para poder refinarlo aún más y compartirlo más tarde. Mencionó que siempre había querido crear un robot de este tipo y que ahora estaba feliz de poder hacerlo realidad. Altman enfatizó que los GPT permiten a las personas compartir y descubrir fácilmente cosas interesantes que hacen con ChatGPT. Las personas pueden crear GPT de forma privada, o compartir sus creaciones públicamente a través de enlaces, o hacer GPT solo para su empresa si usan ChatGPT Enterprise. Planean lanzar una tienda GPT a finales de este mes, donde la gente puede enumerar GPT, y OpenAI contará con los mejores y más populares GPT.
Altman también mencionó que OpenAI se asegurará de que los GPT en las tiendas sigan sus políticas, y que OpenAI valora el reparto de ingresos y pagará una parte de los ingresos a aquellos que construyan los GPT más útiles y populares. Esperan fomentar un ecosistema vibrante a través de la GPT Store y están entusiasmados con la mayor información que se compartirá.
Altman también enfatizó que esta es una conferencia para desarrolladores que están llevando los mismos conceptos a las API. Mencionó que muchas personas ya han creado experiencias similares a las de un proxy en las API, como Shopify Sidekick y Collide de Discord, así como my AI, un chatbot personalizado que se puede agregar a los chats grupales y brindar recomendaciones. Estas experiencias son geniales, pero construirlas a menudo es difícil, a veces lleva meses y equipos de docenas de ingenieros. Para simplificar este proceso, han lanzado una nueva API de asistencia.
La API de asistencia incluye subprocesos persistentes, un intérprete de código de recuperación integrado, un intérprete de Python y un entorno de espacio aislado que funcionan, y la funcionalidad mejorada de llamada a funciones que se describió anteriormente.
A continuación, Raman, Jefe de Experiencia de Desarrollador de OpenAI, mostró cómo funciona esto. Ramón dice que le anima ver a tanta gente incorporando la IA en sus aplicaciones. Ramon anunció que no solo están introduciendo nuevos patrones en la API, sino que también están entusiasmados por mejorar la experiencia de los desarrolladores para que sea más fácil para las personas crear agentes secundarios. A continuación, muestra directamente el proceso de compilación.
Ramón presentó la aplicación de viajes que está construyendo llamada "wanderlust" para exploradores de todo el mundo. También mostró ideas de destinos generadas con GPT-4, así como el uso del nuevo DALL· Ilustraciones generadas mediante programación por la API de E 3. Posteriormente, Ramón mostró cómo mejorar la aplicación agregando un asistente simple. Cambia al nuevo patio de herramientas de asistencia, crea un asistente, le da un nombre, proporciona instrucciones iniciales, selecciona el modelo, habilita el intérprete de código y las funciones de recuperación y, a continuación, guarda.
Ramón continuó explicando cómo integrar el asistente en la aplicación, observando parte del código y demostrando cómo crear un nuevo hilo para cada nuevo usuario y agregar sus mensajes a esos hilos. También muestra cómo ejecutar el asistente en cualquier momento para devolver la respuesta a la aplicación.
A continuación, Ramón mostró la llamada de función, una característica que le gustó especialmente. Las llamadas a funciones ahora garantizan la salida JSON y se pueden llamar a varias funciones al mismo tiempo. A continuación, demostró cómo el asistente conoce las entidades para incluir etiquetas en el mapa de la derecha y agrega marcadores al mapa en tiempo real.
Ramón también habla de la función de recuperación, que consiste en dar a los asistentes más conocimientos que la mensajería instantánea del usuario. Carga un archivo PDF, que es leído por el sistema y se muestra en la pantalla. A continuación, arrastra y suelta la información de la reserva de Airbnb también en la conversación.
Ramon enfatizó que los desarrolladores normalmente necesitan calcular incrustaciones, configurar algoritmos de fragmentación, y ahora todo esto es manejado por la nueva API con estado. También muestra el panel de control del desarrollador, donde puede ver los pasos realizados por la herramienta, incluidas las funciones a las que se llamó y los archivos PDF que se cargaron.
A continuación, Ramón habló de una nueva característica que muchos desarrolladores han estado esperando: el intérprete de código, que ahora también está disponible en la API. Permite a la IA escribir y ejecutar código e incluso generar archivos sobre la marcha. Demuestra cómo funcionaría un intérprete de código si se dice un problema que requiere conversión de moneda y cálculos de días. Por último, Ramon describe cómo crear rápidamente un agente que pueda gestionar el estado de las conversaciones de los usuarios, aprovechar herramientas externas como la recuperación de conocimientos y los intérpretes de código, y llamar a sus propias funciones para implementar la funcionalidad.
Ramon también introdujo características que combinan patrones recién lanzados y llamadas de características, y creó un asistente personalizado para el Día del Desarrollo. Además, decidió usar la voz en lugar de la interfaz de chat. Mostró una sencilla aplicación Swift que puede recibir la entrada del micrófono y mostrar lo que está sucediendo en segundo plano en los registros de la terminal. Utilizó el susurro para convertir la entrada de voz en texto, utilizó el asistente de GPT-4 Turbo y utilizó la nueva API TTS para hacerlo sonar.
Ramon también demuestra cómo el asistente puede conectarse a Internet y realizar acciones del mundo real para el usuario. Se ofreció a que el asistente diera 500 dólares en créditos de OpenAI a cinco participantes aleatorios del Dev Day, y el asistente completó con éxito la tarea.
Finalmente, en sus comentarios finales en el Día del Desarrollador de OpenAI, Sam Altman dijo que la API de asistencia está en pruebas beta y que está emocionado de ver cómo la usarán los desarrolladores. Enfatizó que GPT y las herramientas de asistencia son pioneras en el camino hacia agentes más complejos que podrán planificar y ejecutar tareas más complejas para los usuarios.
Altman reitera la importancia de los despliegues iterativos graduales y anima a las personas a comenzar a usar estos agentes ahora para adaptarse a un mundo futuro en el que se vuelvan más capaces. Aseguró que OpenAI continuará actualizando el sistema en función de los comentarios de los usuarios, diciendo que OpenAI tiene una densidad de talento sobresaliente, pero aún se necesita mucho esfuerzo y coordinación para lograr todo esto. Siente que tiene a los mejores colegas del mundo y está increíblemente agradecido de poder trabajar con ellos.
He aquí por qué el equipo de OpenAI está trabajando tan duro: creen que la IA será parte de una revolución tecnológica y social que cambiará el mundo de muchas maneras. Altman mencionó que habían discutido anteriormente que al darle a la gente mejores herramientas, podrían cambiar el mundo. Cree que la IA aportará un empoderamiento personal y una escala de agencia sin precedentes, elevando así a la humanidad a un nivel sin precedentes. A medida que la inteligencia se vuelve más omnipresente, todos tenemos superpoderes en todo momento. Está entusiasmado con la forma en que usará la tecnología y el nuevo futuro que estamos construyendo juntos.