ChatGPT rompe la prueba de Turing, es hora de encontrar una nueva forma de evaluar la tecnología de IA

**Fuente:**AI Frontline

** autor | Celeste Biever**

Traductor|Nucle-Cola

Planificación|Dongmei

Fuente de la imagen: generada por la herramienta Unbounded AI, modelo general (corte de papel)

Los modelos de lenguaje grande tienen excelentes capacidades de simulación del lenguaje humano, pero los científicos todavía están divididos sobre su rendimiento de inferencia.

El 25 de julio, "Nature" declaró en un artículo que ChatGPT ha superado la prueba de Turing y que es hora de habilitar otros métodos nuevos para evaluar la tecnología de inteligencia artificial.

El sistema de inteligencia artificial (IA) más poderoso del mundo puede aprobar exámenes rigurosos, escribir artículos convincentes y participar en chats sin problemas. Muchas personas ni siquiera pueden notar la diferencia entre la IA y los humanos en términos de expresión del lenguaje. ¿Hay algo que no puedan hacer? Por supuesto que las hay, y son preguntas muy sencillas.

Una serie de gráficos de colores brillantes se organizan en la pantalla, y la mayoría de las personas pueden descubrir rápidamente la respuesta a este tipo de prueba de lógica visual. Pero como la luz de la tecnología detrás del robot de chat ChatGPT y el motor de búsqueda Bing, y la obra maestra más alta de la IA actual, GPT-4 obviamente no puede hacer lo que quiere. Un estudio realizado en mayo de este año mostró que GPT-4 era correcto solo un tercio de las veces en un tipo de prueba de patrón y un mísero 3% en el otro.

El equipo de investigación detrás del acertijo lógico espera que la prueba proporcione un mejor punto de referencia para los sistemas de IA y ayude a abordar las deficiencias inherentes de los modelos de lenguaje grandes como GPT-4. En resumen: en la prueba de lenguaje, el modelo de lenguaje grande completó fácilmente la hazaña de inteligencia que alguna vez se consideró un hito; pero en la prueba de lógica visual, su desempeño es bastante débil, hay puntos ciegos obvios y no se pueden basar en la abstracción Los conceptos hacen inferencias.

"Los profesionales en el campo de la IA están lidiando con el difícil problema de evaluar grandes sistemas modelo de lenguaje", dice Melanie Mitchell, científica informática del Instituto de Investigación de Santa Fe en Nuevo México. Con ese fin, su equipo ha creado este conjunto. de problemas lógicos.

En los últimos dos o tres años, el modelo de lenguaje grande ha aplastado por completo al sistema de IA anterior en términos de capacidades de multitarea cruzada. Su principio de funcionamiento no es complicado: en función de los miles de millones de oraciones en línea a las que han estado expuestos durante el entrenamiento, resumen la correlación estadística entre cada palabra y luego generan una siguiente palabra razonable para un texto de entrada dado. Para los chatbots creados sobre grandes modelos de lenguaje, se agrega un elemento adicional: los capacitadores humanos brindan una amplia retroalimentación, lo que afina la forma en que responde el bot.

Vale la pena señalar que los algoritmos entrenados en corpus de lenguaje humano tan masivos con propiedades similares al autocompletado han demostrado con éxito una amplia gama de capacidades de resolución de problemas. Si bien los sistemas de IA heredados pueden vencer a los modelos de lenguaje grandes en una tarea específica, los primeros deben entrenarse en cantidades específicas del problema, y esta capacidad no se puede transferir rápidamente de una tarea a otra.

En términos generales, los investigadores de estos dos campos tienen puntos de vista diametralmente opuestos sobre cómo funcionan los grandes modelos de lenguaje bajo el capó, dice Tomer Ullman, científico cognitivo de la Universidad de Harvard. Algunos atribuyen los logros del algoritmo al razonamiento o la comprensión genuinos, pero otros (incluido el propio Ullman y los investigadores como Mitchell) son más cautelosos.

Según Ullamn, “ambos lados de este debate son brillantes y de alto nivel”. La causa raíz del desacuerdo es la falta de pruebas sólidas para respaldar sus respectivos puntos de vista. "Después de todo, no existe un detector inteligente estable y confiable como un contador Geiger, que claramente pueda dar la respuesta de inteligencia o no inteligencia".

Los investigadores de ambos lados de la discusión dicen que confiar en pruebas como preguntas lógicas para revelar las diferencias en las capacidades entre los humanos y los sistemas de IA debería ser un paso importante en la dirección correcta. Brenden Lake, científico de computación cognitiva de la Universidad de Nueva York, dice que tales puntos de referencia también pueden ayudar a revelar las capacidades que faltan en los sistemas de aprendizaje automático actuales y aclarar de qué está hecha exactamente la inteligencia humana.

Además, esta prueba de modelos de lenguaje grandes y la investigación de capacidad de referencia tiene otro significado práctico. Mitchell señaló que si desea aplicar grandes modelos de lenguaje a escenarios del mundo real, como la medicina y la ley, primero debe aclarar dónde se encuentran los límites de sus capacidades. "Tenemos que averiguar qué puede y qué no puede hacer antes de que podamos juzgar cómo usarlo de manera segura".

¿Está obsoleto el test de Turing?

En el campo de las pruebas de inteligencia artificial, el esquema más famoso siempre ha sido la prueba de Turing. La prueba fue propuesta por el matemático británico y pionero de la informática Alan Turing en 1950, cuando las computadoras estaban en su infancia. Turing propuso un método de evaluación del llamado "juego de imitación". En este escenario, el árbitro humano tiene un breve diálogo de texto con la computadora y el humano escondido detrás de la pantalla para ver si puede identificar con precisión a la máquina y al humano. . Turing creía que esto debería responder a la pregunta "¿Tienen las máquinas la capacidad de pensar?"

Mitchell señaló que Turing no especificó muchos detalles sobre el escenario, por lo que no había reglas exactas a seguir. Según François Chollet, ingeniero de software de Google, "la prueba de Turing no es una prueba concreta que se pueda ejecutar en una máquina, es más un experimento mental".

Pero esta visión de usar el lenguaje para probar si una máquina tiene la capacidad de pensar está profundamente arraigada en el campo de la tecnología. Durante décadas, el empresario y filántropo Hugh Loebner ha financiado durante mucho tiempo el evento anual Turing Test, conocido como el Premio Loebner. Pero el científico informático Rob Wortham dijo que la campaña se detuvo después de 2019 porque se agotaron los fondos para la campaña tras la propia muerte de Loebner. Wortham es codirector de la Sociedad para la Investigación de Simulación de Comportamiento e Inteligencia Artificial del Reino Unido, que ha organizado la competencia en nombre de Loebner desde 2014. Explicó que el modelo de lenguaje grande ahora básicamente tiene la capacidad de engañar a los humanos, por lo que el Premio Loebner se vio obligado a detenerse en vísperas del despegue completo del modelo de lenguaje grande, que es un humor bastante negro.

Otros investigadores también creen que los modelos de lenguajes grandes como GPT-4 ya tienen la capacidad de pasar la prueba de Turing. Al menos en conversaciones cortas, probablemente sea difícil para la mayoría de las personas distinguir quién es un humano y quién es un gran modelo. En mayo, los investigadores del laboratorio AI21 en Tel Aviv, Israel, informaron que más de 1,5 millones de personas habían jugado un juego en línea basado en la prueba de Turing. Los usuarios participarán en un chat de dos minutos con otro usuario o con un modelo de lenguaje grande que se hace pasar por una persona real según las indicaciones de los investigadores. La probabilidad de que el jugador identifique correctamente el robot es solo del 60%, que es casi lo mismo que adivinar completamente al azar3.

Sin embargo, los investigadores que están más familiarizados con los modelos de lenguaje grandes aún pueden distinguir los chatbots de varios detalles. Chollet señaló que descubrió que era fácil detectar quién era un modelo de lenguaje grande simplemente explotando las debilidades conocidas del sistema. "Si tuviera que ponerme a prueba para ver si estoy hablando con un gran modelo de lenguaje, definitivamente obtendría la respuesta correcta".

La clave es dejar que el gran modelo del lenguaje salga de su zona de confort. Su truco es proponer escenarios diferenciadores al modelo de lenguaje grande de los escenarios de entrenamiento comunes. En la mayoría de los casos, el modelo de lenguaje grande genera la palabra más probable en función de los datos de entrenamiento, en lugar de dar realmente la respuesta correcta de acuerdo con la nueva escena.

Además, Chollet y otros se muestran escépticos con respecto a este método de prueba basado en un rendimiento engañoso. “Obviamente, esto existe para engañar a los árbitros humanos.” Tales pruebas solo alentarán a los desarrolladores a inculcar más habilidades de camuflaje en la IA, y no inspirarán funciones más útiles o interesantes.

Los puntos de referencia no son fiables

Los investigadores a menudo evalúan los sistemas de IA con puntos de referencia que evalúan habilidades específicas, como el lenguaje, el razonamiento de sentido común y las matemáticas, y los equipos de tecnología están adoptando cada vez más exámenes académicos y profesionales diseñados para humanos.

Cuando GPT-4 se lanzó por primera vez en marzo, la empresa OpenAI con sede en San Francisco, California, evaluó el rendimiento del nuevo modelo en una serie de puntos de referencia diseñados para máquinas, incluida la comprensión de lectura, las matemáticas y la codificación. Según lo informado por OpenAI, GPT-4 funcionó bien en la mayoría de las pruebas4. También establecieron alrededor de 30 exámenes para GPT-4, que incluyen: una variedad de exámenes para estudiantes estadounidenses de secundaria, conocidos como Colocación Avanzada; un examen para evaluar el conocimiento clínico de los médicos estadounidenses; y los criterios utilizados en el proceso de selección de graduados estadounidenses. examen de los estudiantes (GRE). GPT-4 logró obtener una puntuación en el 10% superior en el examen de la barra uniforme (que se incluye en el examen de la barra en varios estados de EE. UU.).

Rendimiento del sistema de IA: extracto de los resultados

Fuente: OpenAI/ Referencia 4

El percentil de clasificación aquí es la posición de los candidatos humanos que han logrado este puntaje entre todos los sujetos.

Mitchell reconoce que "bastantes modelos de lenguaje funcionan bien en estos puntos de referencia. Pero en la mayoría de los casos, no es que superen a los humanos en capacidad general, sino que los puntos de referencia mismos tienen limitaciones". El modelo se entrenó con una gran cantidad de material de texto, es probable que se hayan observado problemas similares en los datos de entrenamiento. Las conclusiones de evaluación comparativa extraídas en esta situación se denominan "contaminación" y obviamente no son creíbles.

OpenAI dice que verificaron esto buscando cadenas similares en el problema y los datos de entrenamiento. Probar modelos de lenguaje grandes antes y después de eliminar cadenas similares muestra pocos cambios en el rendimiento. Esto sugirió que las puntuaciones extremadamente altas no tenían nada que ver con la contaminación, pero algunos investigadores cuestionaron si la prueba era lo suficientemente rigurosa.

Sam Bowman es un científico de tecnología del lenguaje de la Universidad de Nueva York que también trabaja en Anthropic, una empresa de IA en San Francisco. Advirtió contra simplemente tomar los puntajes de la prueba GPT-4 como resultado de "ver problemas similares" y negar la capacidad de GPT-4. En su opinión, "la conversación sobre la contaminación complica un poco la situación, pero no creo que realmente afecte el panorama general".

Los investigadores también señalaron que la capacidad de los grandes modelos de lenguaje para obtener calificaciones altas en los exámenes también es relativamente frágil y es posible que no se pueda transformar en la capacidad de hacer juicios correctos en el mundo real. Según Mitchell, solo un pequeño ajuste de las preguntas del examen podría hacer que los modelos grandes fueran inaceptables. Por ejemplo, tomó una pregunta de un examen de MBA que aprobó ChatGPT y la modificó ligeramente. Los humanos podrían ajustar fácilmente la respuesta de acuerdo con el cambio, pero ChatGPT fracasó estrepitosamente.

Hay otro problema más profundo cuando se trata de descifrar las implicaciones de la evaluación comparativa. Para los humanos, los puntajes altos en estas pruebas generalmente representan un alto nivel de inteligencia; de hecho, el nivel de inteligencia en sí también es un concepto vago, que refleja principalmente la capacidad de adaptarse a diferentes entornos que se muestran en una serie de tareas. En otras palabras, una puntuación alta en una prueba demuestra que la persona tiene buenas capacidades cognitivas y un buen dominio de ciertos conceptos abstractos. Pero este no es el caso de los grandes modelos de lenguaje. Mitchell enfatizó que el método de juicio de los modelos grandes es muy diferente al de los humanos: "En la mayoría de los casos, los sistemas de IA no razonan de una manera con la que los humanos están familiarizados".

Esto puede deberse a que los modelos de lenguaje grandes solo pueden aprender de la experiencia del lenguaje; debido a la falta de canales para conectarse con el mundo real, no pueden experimentar la conexión entre el lenguaje y los objetos, atributos y emociones como los humanos. "Está claro que no entienden las palabras como lo hacen los humanos”, dice Lake. En su opinión, la evidencia actual sugiere que los modelos de lenguaje grandes "pueden usar el lenguaje con mucha fluidez sin entender realmente lo que están diciendo".

Por otro lado, los grandes modelos de lenguaje también han mostrado algunas habilidades que los humanos no tienen, como comprender la conexión entre casi todas las palabras que escriben los humanos. Mitchell dijo que esto puede significar que el modelo se basa en ciertas características del lenguaje u otros indicadores para resolver el problema, sin necesidad de comprender la capacidad de razonamiento más amplia.

Nick Ryder, investigador de OpenAI, está de acuerdo con este juicio y dice que el rendimiento de la IA en una sola prueba no es suficiente para demostrar su capacidad general como sujetos humanos. "No creo que la gente deba comparar directamente las puntuaciones humanas con las puntuaciones de los modelos de lenguaje grande". Las puntuaciones publicadas por OpenAI "no describen la capacidad humana o el nivel de razonamiento similar al humano de los modelos de lenguaje grande, sino que simplemente muestran estos modelos se desempeñan bien en estas tareas".

Además de los puntos de referencia de máquinas tradicionales y los exámenes profesionales humanos, los investigadores también exploraron modelos de lenguaje grandes de manera más amplia. En marzo de este año, Sébastien Bubeck de Microsoft Research y sus colegas lanzaron la versión 5 prepublicada titulada "Spark of General Artificial Intelligence: GPT-4 Early Experiments", que provocó acaloradas discusiones en la industria. Usando una versión anterior de GPT-4, documentaron un sorprendente conjunto de características, muchas de las cuales no estaban directa o explícitamente vinculadas al lenguaje. Una característica notable es que pasa las pruebas utilizadas para evaluar las teorías psicológicas. La teoría psicológica es una capacidad humana central para predecir y razonar sobre los estados mentales de los demás. "Dada la amplitud y profundidad de la funcionalidad de GPT-4, tenemos razones para creer que ya representa una versión temprana (pero aún no perfecta) de un sistema de inteligencia general artificial (AGI)", escribieron en el documento.

Pero el propio Bubeck aclaró más tarde, enfatizando que "GPT-4 ciertamente no piensa como un humano, y tiene su propia forma única y diferente de implementar cualquier función que exhibe".

Mitchell cree que aunque el informe es bastante radical, no explora sistemáticamente las capacidades de los grandes modelos de lenguaje. "Esto es más como un estudio antropológico". Ullman también dijo que para probar que las máquinas pueden dominar las teorías psicológicas, al menos deben dar evidencia del proceso cognitivo subyacente correspondiente, en lugar de simplemente confiar en que la máquina produzca la misma respuesta. como humanos Aseveración áspera.

Los investigadores de IA creen que se necesita un escrutinio más amplio y riguroso para comprender las fortalezas y debilidades de los grandes modelos de lenguaje. El problema de la lógica del color puede ser una parte importante.

Rompecabezas nuevos

En 2019, justo antes de la explosión de los grandes modelos de lenguaje, Chollet lanzó un nuevo conjunto de pruebas lógicas especialmente compiladas para sistemas de IA en Internet, llamado Abstract and Reasoning Corpus (ARC). Al solucionador se le presenta una demostración visual en la que varias cuadrículas cuadradas se transforman en otro patrón, que le indica a la siguiente cuadrícula cómo cambiar para demostrar que ha entendido las reglas del cambio. “Es una prueba de nuestra capacidad de adaptarnos a cosas que no hemos visto antes”, dice Chollet, quien cree que esta capacidad de encontrar patrones es la esencia de la inteligencia.

Según Lake, ARC captura "el sello distintivo de la inteligencia humana": abstraerse del conocimiento cotidiano y aplicarlo a problemas nunca antes vistos.

Chollet organizó una competencia de robótica ARC en 2020, antes de que los modelos de lenguaje grande ganaran una tracción generalizada. El sistema de IA ganador fue entrenado específicamente para ser bueno en tareas como ARC. Pero a diferencia del modelo de lenguaje grande, no tiene una función general y solo respondió correctamente el 21% de las preguntas. En comparación, los humanos resuelven correctamente los problemas de ARC el 80 % de las veces7. Múltiples equipos de investigación están utilizando actualmente ARC para probar las capacidades de modelos de lenguaje grandes, y ninguno se ha acercado al rendimiento humano.

Mitchell y sus colegas desarrollaron un nuevo conjunto de rompecabezas (llamado ConceptARC) inspirado en ARC, con dos diferencias principales. ConceptARC es aún más fácil: el equipo de Mitchell quería puntos de referencia para reflejar los avances en las capacidades de la máquina, aunque solo sea un poco. En segundo lugar, el equipo seleccionó conceptos específicos para probar y luego creó una serie de variaciones de rompecabezas relacionados con el tema en torno a cada concepto.

Por ejemplo, para probar el concepto de identidad, un problema requiere que el solucionador mantenga objetos de la misma forma en su lugar, y otro problema requiere que el solucionador alinee objetos de la misma forma a lo largo de un eje. La idea es reducir las posibilidades de que un sistema de IA pase una prueba sin comprender el concepto.

¿Qué significa bajo rendimiento?

Los investigadores lanzaron la tarea ConceptARC a GPT-4 y reclutaron a 400 sujetos. Los seres humanos obtuvieron un promedio del 91 % en todos los grupos de conceptos (97 % para el grupo con la puntuación más alta), 33 % para el grupo GPT-4 con la puntuación más alta y no más del 30 % para los grupos de conceptos restantes.

"Demostramos que la máquina aún no alcanza la inteligencia a nivel humano”, dijo Mitchell. “Pero, sorprendentemente, fue capaz de resolver algunos de estos problemas a pesar de que nunca se le entrenó”.

El equipo también probó los robots que ganaron la competencia Chollet, que no son sistemas de capacidad general como los modelos de lenguaje grande, sino que fueron entrenados específicamente para problemas de visión como ARC. En general, se desempeñaron mejor que GPT-4, pero aun así fueron inferiores a los humanos, con una puntuación del 77 % en el grupo de mejor concepto pero por debajo del 60 % en la mayoría de los grupos de concepto1.

Sin embargo, Bowman cree que el hecho de que GPT-4 no pase el entrenamiento de ConceptARC no prueba que carezca de capacidades potenciales de razonamiento abstracto. En su opinión, existe un sesgo entre ConceptARC y GPT-4, que es una prueba visual después de todo. "Incluso si estos modelos son realmente buenos en este tipo de razonamiento conceptual, es poco probable que obtengan buenos resultados en tales pruebas la primera vez".

La limitación del método de prueba también puede ser el factor que influye en el bajo rendimiento de GPT-4. La versión pública del Big Language Model solo puede aceptar entrada de texto, por lo que los investigadores enviaron matrices de números que describen las imágenes. (Por ejemplo, un píxel en blanco podría estar representado por un 0 y un cuadrado de color podría estar representado por un número correspondiente). En cambio, los sujetos humanos podían ver la imagen directamente. Mitchell también admite: "Estamos comparando un sistema de lenguaje puro con un humano, y los humanos tienen un sistema visual muy desarrollado, así que me temo que la comparación no es del todo justa".

OpenAI ha creado una versión "multimodal" de GPT-4 que puede aceptar la entrada de imágenes directamente. El equipo de Mitchell está esperando que la tecnología se divulgue formalmente para poder realizar otra ronda de ConceptARC. Pero ella no cree que el GPT-4 multimodal sea mucho mejor."No creo que estos sistemas todavía tengan el nivel de abstracción y razonamiento comparable al de los humanos".

Sam Acquaviva, científico cognitivo computacional del Instituto de Tecnología de Massachusetts, está de acuerdo y el patrón se limita a una sola fila en lugar de a la cuadrícula8. Esto debería eliminar algunos de los problemas de injusticia, pero Acquaviva ve que, si bien el rendimiento de GPT-4 ha mejorado, tampoco es suficiente para demostrar una comprensión y un razonamiento confiables de las reglas para modelos de lenguaje grandes.

argumento de razonamiento

Bowman también mencionó algunos otros experimentos.De acuerdo con los resultados integrales, el modelo de lenguaje grande al menos ha dominado la capacidad básica de razonar sobre conceptos abstractos. En un caso, el informático de Harvard Kenneth Li y sus colegas utilizaron una versión digital de Reversi, en la que los jugadores colocan piezas en blanco y negro en una cuadrícula de 8 x 8. Esperan evaluar si los grandes modelos de lenguaje se basan en relaciones estadísticas lingüísticas memorizadas para generar texto, o si realmente pueden construir representaciones internas de fenómenos como los humanos.

Después de enviar un conjunto de entrenamiento de las acciones de los jugadores humanos al modelo de lenguaje grande, la IA dominó rápidamente la capacidad de elegir la estrategia correcta para el próximo movimiento. Los investigadores creen que esto muestra que el modelo de lenguaje grande puede incluso comprender la situación en el tablero de ajedrez y dar sugerencias para los movimientos de ajedrez en función de las características actuales, lo que obviamente rompe con las limitaciones de la forma del texto9.

Bowman admite que la capacidad de razonamiento de los grandes modelos de lenguaje puede describirse como "varios" en general, y no alcanza la altura del razonamiento humano. Pero cree que la capacidad de razonamiento existe y parece mejorar con el tamaño del modelo. En otras palabras, los futuros modelos de lenguajes grandes funcionarán cada vez mejor. "Estos sistemas no son tan confiables o generales como nos gustaría que fueran, y están completamente confundidos acerca de ciertos tipos de razonamiento abstracto. Pero creo que sus habilidades fundamentales de razonamiento existen objetivamente".

Investigadores como Bowman y Mitchell también están de acuerdo en que sigue siendo una pregunta abierta cómo probar mejor los modelos de lenguaje grandes para el razonamiento abstracto y otros indicadores de inteligencia. Michael Frank, un científico cognitivo de la Universidad de Stanford, cree que no existe una sola prueba que lo abarque todo y que pueda reemplazar por completo a la prueba de Turing. En cambio, argumenta que los investigadores necesitan idear pruebas exhaustivas para cuantificar las fortalezas y debilidades de varios sistemas. "Estos agentes son geniales, simplemente tienen fallas de muchas maneras, por lo que lo más importante es explorar esto sistemáticamente".

Wortham aconseja a los nuevos en los sistemas de IA que se mantengan alejados de la obsesión por el antropomorfismo. "Siempre tratamos de entender cualquier cosa que muestre inteligencia como humano, lo cual es realmente innecesario".

"Incluso está maldito, lo que significa que no podemos imaginar ninguna forma de inteligencia que exhiba una clara orientación a un objetivo que no sea la nuestra. Siempre tenemos la ilusión de que lo hace con la misma forma profunda de pensar que nosotros".

referencias:

Moskvichev, A., Odouard, VV y Mitchell, M. Preprint en (2023).

Turing, AM Mind LIX, 433–460 (1950).

Artículo Google Académico

Jannai , D. , Meron , A. , Lenz , B. , Levine , Y. & Shoham , Y. Preprint en (2023).

IA abierta. Preimpresión en (2023).

Bubeck, S. et al. Preimpresión en (2023).

Chollet, F. Preprint en (2019).

Johnson, A., Vong, WK, Lake, BM y Gureckis, TM Preprint en (2021).

Xu, Y., Li, W., Vaezipoor, P., Sanner. S. & Khalil, EB Preprint en (2023).

Li, K. et al. proc. Undécimo Int. Conf. Aprender. Representar. (2023).

Enlace original:

Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)