Interprétation de 6 000 mots : 10 défis majeurs dans la recherche actuelle en LLM sur les grands modèles de langage

Auteur : Chip Huyen

**Traduction :**Lapin Alfa

Lien source :

L’objectif de rendre les grands modèles de langage plus complets est la première fois de ma vie que je vois autant de personnes intelligentes travailler simultanément vers un objectif commun. Après avoir communiqué avec de nombreuses personnes de l’industrie et du monde universitaire, j’ai remarqué que dix directions de recherche ont émergé. Les deux directions qui reçoivent actuellement le plus d'attention sont les hallucinations (illusion de sortie) et l'apprentissage contextuel.

Pour ma part, je suis plus intéressé par la troisième direction répertoriée ci-dessous (Mode de données multimodales multimodales), la cinquième direction (Nouvelle architecture, nouvelle architecture) et la sixième direction (Développement d'alternatives GPU Solution alternative GPU)

Dix défis ouverts pour la recherche LLM Réduire et évaluer le rendement (informations fictives) Optimiser la longueur du contexte et la construction du contexte Intégrer d'autres formulaires de données Améliorer la rapidité et la rentabilité du modèle de langage Concevoir une nouvelle architecture de modèle Développer des solutions GPU alternatives Améliorer l'utilisabilité des agents (intelligence artificielle) Capacité améliorée à apprendre des préférences humaines Améliorer l'efficacité de l'interface de chat Créer des modèles linguistiques pour les langues autres que l'anglais

1. Réduire et évaluer les hallucinations

L'environnement de sortie est un sujet qui a été beaucoup discuté, je serai donc bref ici. Les hallucinations se produisent lorsque les modèles d’IA inventent des choses. Pour de nombreux cas d’utilisation créative, l’illusion est un type de fonctionnalité. Cependant, pour la plupart des applications, l’hallucination est une erreur. J'ai récemment participé à une table ronde sur le LLM avec des experts de Dropbox, Langchain, Elastics et Anthropic. Selon eux, le premier obstacle que les entreprises doivent surmonter pour appliquer le LLM dans la production réelle est la production d'hallucinations.

Réduire les résultats illusoires des modèles et développer des mesures pour évaluer les résultats illusoires est un sujet de recherche en plein essor, et de nombreuses startups se concentrent actuellement sur cette question. Il existe également des techniques pour réduire la probabilité de résultats illusoires, telles que l'ajout de plus de contexte aux mots indicateurs, le CoT, l'auto-cohérence, ou l'exigence spécifique que les réponses du modèle soient concises et claires.

Voici une série d’articles et de références sur les hallucinations :

Enquête sur les hallucinations dans la génération du langage naturel (Ji et al., 2022)

Comment les hallucinations des modèles linguistiques peuvent faire boule de neige (Zhang et al., 2023)

Une solution multitâche, multilingue et multimodale de ChatGPT sur le raisonnement, les hallucinations et l'interactivité (Bang et al., 2023)

L'apprentissage contrastif réduit les hallucinations dans les conversations (Sun et al., 2022)

L'auto-cohérence améliore le raisonnement en chaîne de pensée dans les modèles linguistiques (Wang et al., 2022)

SelfCheckGPT : Détection d'hallucinations par boîte noire sans ressource pour les grands modèles de langage génératifs (Manakul et al., 2023)

Un exemple simple de vérification des faits et d'hallucinations par NeMo-Guardrails de NVIDIA

2. Optimiser la longueur du contexte et la construction du contexte

La plupart des questions nécessitent un contexte. Par exemple, si nous demandons à ChatGPT : "Quel restaurant vietnamien est le meilleur ?", le contexte requis sera "Où se situe exactement ce restaurant ?", car le meilleur restaurant vietnamien au Vietnam est le même que le meilleur restaurant vietnamien aux États-Unis. Restaurant, la portée de cette question est différente.

Selon l'article intéressant ci-dessous, SITUATEDQA : Incorporating Extra-Linguistic Contexts into QA (Zhang & Choi, 2021), une partie importante des réponses aux questions de recherche d'informations sont contextuelles, par exemple, environ 10 % des réponses aux questions naturelles. Ensemble de données NQ-Open 16,5 %.

(NQ-Ouvert :

Personnellement, je pense que le pourcentage sera plus élevé dans les cas que les entreprises rencontreront réellement. Par exemple, supposons qu'une entreprise crée un chatbot pour le support client. Pour que ce chatbot réponde à toute question d'un client sur un produit, le contexte nécessaire est probablement l'historique de ce client ou des informations sur ce produit. Puisque le modèle de langage « apprend » du contexte qui lui est fourni, ce processus est également appelé apprentissage contextuel.

Contexte requis par l'image pour les requêtes d'assistance client

La longueur du contexte est très importante pour RAG (Retrieval Enhanced Generation), et RAG est devenu le mode principal des scénarios d'application industriels de grands modèles de langage. Plus précisément, la génération d’améliorations de récupération est principalement divisée en deux étapes :

**Phase 1 : Chunking (également appelé indexation)**chunking (également appelé indexation)

Collectez tous les documents utilisés par le LLM, divisez ces documents en morceaux qui peuvent être transmis à un modèle plus grand pour générer des intégrations et stockez ces intégrations dans une base de données vectorielle.

Phase 2 : Requête

Lorsqu'un utilisateur envoie une requête, telle que "ma police d'assurance couvre-t-elle un certain médicament X", le grand modèle de langage convertira cette requête en une intégration, que nous appelons QUERY_EMBEDDING. La base de données vectorielles obtiendra le bloc dont l'intégration est la plus similaire à QUERY_EMBEDDING.

Plus la longueur du contexte est longue, plus nous pouvons insérer de morceaux dans le contexte. Plus le modèle obtient d’informations, plus la qualité de ses résultats et de ses réponses est élevée, n’est-ce pas ?

Pas toujours. La quantité de contexte que le modèle peut utiliser et l'efficacité avec laquelle le modèle utilise le contexte sont deux problèmes différents. Tout en travaillant à augmenter la longueur du contexte du modèle, nous travaillons également à améliorer l'efficacité du contexte. Certains appellent cela « ingénierie rapide » ou « construction ». Par exemple, un article récent explique comment les modèles peuvent mieux comprendre le début et la fin des index, plutôt que seulement les informations situées au milieu - Lost in the Middle : How Language Models Use Long Contexts (Liu et al., 2023).

3. Intégration d'autres modes de données (multi-modal)

À mon avis, la multimodalité est très puissante, mais elle est aussi sous-estimée. Voici une explication des raisons d’application de la multimodalité :

Premièrement, de nombreux scénarios d’application spécifiques nécessitent des données multimodales, en particulier dans les secteurs où les modalités de données sont mixtes, comme la santé, la robotique, le commerce électronique, la vente au détail, les jeux et le divertissement. Par exemple:

Les tests médicaux nécessitent souvent du texte (par exemple, des notes du médecin, des questionnaires destinés aux patients) et des images (par exemple, tomodensitométrie, radiographies, IRM).

Les métadonnées du produit contiennent généralement des images, des vidéos, des descriptions et même des données tabulaires (telles que la date de production, le poids, la couleur), car du point de vue de la demande, vous devrez peut-être remplir automatiquement les informations manquantes sur le produit en fonction des commentaires des utilisateurs ou des photos du produit, ou vous souhaiterez peut-être permettre aux utilisateurs d'effectuer des recherches de produits à l'aide d'informations visuelles telles que la forme ou la couleur.

Deuxièmement, la multimodalité promet d’améliorer considérablement les performances des modèles. Un modèle qui comprend à la fois le texte et les images ne devrait-il pas être plus performant qu'un modèle unique qui comprend le texte ? Les modèles basés sur du texte nécessitent tellement de texte que nous craignons de bientôt manquer de données Internet pour entraîner des modèles basés sur du texte. Une fois le texte épuisé, nous devons exploiter d’autres schémas de données.

Un cas d'utilisation qui me passionne particulièrement est la technologie multimodale qui permet aux personnes malvoyantes de naviguer sur Internet ainsi que de parcourir le monde réel.

Voici une série d’articles et de références liés à la multimodalité :

[CLIP] Apprentissage de modèles visuels transférables à partir de la supervision du langage naturel (OpenAI, 2021)

Flamingo : un modèle de langage visuel pour un apprentissage en quelques étapes (DeepMind, 2022)

BLIP-2 : Pré-formation d'amorçage langage-image avec des encodeurs d'images gelées et de grands modèles de langage (Salesforce, 2023)

KOSMOS-1 : Le langage n'est pas tout ce dont vous avez besoin : aligner la perception sur les modèles linguistiques (Microsoft, 2023)

PaLM-E : un modèle de langage multimodal incorporé (Google, 2023)

LLaVA : réglage des instructions visuelles (Liu et al., 2023)

NeVA : Assistant de vision et de langage NeMo (NVIDIA, 2023)

4. Rendre le LLM plus rapide et moins cher

Lorsque GPT-3.5 a été publié pour la première fois fin novembre 2022, beaucoup ont exprimé leurs inquiétudes quant au retard et au coût de son utilisation en production. Cependant, l’analyse latence/coût a rapidement évolué depuis. En moins de six mois, la communauté a trouvé un moyen de créer un modèle dont les performances sont très proches de celles de GPT-3.5, mais qui ne nécessite qu'environ 2 % de l'empreinte mémoire de GPT-3.5.

Le point à retenir ici est le suivant : si vous créez quelque chose d’assez bon, les gens trouveront un moyen de le rendre rapide et rentable.

Voici les données de performances de "Guanaco 7B", comparées aux performances de ChatGPT GPT-3.5 et GPT-4, selon le rapport du journal "Guanco". Veuillez noter : dans l'ensemble, les comparaisons de performances suivantes sont loin d'être parfaites et l'évaluation du LLM est très, très difficile.

Comparaison des performances de Guanaco 7B avec ChatGPT GPT-3.5 et GPT-4 :

Il y a quatre ans, lorsque j'ai commencé à rédiger des notes pour ce qui est devenu la section « Model Compression » du livre Designing Machine Learning Systems, j'ai écrit sur quatre techniques principales d'optimisation/compression de modèles :

Quantification : La méthode d'optimisation de modèle la plus polyvalente à ce jour. La quantification réduit la taille d'un modèle en utilisant moins de bits pour représenter ses paramètres, par exemple, au lieu d'utiliser 32 bits, 16 bits ou même 4 bits peuvent être utilisés pour représenter des nombres à virgule flottante.

Distillation des connaissances : méthode de formation de petits modèles pour imiter un grand modèle ou une collection de modèles.

Factorisation de bas rang : L'idée clé ici est de remplacer les tenseurs de grande dimension par des tenseurs de basse dimension pour réduire le nombre de paramètres. Par exemple, un tenseur 3x3 peut être décomposé en un produit de tenseurs 3x1 et 1x3, de sorte qu'au lieu de 9 paramètres, seuls 6 sont requis.

Taille Les quatre techniques ci-dessus sont toujours pertinentes et populaires aujourd'hui. Alpaca utilise la distillation des connaissances pour la formation. QLoRA utilise une combinaison de factorisation et de quantification de bas rang.

5. Concevoir une nouvelle architecture de modèle

Depuis AlexNet en 2012, nous avons assisté à l'essor et au déclin de nombreuses architectures, notamment LSTM, seq2seq, etc. Comparé à ceux-ci, l’impact de Transformer est incroyable. Transformer existe depuis 2017, et la question de savoir combien de temps cette architecture restera populaire est une question ouverte.

Développer une nouvelle architecture pour surpasser Transformer n’est pas facile. Transformer a subi de nombreuses optimisations au cours des 6 dernières années, et cette nouvelle architecture doit fonctionner sur le matériel qui intéresse actuellement les gens et à l'échelle qui leur tient actuellement à cœur.

Remarque : Google a initialement conçu Transformer pour qu'il s'exécute rapidement sur TPU, puis l'a optimisé sur GPU.

En 2021, le S4 du laboratoire de Chris Ré a attiré une large attention, voir « Modélisation efficace de longues séquences avec des espaces d'états structurés » (Gu et al., 2021) pour plus de détails). Le laboratoire de Chris Ré développe toujours vigoureusement de nouvelles architectures, la plus récente Monarch Mixer (Fu, 2023), développée en collaboration avec la startup Together, en fait partie.

Leur idée principale est que pour l'architecture Transformer existante, la complexité de l'attention est la quadratique de la longueur de la séquence, tandis que la complexité du MLP est la quadratique de la dimension du modèle. Les architectures de complexité sous-quadratique seront plus efficaces.

Mélangeur monarque

6. Développer des alternatives GPU

Depuis AlexNet en 2012, les GPU sont le matériel dominant pour l'apprentissage profond. En fait, l'une des raisons généralement reconnues de la popularité d'AlexNet est qu'il s'agit du premier article à utiliser avec succès des GPU pour entraîner des réseaux neuronaux. Avant l'avènement des GPU, si vous vouliez entraîner un modèle à l'échelle d'AlexNet, vous deviez utiliser des milliers de processeurs, comme celui que Google a publié quelques mois avant AlexNet. Comparés à des milliers de processeurs, quelques GPU sont plus accessibles aux doctorants et aux chercheurs, déclenchant un boom de la recherche sur l'apprentissage profond.

Au cours de la dernière décennie, de nombreuses entreprises, grandes entreprises et startups, ont tenté de créer de nouveaux matériels pour l’intelligence artificielle. Les tentatives les plus notables incluent le TPU de Google, l'IPU de Graphcore (comment se passe l'UIP ?) et Cerebras. SambaNova a levé plus d’un milliard de dollars pour développer une nouvelle puce d’IA, mais semble avoir évolué pour devenir une plateforme d’IA générative.

Pendant un certain temps, l’informatique quantique suscitait de grandes attentes, avec des acteurs clés tels que :

QPU d'IBM

*L'ordinateur quantique de Google a signalé une étape majeure dans la réduction des erreurs quantiques plus tôt cette année dans la revue Nature. Sa machine virtuelle quantique est accessible au public via Google Colab. *

*Laboratoires de recherche tels que MIT Center for Quantum Engineering, Max Planck Institute for Quantum Optics, Chicago Quantum Exchange, Oakridge National Laboratory, etc. *

Une autre direction tout aussi passionnante est celle des puces photoniques. Je ne connais pas grand-chose à ce domaine, alors corrigez-moi si je me trompe. Les puces existantes utilisent de l'électricité pour transmettre des données, ce qui consomme beaucoup d'énergie et crée des retards. Les puces photoniques, quant à elles, utilisent des photons pour transmettre des données, exploitant la vitesse de la lumière pour un calcul plus rapide et plus efficace. Diverses startups dans ce domaine ont levé des centaines de millions de dollars, notamment Lightmatter (270 millions de dollars), Ayar Labs (220 millions de dollars), Lightelligence (200 millions de dollars et plus) et Luminous Computing (115 millions de dollars).

Voici la chronologie des progrès des trois principales méthodes de calcul de matrice de photons, extraite de l'article « La multiplication de matrice photonique éclaire l'accélérateur photonique et au-delà » (Zhou, Nature 2022). Les trois méthodes différentes sont la conversion de lumière planaire (PLC), l'interféromètre de Mach-Zehnder (MZI) et le multiplexage par répartition en longueur d'onde (WDM).

7. Améliorer la disponibilité des agents

L'agent fait référence à un grand modèle de langage qui peut effectuer des actions (il peut être compris comme des agents qui peuvent effectuer diverses tâches à votre place, c'est pourquoi ils sont appelés agents), telles que la navigation sur Internet, l'envoi d'e-mails, la réservation, etc. Comparée aux autres orientations de recherche présentées dans cet article, il s’agit peut-être de l’une des orientations les plus récentes. En raison de la nouveauté et du grand potentiel d'Agent lui-même, les gens sont pleins d'enthousiasme pour Agent. Et Auto-GPT est désormais le 25ème dépôt le plus populaire sur GitHub en nombre d'étoiles. GPT-Engineering est un autre dépôt populaire.

Malgré l’enthousiasme suscité par cette direction, des doutes subsistent quant à la fiabilité et aux performances des grands modèles de langage pour pouvoir agir. Cependant, un scénario d'application a émergé où les agents sont utilisés pour la recherche sociale, comme la célèbre expérience de Stanford, qui a montré qu'un petit groupe d'agents générateurs produisait des comportements sociaux émergents : par exemple, à partir d'une idée spécifiée par l'utilisateur, un agent voulait pour organiser une fête de Saint-Valentin, l'Agent diffuse automatiquement des invitations à la fête dans les deux jours suivants, se fait de nouveaux amis et s'invite à la fête... (Generative Agents: Interactive Simulacra of Human Behaviour, Park et al., 2023),

La startup la plus remarquable dans ce domaine est peut-être Adept, fondée par deux anciens co-auteurs de Transformer et un ancien vice-président d'OpenAI, et qui a levé près de 500 millions de dollars à ce jour. L'année dernière, ils ont montré comment leurs agents pouvaient naviguer sur Internet et comment ajouter de nouveaux comptes à Salesforce.

8. Itérer RLHF

RLHF (Reinforcement Learning from Human Feedback) est cool, mais un peu délicat. Il ne serait pas surprenant que les gens trouvent de meilleures façons de former le LLM. Cependant, il reste encore de nombreux problèmes non résolus dans le RLHF, tels que :

①Comment exprimer mathématiquement les préférences humaines ?

Actuellement, les préférences humaines sont déterminées par comparaison : un annotateur humain détermine si la réponse A est meilleure que la réponse B. Cependant, cela ne prend pas en compte la qualité de la réponse A par rapport à la réponse B.

②Quelle est la préférence humaine ?

Anthropic mesure la qualité de ses modèles en fonction du résultat en trois dimensions : utile, honnête et inoffensif. Voir Constitutional AI : Innocuité des commentaires sur l’IA (Bai et al., 2022).

DeepMind tente de générer des réponses qui plairont au plus grand nombre. Voir Affiner les modèles linguistiques pour trouver un accord entre les humains ayant des préférences diverses (Bakker et al., 2022).

De plus, voulons-nous une IA capable de prendre position, ou une IA traditionnelle qui évite tout sujet potentiellement controversé ?

③Quelles sont les préférences « humaines » ? Les différences de culture, de religion, d'orientation politique, etc. doivent-elles être prises en compte ? Il existe de nombreux défis pour obtenir des données de formation suffisamment représentatives de tous les utilisateurs potentiels.

Par exemple, pour les données InstructGPT d'OpenAI, il n'y a aucun annotateur de plus de 65 ans. Les étiqueteurs sont principalement des Philippins et des Bangladais. Voir InstructGPT : Former des modèles de langage pour suivre les instructions avec des commentaires humains (Ouyang et al., 2022).

Statistiques de nationalité des annotateurs InstructGPT

Même si les efforts menés par la communauté sont louables dans leur intention, ils peuvent donner lieu à des données biaisées. Par exemple, pour l’ensemble de données OpenAssistant, 201 des 222 (90,5 %) répondants se sont identifiés comme étant des hommes. Jeremy Howard a un excellent sujet sur Twitter :

9. Améliorer l'efficacité de l'interface de chat

Depuis ChatGPT, des discussions ont eu lieu pour savoir si le chat est une interface appropriée pour une variété de tâches.

Voir:

Le langage naturel est une interface utilisateur paresseuse (Austin Z. Henley, 2023)

Pourquoi les chatbots ne sont pas l'avenir (Amelia Wattenberger, 2023)

À quels types de questions nécessitent une conversation pour répondre ? Une étude de cas des questions AskReddit (Huang et al., 2023)

Les interfaces de chat IA pourraient devenir la principale interface utilisateur pour lire la documentation (Tom Johnson, 2023)

Interagir avec les LLM avec Minimal Chat (Eugene Yan, 2023)

Cependant, ce n’est pas un sujet nouveau. Dans de nombreux pays, notamment en Asie, le chat est utilisé depuis une dizaine d’années comme interface de super applications, comme l’écrivait Dan Grover en 2014.

En 2016, alors que beaucoup pensaient que les applications étaient mortes et que les chatbots étaient l’avenir, la discussion s’est à nouveau enflammée :

Le chat comme interface (Alistair Croll, 2016)

La tendance des chatbots est-elle un gros malentendu ? (Will Knight, 2016)

Les robots ne remplaceront pas les applications. De meilleures applications remplaceront les applications (Dan Grover, 2016)

Personnellement, j'aime l'interface de chat pour les raisons suivantes :

①L'interface de chat est une interface que tout le monde, même ceux qui n'ont aucun contact préalable avec un ordinateur ou Internet, peut rapidement apprendre à utiliser (universel). Au début des années 2010, alors que j'étais bénévole dans un quartier à faible revenu du Kenya, j'ai été frappé de constater à quel point tout le monde était habitué à effectuer ses opérations bancaires sur son téléphone, par SMS. Personne dans cette communauté n’avait d’ordinateur.

② L'interface de chat est facile d'accès. Si vos mains sont occupées par autre chose, utilisez la voix plutôt que le texte.

③ Le chat est également une interface très puissante : vous pouvez lui faire n'importe quelle demande et il vous répondra, même si la réponse n'est pas forcément parfaite

Cependant, je pense que l’interface de chat peut continuer à s’améliorer dans certains domaines :

①Plusieurs messages peuvent être échangés à la fois

Actuellement, nous supposons essentiellement qu’il n’y a qu’un seul cycle de messages par échange. Mais ce n’est pas comme ça que j’envoie des SMS à mes amis. Souvent, j'ai besoin de plusieurs messages pour compléter mes pensées car je dois insérer différentes données (par exemple des images, des lieux, des liens), j'ai peut-être manqué quelque chose dans le message précédent, ou je ne veux tout simplement pas tout mettre dans un seul grand message. paragraphe.

②Entrée multimodale

Dans le domaine des applications multimodales, la plupart des efforts sont consacrés à la création de meilleurs modèles et peu à la création de meilleures interfaces. Prenez par exemple le chatbot NeVA de Nvidia. Je ne suis pas un expert UX, mais je pense qu'il pourrait y avoir des améliorations à apporter ici.

PS : Désolé d'avoir mentionné l'équipe NeVA ici, même avec ça, votre travail est toujours plutôt cool !

③Intégrer l'IA générative dans le flux de travail

Linus Lee couvre bien cela dans son article « Interface d'IA générative au-delà des chats ». Par exemple, si vous souhaitez poser une question sur une colonne d'un graphique sur lequel vous travaillez, vous devriez pouvoir simplement pointer vers cette colonne et poser la question.

④Modification et suppression des messages

Comment une modification ou une suppression d’une saisie utilisateur modifierait-elle le flux de la conversation avec le chatbot ?

10. Créer un LLM pour les langues non anglaises

Nous savons que les LLM actuels en anglais ne s'adaptent pas bien à de nombreuses autres langues en termes de performances, de latence et de vitesse. Voir:

ChatGPT Au-delà de l'anglais : vers une uation complète des grands modèles linguistiques dans l'apprentissage multilingue (Lai et al., 2023)

Toutes les langues ne sont PAS créées (tokenisées) égales (Yennie Jun, 2023)

Je ne suis au courant que de tentatives de formation de vietnamiens (telles que les tentatives de la communauté Symato), cependant, plusieurs premiers lecteurs de cet article m'ont dit qu'ils ne pensaient pas que je devais inclure cette direction, pour les raisons suivantes :

Il ne s’agit pas tant d’une question de recherche que d’une question de logistique. Nous savons déjà comment le faire, nous avons juste besoin de quelqu'un pour investir de l'argent et de l'énergie. Cependant, ce n’est pas tout à fait exact. La plupart des langues sont considérées comme des langues à faibles ressources, et il existe des données de qualité beaucoup moins élevée pour de nombreuses langues que l'anglais ou le chinois, par exemple, de sorte que différentes techniques peuvent être nécessaires pour former de grands modèles linguistiques. Voir également:

Langues à faibles ressources : examen des travaux passés et des défis futurs (Magueresse et al., 2020)

JW300 : Un corpus parallèle à large couverture pour les langues à faibles ressources (Agić et al., 2019)

Ceux qui sont les plus pessimistes pensent qu’à l’avenir, de nombreuses langues disparaîtront et qu’Internet sera constitué de deux univers composés de deux langues : l’anglais et le chinois. Cette tendance de pensée n’est pas nouvelle – quelqu’un se souvient-il de l’espéranto ?

L’impact des outils d’intelligence artificielle, tels que la traduction automatique et les chatbots, sur l’apprentissage des langues reste flou. Vont-ils aider les gens à apprendre de nouvelles langues plus rapidement ou élimineront-ils complètement le besoin d'apprendre de nouvelles langues.

en conclusion

Veuillez me faire savoir si quelque chose me manque dans cet article, et pour des perspectives supplémentaires, consultez l'article complet Défis et applications des grands modèles linguistiques (Kaddour et al., 2023).

Les problèmes ci-dessus sont plus difficiles que d’autres. Par exemple, je pense que la question 10 ci-dessus, la mise en place d'un LLM dans une langue autre que l'anglais, serait relativement simple avec suffisamment de temps et de ressources.

Le premier problème ci-dessus est de réduire la production d'hallucinations, ce qui sera beaucoup plus difficile, car l'hallucination n'est qu'un LLM faisant des choses probabilistes.

Numéro 4, rendre le LLM plus rapide et moins cher ne sera jamais entièrement résolu. De nombreux progrès ont été réalisés dans ce domaine, et il y en aura encore à l’avenir, mais les améliorations dans ce sens se poursuivront.

Les éléments 5 et 6, nouvelle architecture et nouveau matériel, sont très difficiles, mais ils sont inévitables au fil du temps. En raison de la relation symbiotique entre l'architecture et le matériel (les nouvelles architectures doivent être optimisées pour le matériel à usage général et le matériel doit prendre en charge les architectures à usage général), elles seront probablement réalisées par la même entreprise.

Certains problèmes ne peuvent être résolus uniquement par des connaissances techniques. Par exemple, la question 8, améliorer les méthodes d’apprentissage à partir des préférences humaines, peut être davantage une question politique qu’une question technique. Le problème n°9 consiste à améliorer l’efficacité de l’interface de chat, qui est davantage un problème d’expérience utilisateur. Nous avons besoin de davantage de personnes ayant une formation non technique pour travailler avec nous sur ces questions.

Quelle direction de recherche vous intéresse le plus ? Selon vous, quelle est la solution la plus prometteuse à ces problèmes ? J'adorerais entendre votre opinion.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)