Deux lignes de code pour résoudre les limitations du dialogue de modèle de langage volumineux ! L’équipe de Jia Jiaya chinois de Hong Kong et le MIT ont lancé une technologie d’extension de texte ultra-longue
Perdu à mi-chemin, le modèle est paresseux, plus le contexte est long, plus le modèle devient bête... Si vous avez expérimenté des produits de modèle de langage volumineux, les utilisateurs ressentiront la limitation de la longueur de la saisie de texte dans une certaine mesure, par exemple lorsque vous souhaitez discuter d’un contenu légèrement plus long avec le grand modèle, vous devez diviser l’entrée et les points principaux de l’entrée précédente seront rapidement oubliés par le grand modèle.
C’est un défaut de dialogue typique du grand modèle de langage! Comme les enfants nés avec des déficits de l’attention, il est difficile de se concentrer sur la finition d’un nouveau livre. La clé du défaut est que le modèle manque de capacités de traitement de texte long. C’est maintenant brisé.
Récemment, les nouvelles technologies et les nouveaux modèles publiés par l’équipe de Jia Jiaya et le MIT sont apparus discrètement sur les listes critiques des principaux sites Web open source: hugging face hot list first, paperwithcode hot first, Github all python project hot cinquième, GitHub stars a dépassé 1,000 en une semaine, et les messages techniques connexes sur Twitter ont été vus près de 180,000 ...
GitHub Stars a atteint 1.3K
Les publications techniques connexes sur Twitter ont reçu près de 180 000 vues
La technologie, appelée LongLoRA, est pratique mais étonnamment simple: avec seulement deux lignes de code et une machine A100 à 8 cartes, la longueur du texte du modèle 7B peut être étendue à 100k jetons, et la longueur du texte du modèle 70B peut être étendue à 32k jetons; Dans le même temps, l’équipe de recherche a également publié LongAlpaga, le premier modèle de dialogue à texte long en grand langage avec des paramètres 70B.
Lancement du premier modèle de langage large à texte long de 70 milliards au monde
La proposition de LongLoRA a résolu pour la première fois les défauts de dialogue du modèle mondial des grands langages, et depuis lors, des dizaines de pages de documents, des centaines de pages de rapports et d’énormes livres ne sont plus devenus l’angle mort des grands modèles.
À cet égard, certains professionnels ont déclaré avec enthousiasme que LongLoRA est une lampe d’espoir dans le labyrinthe des grands modèles linguistiques! Il représente la refonte et l’attention de l’industrie aux modèles de grands langages à texte long, élargit efficacement la fenêtre de contexte des grands modèles de langage, permet au modèle de considérer et de traiter de longues séquences de texte et est une invention innovante de grands modèles de langage.
Outre les innovations technologiques, l’une des difficultés des grands modèles linguistiques dans le traitement des problèmes de texte long est le manque de données de dialogue textuel long accessibles au public.
À cette fin, l’équipe de recherche a spécialement recueilli 9K paires de corpus de questions-réponses textuelles, y compris diverses questions-réponses sur des livres célèbres, des articles, des rapports approfondis et même des états financiers.
Il ne suffisait pas de répondre à de longues questions, l’équipe a sélectionné un corpus de questions et réponses courtes de 3K mélangé à un corpus de questions et réponses longues de 9K pour la formation, de sorte que le grand modèle de texte long ait des capacités de dialogue de texte court en même temps. Cet ensemble de données complet, appelé LongAlpaga-12k, est actuellement open source.
Sur la base de l’ensemble de données LongAlpaga-12k, l’équipe de recherche a formé et évalué différentes tailles de paramètres 7B, 13B, 70B et des modèles open source, notamment LongAlpaga-7B, LongAlpaca-13B et LongAlpaca-70B.
** Lire des romans, changer de papier et souligner que l’économie est le roi tous azimuts **
Sans plus tarder, sélectionnez aveuglément quelques démos pour voir l’effet LongAlpaga d’un grand modèle qui applique la technologie LongLoRA superposée à un corpus de questions et réponses 12K.
让系统新读一篇论文,并根据ICLR的审查指南,对其提出修改意见,从而提升该论文的接收率。LongAlpaca的意见是:通过更精确地阐明新颖性,提供更严格和更有对比性的实验结果(包括具体的数据集和指标) , une application plus large et une orientation future, en mettant l’accent sur les contributions et les impacts clés, et les chances que le document soit accepté seront améliorées.
Maintenant, laissons le système lire deux nouveaux articles différents, et laissez LongAlpaga résumer les différences stylistiques entre les conférences ICLR et CVPR. LongAlpaga conclut que les articles CVPR ont tendance à être plus structurés et expérimentaux, en se concentrant sur l’aspect pratique et technique. Le style d’essai de l’ICLR, en revanche, est plus flexible, se concentrant sur des analyses théoriques clés et des dérivations mathématiques plutôt que sur des formats standard.
On peut voir que le modèle LongAlpaga entraîné peut facilement accepter de nouveaux articles académiques longs, et il est assez précis pour répondre aux questions académiquement pertinentes.
Ensuite, regardons l’interprétation du modèle LongAlpaga dans le domaine économique avec un seuil élevé de lecture et de compréhension.
Basé sur la collection générale des perspectives économiques mondiales du FMI de 2012 à 2023, il résume la situation économique année par année et prévoit les tendances économiques futures. LongAlpaga nous a dit que la situation économique mondiale en 2023 est incertaine et que la croissance devrait ralentir par rapport à 2022; Dans les années à venir, l’expansion économique mondiale sera modérée et plus faible que prévu, tandis que des défis majeurs tels que les tensions géopolitiques et la volatilité des marchés financiers subsistent et doivent être traités avec soin par la coopération multilatérale et les réformes structurelles.
LongAlpaga peut également lire de nouveaux romans et analyser le contenu après les avoir lus. Les modèles de comparaison sélectionnés ci-dessous sont LongAlpaga et Llama2 avec des paramètres 13B, et regardent leurs performances respectives.
Dans le célèbre livre « Voyage en Occident », pourquoi Sun Wukong est-il très puissant quand il fait des ennuis dans le Palais céleste, mais il a été frustré à plusieurs reprises sur le chemin pour obtenir les Écritures? LongAlpaga a donné 5 raisons, qui peuvent être grossièrement résumées comme « l’immaturité du Roi des Singes, ses adversaires forts, sa force limitée, la tromperie ennemie, le manque initial de compagnons et d’autres facteurs ont conduit à son échec dans le voyage. » Mais au fil du temps, il a acquis de la sagesse, de l’expérience et des camarades, ce qui lui a permis de vaincre ses ennemis les plus redoutables. "
La réponse de Llama2 est plus simple. « Bien qu’il fasse des histoires à propos du Palais céleste, il n’est pas nécessairement exact de dire qu’il représente une force invaincue. En fait, il a finalement été vaincu par le puissant Tang Sanzang dans Journey to the West. Llama2 n’a pas donné la bonne réponse et a également soulevé le besoin de plus d’informations sur le contenu.
Cette fois, laissez le système lire à nouveau « Le problème à trois corps », puis demandez pourquoi Ye Wenjie a contacté les extraterrestres dans la première partie, et pourquoi l’a-t-il regretté dans la phase ultérieure? Long Alpaga croit que le contact initial de Ye Wenjie avec les extraterrestres était motivé par l’idéalisme et la vengeance, mais au fil du temps, sa vision de l’humanité a changé, réalisant le danger qu’elle peut apporter à toute l’humanité, et ses remords grandissent de jour en jour. La réponse était très claire.
La réponse de Llama2 a été : « En interagissant avec des extraterrestres, elle espère acquérir une compréhension plus profonde de la nature de l’univers et de sa place dans celui-ci. » Ye Wenjie s’est progressivement rendu compte que les extraterrestres et leur technologie ne pouvaient pas résoudre son problème. La réponse a été générale, puis il a commencé à commenter le roman dans son ensemble, répondant à des non-questions.
D’après les réponses données par les modèles, on peut voir que certains modèles tels que Llama2 [2] Vous avez peut-être vu le roman pendant le processus de pré-formation, mais si vous posez une courte question textuelle basée uniquement sur le sujet du roman, la réponse n’est pas idéale.
Les réponses des deux modèles sont contrastées, et le haut et le bas sont élevés. LongAlpaga est une bonne main pour changer les articles universitaires, commenter les tendances économiques mondiales et lire des romans, battant Llama2.
Deux lignes de code et trois conclusions clés
Llama2 est sans doute l’un des modèles open source les plus puissants de la communauté de l’IA, leader de l’industrie, et LongAlpaca peut réellement gagner. La technologie LongLoRA derrière elle a réussi à attirer l’attention des internautes, comment l’a-t-elle fait?
Il s’avère que dans le processus de traitement de texte long dans de grands modèles linguistiques, le principal coût de calcul est concentré dans le mécanisme d’auto-attention, et sa surcharge augmente au carré avec la longueur du texte.
En réponse à ce problème, l’équipe de recherche a proposé la technologie LongLoRA et simulé le mécanisme global d’auto-attention en regroupant et en compensant.
En termes simples, il s’agit de diviser les jetons correspondant à un texte long en différents groupes, de faire des calculs d’auto-attention au sein de chaque groupe, et la façon de regrouper est décalée par rapport à différentes têtes d’attention. Cette méthode peut non seulement économiser considérablement la quantité de calcul, mais aussi maintenir la transmission du champ récepteur global.
Et cette méthode d’implémentation est également très concise, seules deux lignes de code peuvent être complétées!
[5]LongLoRA explore également des moyens de s’entraîner à des grades inférieurs. Méthodes de formation originales de bas rang, telles que LoRA , n’obtient pas de bons résultats sur la migration de longueur de texte. Sur la base d’une formation de bas rang, LongLoRA introduit des couches d’incorporation (couche d’incorporation et couche de normalisation) pour un réglage fin, afin d’obtenir l’effet d’un réglage complet.
Lors de l’expansion de texte et de l’entraînement de différentes longueurs, les effets spécifiques de LongLoRA, LoRA et des techniques de réglage fin tous paramètres peuvent être mentionnés en trois dimensions:
En termes de perplexité-perplexité, les performances de la méthode LoRA originale se détériorent, tandis que LongLoRA et le réglage fin de tous les paramètres peuvent maintenir de bons résultats sous différentes longueurs de texte.
En termes de consommation de mémoire, LongLoRA et le LoRA original ont des économies significatives par rapport au réglage fin des paramètres complets. Par exemple, pour l’entraînement de modèle d’une longueur de 8k, LongLoRA réduit la consommation de mémoire de 46,3 Go à 25,6 Go par rapport au réglage fin des paramètres complets.
En termes de temps d’entraînement, pour un modèle d’entraînement de 64k longueur, par rapport à LoRA conventionnel, LongLoRA réduit le temps de formation d’environ 90 ~ 100 heures à 52,4 heures, tandis que le réglage fin complet des paramètres dépasse 1000 heures.
La méthode d’entraînement minimaliste, les ressources informatiques et la consommation de temps minimales, ainsi que l’excellente précision rendent LongLoRA possible à grande échelle. À l’heure actuelle, les technologies et les modèles pertinents sont tous open source, et les utilisateurs intéressés peuvent déployer leur propre expérience.
Il convient de mentionner qu’il s’agit d’un autre chef-d’œuvre de l’équipe Jajaya suivant le grand modèle multimodal LISA qui « peut tout diviser » sorti le 9 août. Avec seulement deux mois d’écart, il faut dire que la vitesse et la capacité de cette recherche sont aussi étonnantes que LongLoRA.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Deux lignes de code pour résoudre les limitations du dialogue de modèle de langage volumineux ! L’équipe de Jia Jiaya chinois de Hong Kong et le MIT ont lancé une technologie d’extension de texte ultra-longue
Perdu à mi-chemin, le modèle est paresseux, plus le contexte est long, plus le modèle devient bête... Si vous avez expérimenté des produits de modèle de langage volumineux, les utilisateurs ressentiront la limitation de la longueur de la saisie de texte dans une certaine mesure, par exemple lorsque vous souhaitez discuter d’un contenu légèrement plus long avec le grand modèle, vous devez diviser l’entrée et les points principaux de l’entrée précédente seront rapidement oubliés par le grand modèle.
C’est un défaut de dialogue typique du grand modèle de langage! Comme les enfants nés avec des déficits de l’attention, il est difficile de se concentrer sur la finition d’un nouveau livre. La clé du défaut est que le modèle manque de capacités de traitement de texte long. C’est maintenant brisé.
Récemment, les nouvelles technologies et les nouveaux modèles publiés par l’équipe de Jia Jiaya et le MIT sont apparus discrètement sur les listes critiques des principaux sites Web open source: hugging face hot list first, paperwithcode hot first, Github all python project hot cinquième, GitHub stars a dépassé 1,000 en une semaine, et les messages techniques connexes sur Twitter ont été vus près de 180,000 ...
La technologie, appelée LongLoRA, est pratique mais étonnamment simple: avec seulement deux lignes de code et une machine A100 à 8 cartes, la longueur du texte du modèle 7B peut être étendue à 100k jetons, et la longueur du texte du modèle 70B peut être étendue à 32k jetons; Dans le même temps, l’équipe de recherche a également publié LongAlpaga, le premier modèle de dialogue à texte long en grand langage avec des paramètres 70B.
Lancement du premier modèle de langage large à texte long de 70 milliards au monde
La proposition de LongLoRA a résolu pour la première fois les défauts de dialogue du modèle mondial des grands langages, et depuis lors, des dizaines de pages de documents, des centaines de pages de rapports et d’énormes livres ne sont plus devenus l’angle mort des grands modèles.
À cet égard, certains professionnels ont déclaré avec enthousiasme que LongLoRA est une lampe d’espoir dans le labyrinthe des grands modèles linguistiques! Il représente la refonte et l’attention de l’industrie aux modèles de grands langages à texte long, élargit efficacement la fenêtre de contexte des grands modèles de langage, permet au modèle de considérer et de traiter de longues séquences de texte et est une invention innovante de grands modèles de langage.
À cette fin, l’équipe de recherche a spécialement recueilli 9K paires de corpus de questions-réponses textuelles, y compris diverses questions-réponses sur des livres célèbres, des articles, des rapports approfondis et même des états financiers.
Il ne suffisait pas de répondre à de longues questions, l’équipe a sélectionné un corpus de questions et réponses courtes de 3K mélangé à un corpus de questions et réponses longues de 9K pour la formation, de sorte que le grand modèle de texte long ait des capacités de dialogue de texte court en même temps. Cet ensemble de données complet, appelé LongAlpaga-12k, est actuellement open source.
Sur la base de l’ensemble de données LongAlpaga-12k, l’équipe de recherche a formé et évalué différentes tailles de paramètres 7B, 13B, 70B et des modèles open source, notamment LongAlpaga-7B, LongAlpaca-13B et LongAlpaca-70B.
** Lire des romans, changer de papier et souligner que l’économie est le roi tous azimuts **
Sans plus tarder, sélectionnez aveuglément quelques démos pour voir l’effet LongAlpaga d’un grand modèle qui applique la technologie LongLoRA superposée à un corpus de questions et réponses 12K.
On peut voir que le modèle LongAlpaga entraîné peut facilement accepter de nouveaux articles académiques longs, et il est assez précis pour répondre aux questions académiquement pertinentes.
Ensuite, regardons l’interprétation du modèle LongAlpaga dans le domaine économique avec un seuil élevé de lecture et de compréhension.
LongAlpaga peut également lire de nouveaux romans et analyser le contenu après les avoir lus. Les modèles de comparaison sélectionnés ci-dessous sont LongAlpaga et Llama2 avec des paramètres 13B, et regardent leurs performances respectives.
La réponse de Llama2 est plus simple. « Bien qu’il fasse des histoires à propos du Palais céleste, il n’est pas nécessairement exact de dire qu’il représente une force invaincue. En fait, il a finalement été vaincu par le puissant Tang Sanzang dans Journey to the West. Llama2 n’a pas donné la bonne réponse et a également soulevé le besoin de plus d’informations sur le contenu.
La réponse de Llama2 a été : « En interagissant avec des extraterrestres, elle espère acquérir une compréhension plus profonde de la nature de l’univers et de sa place dans celui-ci. » Ye Wenjie s’est progressivement rendu compte que les extraterrestres et leur technologie ne pouvaient pas résoudre son problème. La réponse a été générale, puis il a commencé à commenter le roman dans son ensemble, répondant à des non-questions.
D’après les réponses données par les modèles, on peut voir que certains modèles tels que Llama2 [2] Vous avez peut-être vu le roman pendant le processus de pré-formation, mais si vous posez une courte question textuelle basée uniquement sur le sujet du roman, la réponse n’est pas idéale.
Les réponses des deux modèles sont contrastées, et le haut et le bas sont élevés. LongAlpaga est une bonne main pour changer les articles universitaires, commenter les tendances économiques mondiales et lire des romans, battant Llama2.
Deux lignes de code et trois conclusions clés
Llama2 est sans doute l’un des modèles open source les plus puissants de la communauté de l’IA, leader de l’industrie, et LongAlpaca peut réellement gagner. La technologie LongLoRA derrière elle a réussi à attirer l’attention des internautes, comment l’a-t-elle fait?
Il s’avère que dans le processus de traitement de texte long dans de grands modèles linguistiques, le principal coût de calcul est concentré dans le mécanisme d’auto-attention, et sa surcharge augmente au carré avec la longueur du texte.
En réponse à ce problème, l’équipe de recherche a proposé la technologie LongLoRA et simulé le mécanisme global d’auto-attention en regroupant et en compensant.
Et cette méthode d’implémentation est également très concise, seules deux lignes de code peuvent être complétées!
En termes de perplexité-perplexité, les performances de la méthode LoRA originale se détériorent, tandis que LongLoRA et le réglage fin de tous les paramètres peuvent maintenir de bons résultats sous différentes longueurs de texte.
En termes de consommation de mémoire, LongLoRA et le LoRA original ont des économies significatives par rapport au réglage fin des paramètres complets. Par exemple, pour l’entraînement de modèle d’une longueur de 8k, LongLoRA réduit la consommation de mémoire de 46,3 Go à 25,6 Go par rapport au réglage fin des paramètres complets.
En termes de temps d’entraînement, pour un modèle d’entraînement de 64k longueur, par rapport à LoRA conventionnel, LongLoRA réduit le temps de formation d’environ 90 ~ 100 heures à 52,4 heures, tandis que le réglage fin complet des paramètres dépasse 1000 heures.
La méthode d’entraînement minimaliste, les ressources informatiques et la consommation de temps minimales, ainsi que l’excellente précision rendent LongLoRA possible à grande échelle. À l’heure actuelle, les technologies et les modèles pertinents sont tous open source, et les utilisateurs intéressés peuvent déployer leur propre expérience.
Il convient de mentionner qu’il s’agit d’un autre chef-d’œuvre de l’équipe Jajaya suivant le grand modèle multimodal LISA qui « peut tout diviser » sorti le 9 août. Avec seulement deux mois d’écart, il faut dire que la vitesse et la capacité de cette recherche sont aussi étonnantes que LongLoRA.