La concurrence de la technologie nationale des modèles à grande échelle s’est accélérée et, après le lancement des derniers produits d’iFLYTEK Xinghuo et Zhipu, Baichuan a également inauguré de nouvelles réalisations de modèles à grande échelle.
Dans la matinée du 30 octobre, la société de grands modèles d’IA « Baichuan Intelligence » fondée par Wang Xiaochuan a annoncé le lancement du grand modèle Baichuan2-192K, qui a une longueur de fenêtre contextuelle allant jusqu’à 192K et peut traiter environ 350 000 caractères chinois.
Baichuan Intelligence a déclaré que Baichuan2-192K est actuellement la fenêtre contextuelle la plus longue au monde, et qu’elle est également 4,4 fois supérieure à celle de Claude2, le meilleur grand modèle qui prend actuellement en charge les longues fenêtres contextuelles (prend en charge 100 000 fenêtres contextuelles, mesurées environ 80 000 mots), et est 14 fois (1400%) de GPT-4 (prend en charge 32K fenêtres contextuelles, mesurées environ 25 000 mots). **Cela surpasse non seulement Claude2 dans la longueur de la fenêtre contextuelle, mais mène également Claude2 dans la qualité de la génération de texte à longue fenêtre, de la compréhension du contexte long et des questions et réponses sur le texte long, du résumé, etc.
Il est rapporté que Baichuan2-192K sera fourni aux utilisateurs d’entreprise sous la forme d’appels d’API et d’un déploiement privatisé. À l’heure actuelle, Baichuan Intelligent a lancé le test interne de l’API du grand modèle et l’a ouvert aux principaux partenaires des secteurs juridique, des médias, de la finance et autres.
Il est rapporté que Baichuan Intelligence a été créé le 10 avril 2023 par Wang Xiaochuan, fondateur et ancien PDG de Sogou. Son équipe principale est composée des meilleurs talents de l’IA issus d’entreprises technologiques bien connues telles que Sogou, Google, Tencent, Baidu, Huawei, Microsoft et Byte. À l’heure actuelle, la taille de l’équipe de Baichuan Intelligent est de plus de 170 personnes, dont près de 70% sont des employés titulaires d’une maîtrise ou plus, et plus de 80% sont du personnel de recherche et développement.
Au cours des 200 derniers jours, Baichuan Intelligent a publié un grand modèle tous les 28 jours en moyenne, et a continuellement Baichuan-7B / 13B, Baichuan2-7B / 13B quatre grands modèles commerciaux gratuits open source et Baichuan-53B, Baichuan2-53B deux grands modèles à source fermée, dans le domaine de l’écriture, de la création de texte et d’autres domaines de capacité a atteint un bon niveau dans l’industrie. À l’heure actuelle, les deux modèles open source Baichuan-7B et 13B sont parmi les meilleurs dans de nombreuses listes d’évaluation faisant autorité, avec un téléchargement cumulé de plus de 6 millions de fois.
En ce qui concerne l’entreprise qui construit de grands modèles d’IA, Wang Xiaochuan a déclaré que les outils techniques existants de son équipe peuvent être utilisés pour construire de grands modèles, et que les concurrents de l’entreprise sont les solutions open source des grandes entreprises. Wang Xiaochuan pense également que toute l’équipe n’a pas besoin d’être trop grande et que 100 personnes suffisent.
Le 31 août, Baichuan Intelligent a pris les devants en adoptant les « Mesures provisoires pour la gestion des services d’intelligence artificielle générative » pour mémoire, et a été la seule start-up modèle à grande échelle établie cette année parmi les huit premières entreprises, et a ouvert l’interface API Baichuan2-53B le 25 septembre, entrant officiellement dans le domaine de l’entreprise To B et commençant le processus de commercialisation.
Le 17 octobre, Baichuan Intelligent a annoncé qu’elle avait bouclé le tour de financement stratégique A1 de 300 millions de dollars américains, et Alibaba, Tencent, Xiaomi et d’autres géants de la technologie ainsi qu’un certain nombre d’institutions d’investissement de premier plan ont participé à ce tour. Avec l’ajout du tour de table de 50 millions de dollars américains, le montant cumulé du financement de Baichuan Intelligent a atteint 350 millions de dollars américains (environ 2,543 milliards de yuans).
Baichuan Intelligent n’a pas divulgué l’évaluation spécifique actuelle, se contentant de dire qu’après ce tour de financement, la société est devenue une licorne technologique. Selon la définition générale, la valorisation des licornes est supérieure à 1 milliard de dollars américains (environ 7,266 milliards de yuans).
**Lors de la sortie de Baichuan2-192K, Baichuan Intelligent a déclaré qu’il s’était bien comporté dans 10 ensembles de questions-réponses et d’évaluations de résumés en chinois et en anglais, tels que Dureader, NarrativeQA, LSHT et TriviaQA, et que 7 d’entre eux avaient atteint SOTA, surpassant considérablement les autres modèles à longue fenêtre et devançant Claude2 de manière globale. **
Baichuan a souligné que l’industrie de l’intelligence artificielle s’accorde à dire que l’extension de la fenêtre contextuelle peut améliorer efficacement les performances des grands modèles, mais que la fenêtre contextuelle ultra-longue signifie des exigences de puissance de calcul plus élevées et une plus grande pression sur la mémoire. À l’heure actuelle, il existe de nombreuses façons d’augmenter la longueur de la fenêtre contextuelle dans l’industrie, notamment les fenêtres coulissantes, le sous-échantillonnage, les petits modèles, etc. Bien que ces méthodes puissent augmenter la longueur de la fenêtre contextuelle, elles ont toutes des degrés variables de dégradation des performances du modèle, en d’autres termes, elles sacrifient toutes les performances d’autres aspects du modèle en échange d’une fenêtre contextuelle plus longue. Le Baichuan2-192K sorti cette fois-ci atteint un équilibre entre la longueur de la fenêtre et les performances du modèle grâce à l’optimisation de l’algorithme et de l’ingénierie, et permet d’améliorer simultanément la longueur de la fenêtre et les performances du modèle.
En termes d’algorithmes, Baichuan Intelligent propose un schéma d’extrapolation pour le codage de position dynamique RoPE et ALiBi, ce qui améliore la capacité de modélisation du modèle à s’appuyer sur de longues séquences tout en assurant la résolution, et lorsque la longueur de la fenêtre s’étend, la capacité de modélisation de séquence de Baichuan2-192K continue d’augmenter. En termes d’ingénierie, sur la base du cadre d’apprentissage distribué auto-développé, Baichuan Intelligent intègre et optimise plusieurs technologies et crée un ensemble complet de solutions distribuées parallèles 4D, qui peuvent trouver automatiquement la stratégie distribuée la plus appropriée en fonction de la charge spécifique du modèle, ce qui réduit considérablement l’occupation de la mémoire dans le processus d’entraînement et d’inférence à longue fenêtre.
Baichuan2-192K peut être profondément intégré à des scénarios plus verticaux, jouer un rôle réel dans le travail, la vie et l’apprentissage des gens, et aider les utilisateurs de l’industrie à mieux réduire les coûts et à augmenter l’efficacité. Par exemple, il peut aider les gestionnaires de fonds à résumer et à interpréter les états financiers, à analyser les risques et les opportunités de l’entreprise ; Aider les avocats à identifier les risques dans de multiples documents juridiques, en examinant les contrats et les documents juridiques ; Aider les techniciens à lire des centaines de pages de documentation de développement et à répondre aux questions techniques ; Il peut également aider le personnel à parcourir rapidement un grand nombre de documents et à résumer les derniers progrès de pointe.
À l’heure actuelle, Baichuan2-192K est ouvert aux principaux partenaires de Baichuan Intelligence sous la forme d’appels API, et a conclu une coopération avec les médias financiers et les cabinets d’avocats, affirmant qu’il sera bientôt entièrement ouvert.
L’équipe de Wang Xiaochuan a déclaré que Baichuan Intelligent Baichuan2-192K innovait pour les fenêtres de contexte longues dans les algorithmes et l’ingénierie, vérifiait la faisabilité des fenêtres de contexte long et ouvrait une nouvelle voie de recherche scientifique pour l’amélioration des performances des grands modèles. Dans le même temps, son contexte plus long constituera également une bonne base technique pour l’industrie afin d’explorer des domaines de pointe tels que les agents et les applications multimodales.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Wang Xiaochuan a annoncé le dernier grand modèle, qui est censé être le plus long du monde, 14 fois celui de GPT-4
Source d’origine : Titanium Media
Auteur : Lin Zhijia
La concurrence de la technologie nationale des modèles à grande échelle s’est accélérée et, après le lancement des derniers produits d’iFLYTEK Xinghuo et Zhipu, Baichuan a également inauguré de nouvelles réalisations de modèles à grande échelle.
Dans la matinée du 30 octobre, la société de grands modèles d’IA « Baichuan Intelligence » fondée par Wang Xiaochuan a annoncé le lancement du grand modèle Baichuan2-192K, qui a une longueur de fenêtre contextuelle allant jusqu’à 192K et peut traiter environ 350 000 caractères chinois.
Baichuan Intelligence a déclaré que Baichuan2-192K est actuellement la fenêtre contextuelle la plus longue au monde, et qu’elle est également 4,4 fois supérieure à celle de Claude2, le meilleur grand modèle qui prend actuellement en charge les longues fenêtres contextuelles (prend en charge 100 000 fenêtres contextuelles, mesurées environ 80 000 mots), et est 14 fois (1400%) de GPT-4 (prend en charge 32K fenêtres contextuelles, mesurées environ 25 000 mots). **Cela surpasse non seulement Claude2 dans la longueur de la fenêtre contextuelle, mais mène également Claude2 dans la qualité de la génération de texte à longue fenêtre, de la compréhension du contexte long et des questions et réponses sur le texte long, du résumé, etc.
Il est rapporté que Baichuan2-192K sera fourni aux utilisateurs d’entreprise sous la forme d’appels d’API et d’un déploiement privatisé. À l’heure actuelle, Baichuan Intelligent a lancé le test interne de l’API du grand modèle et l’a ouvert aux principaux partenaires des secteurs juridique, des médias, de la finance et autres.
Au cours des 200 derniers jours, Baichuan Intelligent a publié un grand modèle tous les 28 jours en moyenne, et a continuellement Baichuan-7B / 13B, Baichuan2-7B / 13B quatre grands modèles commerciaux gratuits open source et Baichuan-53B, Baichuan2-53B deux grands modèles à source fermée, dans le domaine de l’écriture, de la création de texte et d’autres domaines de capacité a atteint un bon niveau dans l’industrie. À l’heure actuelle, les deux modèles open source Baichuan-7B et 13B sont parmi les meilleurs dans de nombreuses listes d’évaluation faisant autorité, avec un téléchargement cumulé de plus de 6 millions de fois.
En ce qui concerne l’entreprise qui construit de grands modèles d’IA, Wang Xiaochuan a déclaré que les outils techniques existants de son équipe peuvent être utilisés pour construire de grands modèles, et que les concurrents de l’entreprise sont les solutions open source des grandes entreprises. Wang Xiaochuan pense également que toute l’équipe n’a pas besoin d’être trop grande et que 100 personnes suffisent.
Le 31 août, Baichuan Intelligent a pris les devants en adoptant les « Mesures provisoires pour la gestion des services d’intelligence artificielle générative » pour mémoire, et a été la seule start-up modèle à grande échelle établie cette année parmi les huit premières entreprises, et a ouvert l’interface API Baichuan2-53B le 25 septembre, entrant officiellement dans le domaine de l’entreprise To B et commençant le processus de commercialisation.
Le 17 octobre, Baichuan Intelligent a annoncé qu’elle avait bouclé le tour de financement stratégique A1 de 300 millions de dollars américains, et Alibaba, Tencent, Xiaomi et d’autres géants de la technologie ainsi qu’un certain nombre d’institutions d’investissement de premier plan ont participé à ce tour. Avec l’ajout du tour de table de 50 millions de dollars américains, le montant cumulé du financement de Baichuan Intelligent a atteint 350 millions de dollars américains (environ 2,543 milliards de yuans).
Baichuan Intelligent n’a pas divulgué l’évaluation spécifique actuelle, se contentant de dire qu’après ce tour de financement, la société est devenue une licorne technologique. Selon la définition générale, la valorisation des licornes est supérieure à 1 milliard de dollars américains (environ 7,266 milliards de yuans).
**Lors de la sortie de Baichuan2-192K, Baichuan Intelligent a déclaré qu’il s’était bien comporté dans 10 ensembles de questions-réponses et d’évaluations de résumés en chinois et en anglais, tels que Dureader, NarrativeQA, LSHT et TriviaQA, et que 7 d’entre eux avaient atteint SOTA, surpassant considérablement les autres modèles à longue fenêtre et devançant Claude2 de manière globale. **
En termes d’algorithmes, Baichuan Intelligent propose un schéma d’extrapolation pour le codage de position dynamique RoPE et ALiBi, ce qui améliore la capacité de modélisation du modèle à s’appuyer sur de longues séquences tout en assurant la résolution, et lorsque la longueur de la fenêtre s’étend, la capacité de modélisation de séquence de Baichuan2-192K continue d’augmenter. En termes d’ingénierie, sur la base du cadre d’apprentissage distribué auto-développé, Baichuan Intelligent intègre et optimise plusieurs technologies et crée un ensemble complet de solutions distribuées parallèles 4D, qui peuvent trouver automatiquement la stratégie distribuée la plus appropriée en fonction de la charge spécifique du modèle, ce qui réduit considérablement l’occupation de la mémoire dans le processus d’entraînement et d’inférence à longue fenêtre.
Baichuan2-192K peut être profondément intégré à des scénarios plus verticaux, jouer un rôle réel dans le travail, la vie et l’apprentissage des gens, et aider les utilisateurs de l’industrie à mieux réduire les coûts et à augmenter l’efficacité. Par exemple, il peut aider les gestionnaires de fonds à résumer et à interpréter les états financiers, à analyser les risques et les opportunités de l’entreprise ; Aider les avocats à identifier les risques dans de multiples documents juridiques, en examinant les contrats et les documents juridiques ; Aider les techniciens à lire des centaines de pages de documentation de développement et à répondre aux questions techniques ; Il peut également aider le personnel à parcourir rapidement un grand nombre de documents et à résumer les derniers progrès de pointe.
À l’heure actuelle, Baichuan2-192K est ouvert aux principaux partenaires de Baichuan Intelligence sous la forme d’appels API, et a conclu une coopération avec les médias financiers et les cabinets d’avocats, affirmant qu’il sera bientôt entièrement ouvert.
L’équipe de Wang Xiaochuan a déclaré que Baichuan Intelligent Baichuan2-192K innovait pour les fenêtres de contexte longues dans les algorithmes et l’ingénierie, vérifiait la faisabilité des fenêtres de contexte long et ouvrait une nouvelle voie de recherche scientifique pour l’amélioration des performances des grands modèles. Dans le même temps, son contexte plus long constituera également une bonne base technique pour l’industrie afin d’explorer des domaines de pointe tels que les agents et les applications multimodales.