La tendance de la "guerre des cent modèles" de l'IA a-t-elle changé ? 360, Meitu a successivement lancé des mouvements et le modèle visuel à grande échelle a mis en scène un "combat de fées"

Question

Source originale : China Times![](https://img.gateio.im/social/moments-bab2147faf-e3e634b33e-dd1a6f-62a40f) Source de l'image : générée par l'IA illimitée‌Alors que la recrudescence du développement et de l'application de grands modèles d'IA continue d'augmenter, le journaliste a remarqué que les joueurs sur la piste commençaient à se concentrer sur les grands modèles de langage vers les grands modèles visuels. Récemment, Adobe, Meta, 360, Meitu et de nombreuses autres grandes sociétés Internet nationales et étrangères ont publié des résultats de modèles à grande échelle, ajoutant du feu au marché déjà extrêmement chaud de l'IA."L'application de l'intelligence artificielle dans le domaine de la vidéo attire de plus en plus l'attention." Wu Gaobin, vice-président du comité d'intégration de l'industrialisation et de l'industrialisation de l'Association chinoise de l'industrie des communications, a déclaré au journaliste du "China Times" que la publication de ces grands Les modèles d'IA à grande échelle ont apporté une nouvelle concurrence aux entreprises. La concurrence entre les entreprises favorisera l'innovation et le progrès technologiques, et apportera également de meilleurs produits et services. La concurrence favorisera également la coopération et le partage des ressources entre les entreprises, afin de mieux répondre à la demande du marché.## **Modèle visuel à grande échelle au pays et à l'étranger "Fairy Fighting"**Après l'émergence de rangées de modèles linguistiques à grande échelle et de modèles multimodaux à grande échelle, les "modèles visuels à grande échelle" sont devenus un autre champ de bataille pour les stratèges militaires. Il y a quelques jours, Meitu a lancé MiracleVision, un modèle de vision IA à grande échelle, ainsi que 7 produits, dont l'outil de création de vision IA WHEE, l'outil de génération humaine numérique IA DreamAvatar et l'assistant IA RoboNeo de Meitu.Selon les rapports, MiracleVision a une expression visuelle et une créativité fortes, et peut inverser l'évolution technologique des scènes de création visuelle telles que la peinture, le design, le cinéma et la télévision, la photographie, les jeux, la 3D et l'animation. Différent des autres grands modèles sur le marché, il est particulièrement efficace pour générer des orientations telles que la photographie de portrait asiatique, le style et la mode nationaux et le design commercial.Wu Xinhong, fondateur, président et PDG de Meitu, a déclaré dans une interview avec un journaliste du China Times : "Le principal avantage du grand modèle de Meitu est de comprendre l'esthétique. La base d'utilisateurs finaux C est suffisamment importante. Le coût de l'acquisition de clients est faible. Meitu compte actuellement 243 millions d'utilisateurs actifs mensuels et 7,19 millions de membres VIP mondiaux, qui peuvent vérifier le succès du produit en peu de temps. Contrairement à d'autres fabricants, le grand modèle de Meitu se concentre sur l'esthétique (dessin d'écran, conception de qualité, etc. .), à l'avenir, si nous devons rivaliser, nous "roulerons" sur l'esthétique."Par coïncidence, 360 a également officiellement publié "360 Smart Brain-Vision Large Model" il y a quelques jours. Zhou Hongyi, le fondateur de 360, a déclaré que le grand modèle de langage est la base de la construction d'un grand modèle visuel, et que le cœur de l'amélioration des capacités multimodales est la cognition, le raisonnement et les capacités de prise de décision du grand modèle de langage. Dans le même temps, le grand modèle visuel est également un composant de capacité important du "360 Smart Brain", qui peut comprendre des images, des vidéos et des sons à l'avenir.Les entreprises étrangères ont également commencé à présenter des modèles visuels. Il y a quelques jours, le géant des médias sociaux Meta a annoncé qu'il ouvrirait aux chercheurs certains composants d'un modèle d'intelligence artificielle "humanoïde" appelé I-JEPA, qui peut analyser et compléter des images inachevées avec plus de précision que les modèles existants, tandis qu'au lieu de simplement faire des inférences basées sur des pixels proches comme le font d'autres modèles d'IA générative.Yang Likun, le scientifique en chef de l'intelligence artificielle de Meta, a un jour publiquement souligné que le modèle autorégressif GPT actuel n'a pas la capacité de planifier et de raisonner, et que le futur système GPT pourrait être abandonné, et a donné ce qu'il pense être la bonne réponse - le monde modèle. I-JEPA serait le premier modèle d'IA basé sur des éléments clés de sa vision pour analyser et compléter les images inachevées avec plus de précision que les modèles existants.En outre, Meta a également publié le modèle d'IA de génération de parole "Voicebox", qui prend en charge la génération de parole à partir de texte, peut faire correspondre des styles audio basés sur des échantillons qui ne durent que deux secondes et convertit des échantillons de texte dans une autre langue. des échantillons de voix et la possibilité de lire le contenu du texte traduit dans la voix originale de l'orateur, six langues sont actuellement prises en charge : anglais, français, allemand, espagnol, polonais et portugais.Dès avril de cette année, Adobe a intégré sa fonction Adobe Firefly (produits de type ChatGPT) dans la matrice de produits audio et vidéo tels que Premiere Pro, After Effects, Audition, Remix, etc., offrant aux utilisateurs une génération de contenu en un clic. , édition, correspondance des couleurs, changement de musique et autres fonctions.## **De "Modèle de langage" à "Modèle de vision"**Le « China Artificial Intelligence Large-scale Model Map Research Report » montre qu'en termes de nombre et de distribution de modèles à grande échelle publiés dans le monde, la Chine et les États-Unis sont largement en tête, représentant plus de 80 % du marché mondial. total. Parallèlement, de plus en plus d'équipes R&D en Europe, en Russie, en Israël, etc. investissent également dans le développement de grands modèles. Mais il convient de noter qu'il existe encore peu de grands modèles dans les domaines de la vision par ordinateur et d'autres domaines dans mon pays.En enquêtant sur la raison, Yan Shuicheng, scientifique en chef invité de l'Institut de recherche Zhiyuan de Pékin, a déclaré au journaliste du "China Times" : "La principale raison pour laquelle le développement de modèles visuels est légèrement en retard est que les grands modèles visuels consomment beaucoup plus de puissance de calcul. que du texte, donc nous attendons également avec impatience un développement plus rapide des puces, et il est même possible d'intégrer d'autres puces non GPU ensemble.Les modèles que vous voyez maintenant sont généralement du niveau kilocal, mais certaines personnes peuvent utiliser le niveau de carte 10 000 pour les faire l'année prochaine."Selon Huang Tiejun, président de l'Institut de recherche sur l'intelligence artificielle Zhiyuan de Beijing, le champ visuel est au centre de la prochaine vague dans le domaine des grands modèles. Il a souligné que les méthodes de pensée et les itinéraires de base derrière le grand modèle visuel et le grand modèle de langage sont les mêmes, mais les données d'entrée sont devenues des images et des vidéos, et le modèle formé a une certaine capacité générale de langage visuel. L'AIGC (Artificial Intelligence Automatically Generated Content) permet de générer des images et des artworks." Il y a aussi une capacité plus basique, c'est-à-dire qu'après avoir vu le monde, il faut d'abord être capable de distinguer le monde (tout)."Pour le développement de modèles visuels à grande échelle, de nombreuses organisations ont également exprimé des attitudes optimistes. Selon le rapport de recherche publié par CICC Research, la vision par ordinateur devrait atteindre un degré d'automatisation plus élevé, une haute précision et une faible consommation d'énergie à l'avenir, enrichissant davantage l'écologie du contenu du métaverse et abaissant les barrières à l'entrée. L'avancement de la vision par ordinateur a conduit à la maturité rapide de la technologie de reconstruction 3D et de capture de mouvement, et a progressivement accumulé les progrès technologiques dans leurs domaines respectifs. À l'avenir, la vision par ordinateur devrait inaugurer un degré d'automatisation plus élevé, une plus grande précision et une consommation d'énergie réduite. Elle obtiendra progressivement de meilleurs effets visuels sur le terminal mobile, sera appliquée dans un grand nombre d'industries en aval et se déplacera progressivement. vers la connexion du monde physique et du monde numérique Une vision du monde à long terme.CITIC Securities Research a également déclaré que dans le domaine de la conception, les grands modèles conduisent la conception numérique à la conception intelligente, et les logiciels de conception industrielle associés combinés avec GPT et d'autres technologies peuvent être appliqués à des scénarios tels que la planification de la conception, l'optimisation de la mise en page, les assistants plug-in, Dans le cadre de la tendance générale à la mise à niveau de l'IA, un nouveau cycle de révolution de la productivité s'annonce.