Résultats de la recherche pour "AUDIO"

Kimi a publié un tout nouveau modèle de base audio universel Kimi-Audio

Jin10 données du 26 avril, aujourd'hui, Kimi a lancé un nouveau projet Open Source - le tout nouveau modèle de base audio universel Kimi-Audio. Selon les informations, ce modèle prend en charge plusieurs tâches telles que la reconnaissance vocale, la compréhension audio, la conversion audio en texte, et le dialogue vocal.
Plus

Le modèle linguistique audio Qwen2-Audio d'Open Source d'Alitongyi, dont l'article correspondant a été sélectionné pour la conférence de haut niveau ACL 2024

Golden Ten Data a rapporté le 13 août que le grand modèle d’Ali Tongyi continuait d’être open-source, et que la série Qwen2 de familles open-source ajoutait le modèle de langage audio Qwen2-Audio. Qwen2-Audio peut répondre directement aux questions et réponses sans saisie de texte, comprendre et analyser les signaux audio entrants par les utilisateurs, y compris les voix humaines, les sons naturels, la musique, etc. Le modèle a nettement surpassé les meilleurs modèles précédents dans plusieurs revues faisant autorité. Dans le même temps, l’équipe de Tongyi a également lancé un nouvel ensemble de benchmarks d’évaluation du modèle de compréhension audio, et des articles connexes ont été sélectionnés pour la ACL2024 de la conférence internationale au sommet qui se tient cette semaine.
Plus
  • 3

Perfect World Games et NVIDIA continuent d’explorer l’application de l’IA dans les scénarios de jeu

Selon les dernières nouvelles du WeChat officiel de Perfect World Games, tôt le matin du 19 mars, heure de Beijing, la conférence NVIDIA IA (NVIDIA GTC 2024) s’est tenue au SAP Center de San Jose, en Californie, aux États-Unis. Le PDG de NVIDIA, Jensen Huang, s’est exprimé sur le thème « Assister au moment de transformation de l’IA » et a expliqué comment la plate-forme de calcul accéléré de NVIDIA est à l’origine de la prochaine vague d’IA, de jumeaux numériques, de technologies cloud et d’informatique durable. GTC a également annoncé que le jeu terminal Xianxia MMORPG de Perfect World Games « Zhuxian World » s’est officiellement connecté à la technologie Audio2Face de NVIDIA (l’IA générative convertit facilement l’audio en technologie d’animation), et a utilisé cette conférence pour montrer au public mondial les résultats de la combinaison avec « Zhuxian World », et les deux parties continueront à maintenir des échanges et une coopération étroits dans de multiples domaines et scénarios de l’IA à l’avenir.
Plus

Meta a annoncé le framework d’IA audio2photoreal, qui peut générer des scènes de dialogue de personnages en saisissant des fichiers de doublage

Meta a récemment dévoilé un framework d’IA appelé audio2photoreal, qui est capable de générer une série de modèles de personnages de PNJ réalistes et de « synchroniser » et de « poser » automatiquement les modèles de personnages à l’aide de fichiers de voix off existants. Le rapport de recherche officiel a souligné qu’après avoir reçu le fichier de doublage, le cadre photoréaliste Audio2 générera d’abord une série de modèles NPC, puis utilisera la technologie de quantification et l’algorithme de diffusion pour générer des actions de modèle, dans lesquelles la technologie de quantification fournit une référence d’échantillon d’action pour le cadre et l’algorithme de diffusion est utilisé pour améliorer l’effet des actions de caractère générées par le cadre. Quarante-trois pour cent des évaluateurs de l’expérience contrôlée étaient « fortement satisfaits » des scènes de dialogue des personnages générées par le cadre, de sorte que les chercheurs ont estimé que le cadre photoréaliste Audio2 était capable de générer des mouvements « plus dynamiques et expressifs » que les produits concurrents de l’industrie. Il est rapporté que l’équipe de recherche a maintenant rendu public le code et l’ensemble de données pertinents sur GitHub.
Plus
  • 1