Kết quả tìm kiếm cho "AUDIO"

Kimi phát hành mô hình âm thanh cơ bản đa năng hoàn toàn mới Kimi-Audio

Jin10 dữ liệu ngày 26 tháng 4, hôm nay, Kimi phát hành dự án mã nguồn mở mới - mô hình âm thanh cơ bản đa năng Kimi-Audio. Theo thông tin, mô hình này hỗ trợ nhận diện giọng nói, hiểu âm thanh, chuyển đổi âm thanh thành văn bản, đối thoại giọng nói và nhiều nhiệm vụ khác.
Xem thêm

阿里通义Mã nguồn mở音频语言模型Qwen2-Audio,相关论文入选顶会ACL 2024

Tin tức từ Jinshi Data ngày 13 tháng 8, mô hình lớn của Alibaba Tiếp tục Mã nguồn mở, gia đình Qwen2 Mã nguồn mở đã thêm mô hình ngôn ngữ âm thanh mới Qwen2-Audio. Qwen2-Audio có thể trả lời bằng giọng nói trực tiếp mà không cần nhập văn bản, hiểu và phân tích tín hiệu âm thanh mà người dùng nhập, bao gồm cả giọng nói, âm thanh tự nhiên, âm nhạc, v.v. Mô hình này đã vượt xa các mô hình tốt nhất trước đó trong nhiều bài đánh giá uy tín. Nhóm Tiếp tục cũng đồng thời giới thiệu một Mã nguồn mở mới về đánh giá mô hình hiểu âm thanh Điểm chuẩn, và bài báo liên quan đã được chọn vào Hội nghị top quốc tế ACL2024 diễn ra trong tuần này.
Xem thêm
  • 3

Perfect World Games và NVIDIA tiếp tục khám phá ứng dụng AI trong các kịch bản chơi game

Theo tin tức mới nhất từ WeChat chính thức của Perfect World Games, vào sáng sớm ngày 19/3, theo giờ Bắc Kinh, Hội nghị AI NVIDIA (NVIDIA GTC 2024) đã được tổ chức tại Trung tâm SAP ở San Jose, California, Mỹ. Giám đốc điều hành NVIDIA Jensen Huang đã nói về chủ đề "Chứng kiến khoảnh khắc biến đổi của AI" và chia sẻ cách nền tảng điện toán tăng tốc của NVIDIA đang thúc đẩy làn sóng tiếp theo của AI, bản sao kỹ thuật số, công nghệ đám mây và điện toán bền vững. GTC cũng thông báo rằng trò chơi đầu cuối Xianxia MMORPG "Zhuxian World" của Perfect World Games đã chính thức kết nối với công nghệ Audio2Face của NVIDIA (AI tạo ra dễ dàng chuyển đổi âm thanh thành công nghệ hoạt hình) và sử dụng hội nghị này để cho khán giả toàn cầu thấy kết quả của sự kết hợp với "Zhuxian World", và hai bên sẽ tiếp tục duy trì trao đổi và hợp tác chặt chẽ trong nhiều lĩnh vực và kịch bản của AI trong tương lai.
Xem thêm

Meta đã công bố khung AI audio2photoreal, có thể tạo ra các cảnh đối thoại nhân vật bằng cách nhập các tệp lồng tiếng

Meta gần đây đã tiết lộ một khung AI có tên audio2photoreal, có khả năng tạo ra một loạt các mô hình nhân vật NPC thực tế và tự động "hát nhép" và "tạo dáng" các mô hình nhân vật với sự trợ giúp của các tệp lồng tiếng hiện có. Báo cáo nghiên cứu chính thức chỉ ra rằng sau khi nhận được tệp lồng tiếng, khung photoreal Audio2 trước tiên sẽ tạo ra một loạt các mô hình NPC, sau đó sử dụng công nghệ lượng tử hóa và thuật toán khuếch tán để tạo ra các hành động mô hình, trong đó công nghệ lượng tử hóa cung cấp tham chiếu mẫu hành động cho khung và Thuật toán khuếch tán được sử dụng để cải thiện hiệu quả của các hành động nhân vật được tạo ra bởi khung hình. Bốn mươi ba phần trăm những người đánh giá trong thí nghiệm có kiểm soát đã "hài lòng mạnh mẽ" với các cảnh đối thoại nhân vật được tạo ra bởi khung hình, vì vậy các nhà nghiên cứu cảm thấy rằng khung photoreal Audio2 có thể tạo ra các chuyển động "năng động và biểu cảm hơn" so với các sản phẩm cạnh tranh trong ngành. Được biết, nhóm nghiên cứu hiện đã công khai mã và bộ dữ liệu có liên quan trên GitHub.
Xem thêm
  • 1