Mô hình đối thoại bằng giọng nói trong nước lớn có ở đây: Li Kaifu, Zero One và All Things Tham gia, đa phương thức song ngữ Trung-Anh, nguồn mở và có sẵn trên thị trường

Nguồn: Qubit

Mô hình mã nguồn mở đối thoại song ngữ song ngữ Trung-Anh đầu tiên đã có mặt!

Trong vài ngày qua, một bài báo về mô hình đa phương thức văn bản lời nói quy mô lớn đã xuất hiện trên arXiv, và tên công ty mô hình lớn của Kai-fu Lee 01.ai - 01.ai - đã xuất hiện trong số các công ty chữ ký .

Bài viết này đề xuất mô hình hội thoại song ngữ Trung-Anh có sẵn trên thị trường LLaSM, hỗ trợ cả ghi và nhập văn bản và không có vấn đề gì với "nhân đôi":

Bài viết tin rằng "voice chat" là cách tương tác thuận tiện và tự nhiên hơn giữa AI và con người, không chỉ thông qua nhập văn bản.

Sử dụng các mô hình lớn, một số cư dân mạng đã tưởng tượng ra viễn cảnh “nằm viết mã và nói chuyện”.

Nghiên cứu này đến từ LinkSoul.AI, Đại học Bắc Kinh và 01Wanwu. Nó có nguồn mở và bạn cũng có thể thử trực tiếp trong Ôm mặt.

Hãy xem nó hoạt động như thế nào.

Hỗ trợ nhập văn bản và giọng nói, cũng có thể phát trên điện thoại di động

Theo các nhà nghiên cứu, LLaSM là mô hình đối thoại nguồn mở và có sẵn trên thị trường đầu tiên hỗ trợ đối thoại đa phương thức lời nói-văn bản song ngữ bằng tiếng Trung và tiếng Anh.

Vì vậy, chúng ta hãy xem khả năng nhập văn bản bằng giọng nóikhả năng song ngữ tiếng Trung và tiếng Anh của nó.

Đầu tiên, hãy có sự va chạm văn hóa giữa tiếng Trung và tiếng Anh và để anh ấy đánh giá Lý Bạch bằng tiếng Anh:

Không sao, nó ghi đúng triều đại của Lý Bạch. Nếu bạn không hiểu tiếng Anh, không có vấn đề gì khi dịch trực tiếp sang tiếng Trung:

Tiếp theo, hãy thử một câu hỏi hỗn hợp Trung-Anh và thêm "đồ chiên" bằng tiếng Trung, kết quả mô hình cũng tốt:

Chúng ta hãy thử lại mô hình và để nó tiến hành một số đánh giá xem cái nào mạnh hơn, Lý Bạch hay Đỗ Phủ.

Có thể thấy, sau một hồi suy nghĩ, mẫu đã đưa ra đánh giá rất trung lập, đồng thời cũng có “ý thức chung về xử lý nước” cơ bản của mẫu lớn (đầu chó bằng tay)

Tất nhiên, nó không chỉ có thể chơi được trên máy tính mà còn có thể chơi trên điện thoại di động.

Hãy thử sử dụng giọng nói để nhập “Đề xuất công thức cho tôi”:

Bạn có thể thấy mô hình đưa ra chính xác công thức "phô mai cà tím", nhưng tôi không biết nó có ngon hay không.

Tuy nhiên, khi dùng thử, chúng tôi cũng nhận thấy mô hình này đôi khi có lỗi.

Ví dụ, đôi khi nó không “hiểu rõ lời nói của con người” cho lắm.

Khi được yêu cầu xuất nội dung hỗn hợp tiếng Trung và tiếng Anh, nó sẽ giả vờ không hiểu và xuất ra tiếng Anh:

Và khi câu hỏi hỗn hợp Trung-Anh muốn nghe "Taylor Swift's Red", người mẫu trực tiếp mắc lỗi lớn, liên tục xuất ra một câu và thậm chí không thể dừng lại ...

Nhìn chung, khi gặp những câu hỏi hoặc yêu cầu pha trộn giữa tiếng Trung và tiếng Anh, khả năng đầu ra của mô hình vẫn chưa tốt cho lắm.

Nhưng xét riêng thì khả năng diễn đạt cả tiếng Trung và tiếng Anh của nó khá tốt.

Vậy mô hình đó được thực hiện như thế nào?

**Bạn đã làm mẫu mới nào? **

Đánh giá qua quá trình chơi thử, LLaSM có hai tính năng chính: Một tính năng hỗ trợ đầu vào tiếng Trung và tiếng Anh, còn tính năng còn lại là đầu vào kép gồm giọng nói và văn bản.

Để đạt được hai điểm này, cần thực hiện một số điều chỉnh tương ứng trong kiến trúc và dữ liệu huấn luyện.

Về mặt kiến trúc, LLaSM tích hợp mô hình nhận dạng giọng nói hiện tại và mô hình ngôn ngữ lớn.

LLaSM bao gồm ba phần, bao gồm mô hình nhận dạng giọng nói tự động Whisper, bộ điều hợp phương thức và mô hình lớn LLaMA.

Trong số đó, Whisper chịu trách nhiệm nhận đầu vào giọng nói gốc và xuất ra một biểu diễn vectơ của các tính năng giọng nói; bộ điều hợp phương thức chịu trách nhiệm căn chỉnh các phần nhúng giọng nói và văn bản; LLaMA chịu trách nhiệm hiểu các hướng dẫn nhập giọng nói và văn bản và tạo ra các câu trả lời.

Quá trình huấn luyện mô hình được chia thành hai giai đoạn. Giai đoạn đầu tiên huấn luyện bộ điều hợp phương thức, cố định bộ mã hóa và mô hình lớn, nghĩa là cho phép nó học căn chỉnh giọng nói và văn bản; giai đoạn thứ hai cố định bộ mã hóa, huấn luyện bộ điều hợp phương thức và mô hình lớn. , để học khả năng đối thoại đa phương thức.

Trên dữ liệu đào tạo, các nhà nghiên cứu đã biên soạn bộ dữ liệu LLaSM-Audio-Instructions chứa 199.000 đoạn hội thoại và 508.000 mẫu văn bản lời nói.

Trong số 508.000 mẫu văn bản lời nói, có 80.000 mẫu giọng nói tiếng Trung và 428.000 mẫu giọng nói tiếng Anh.

Dựa trên các bộ dữ liệu như WizardLM, ShareGPT và GPT-4-LLM, các nhà nghiên cứu sử dụng công nghệ chuyển văn bản thành giọng nói để tạo gói giọng nói cho các bộ dữ liệu này và lọc ra các cuộc hội thoại không hợp lệ.

Đây hiện là tập dữ liệu lệnh âm thanh-văn bản tiếng Trung và tiếng Anh lớn nhất nhưng vẫn đang được sắp xếp và theo các nhà nghiên cứu, nó sẽ có nguồn mở sau khi phân loại.

Tuy nhiên, bài báo chưa so sánh hiệu quả đầu ra của nó với các mô hình giọng nói hoặc mô hình văn bản khác.

Giới thiệu về tác giả

Bài viết này đến từ LinkSoul.AI, Đại học Bắc Kinh và Zero One Thing.

Đồng tác giả Yu Shu và Siwei Dong đều đến từ LinkSoul.AI và trước đây từng làm việc tại Viện nghiên cứu trí tuệ nhân tạo Zhiyuan Bắc Kinh.

LinkSoul.AI là một công ty khởi nghiệp về AI trước đây đã ra mắt mô hình ngôn ngữ Trung Quốc lớn Llama 2 mã nguồn mở đầu tiên.

Là một công ty kiểu mẫu lớn thuộc sở hữu của Kai-Fu Lee, Zero One World cũng đóng góp vào nghiên cứu này. Trang Ôm Mặt của tác giả Wenhao Huang cho thấy ông tốt nghiệp Đại học Phúc Đán.

Địa chỉ giấy:

Trang web demo:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)