Sự phát triển của "Tư vấn 2.0", đứng trước bố cục mô hình lớn của SenseTime

2023-07-10 08:05:29

Chúng ta đang trải qua một làn sóng khổng lồ về cơ sở hạ tầng AI mới.

Trong vòng nửa năm, mô hình quy mô lớn đã nhanh chóng lan rộng từ sự đồng thuận quy mô nhỏ. Theo báo cáo do CITIC công bố, số lượng mô hình quy mô lớn với hơn 1 tỷ mô hình tham số đã được phát hành cho đến nay là gần 80, một nửa trong số đó đến từ các doanh nghiệp và một nửa từ các tổ chức nghiên cứu khoa học.

Trong quá trình hình thành dần dần hệ sinh thái mô hình quy mô lớn trong nước, nó cũng bắt đầu từ bỏ việc theo đuổi OpenAI và dần tìm ra con đường của riêng mình. Tiêu chuẩn đo lường sự thành công của các mô hình lớn cũng đã thay đổi từ sự cạnh tranh thông số của những cây cầu cứng và ngựa cứng sang cách giải quyết vấn đề thực sự.

SenseTime đã công bố hệ thống mô hình quy mô lớn "SenseNova" lần đầu tiên vào tháng 4 năm nay và phát hành một số mô hình và ứng dụng AI quy mô lớn bao gồm cả mô hình ngôn ngữ quy mô lớn "SenseChat" do Trung Quốc tự phát triển. Gần đây tại Hội nghị Trí tuệ Nhân tạo Thế giới, SenseTime đã công bố phiên bản lớn đầu tiên của hệ thống "Mô hình lớn SenseNova mới hàng ngày". Mô hình ngôn ngữ lớn "thương lượng" đã được nâng cấp lên phiên bản 2.0.

Nó mạnh hơn. Trong toàn bộ hệ thống bố trí mô hình quy mô lớn SenseTime, vai trò của nó ngày càng trở nên rõ ràng hơn.

"Đàm phán 2.0" mạnh mẽ hơn

Làm thế nào để phản ánh trực quan sự cải thiện khả năng của "Tư vấn 2.0"? Xu Li, chủ tịch và giám đốc điều hành của SenseTime, đã chứng minh một cuộc đối thoại không tồn tại giữa Lão Tử và Khổng Tử.

Câu trả lời cho "Tư vấn 2.0" xoay quanh "Đạo". Khổng Tử hỏi Lão Tử, Lão Tử tuy đã ngộ nhưng không nói chuyện được với Khổng Tử, đành bỏ đi. Đoạn hội thoại được thực hiện trong cảnh này rất mượt mà và trôi chảy. "Thảo luận 2.0" thậm chí còn thêm một trò đùa vào văn bản:

Khổng Tử nói: “Ta có nghe danh Thầy, hôm nay gặp được Thầy quả thật là một đại phúc!”

Lão Tử cười nói: "Không phải, ta cùng ngươi đi trên một con đường, làm sao lại có 'ba đời'?"

Và theo câu hỏi, toàn bộ cuộc đối thoại xuất hiện trong tiếng Trung Quốc cổ điển. Và để tránh nhầm lẫn, “Tư vấn 2.0” cũng nêu tiền đề “đây chỉ là hư cấu và không nên coi đó là ghi chép có thật của lịch sử” ngay trong câu đầu tiên của câu trả lời.

Khi "Tư vấn 1.0" lần đầu tiên được ra mắt, bản trình diễn tại chỗ đã thể hiện khả năng đối thoại đa vòng tuyệt vời và khả năng đồng sáng tạo giữa con người và máy móc. Ba tháng sau, “Tham vấn 2.0” đã có nhiều cải tiến hơn về độ chính xác của thông tin kiến thức, khả năng phán đoán logic, khả năng hiểu ngữ cảnh và khả năng sáng tạo.

Ví dụ: sử dụng "Tư vấn 2.0" để lập kế hoạch du lịch và yêu cầu nó lập một bảng:

Hoặc thử nghiệm điều về "bạn gái là đúng":

Không chỉ hiểu được bạn gái mà "Thảo luận 2.0" còn đọc được một chút mỉa mai hoặc âm dương:

Điều gì đã xảy ra với "Tư vấn 2.0" trong ba tháng qua, trên thực tế, chỉ cần nhìn vào kết quả của một vài kỳ thi. Trong kết quả đánh giá của ba điểm chuẩn đánh giá mô hình ngôn ngữ lớn có thẩm quyền (MMLU, AGI, C-) trên toàn thế giới, hiệu suất của "Tư vấn 2.0" đã vượt qua ChatGPT.

Ngoài ra, một số người có thể nhận thấy trong các bức ảnh trình diễn cuộc đối thoại giữa Lão Tử và Khổng Tử rằng "Shangshang 2.0" có màn hình trình diễn chia đôi của các phiên bản XL và S. Có nhiều mô hình lớn với các thông số và kích cỡ khác nhau để khách hàng lựa chọn chọn và phiên bản kiểu máy có thông số nhỏ nhất thậm chí có thể chạy trên thiết bị đầu cuối di động.

Về ngôn ngữ, "Tư vấn 2.0" đã bổ sung thêm các ngôn ngữ mới như tiếng Ả Rập và tiếng Quảng Đông. Hỗ trợ tương tác giữa tiếng Trung giản thể, tiếng Trung phồn thể và tiếng Anh và các ngôn ngữ khác. Và hỗ trợ của "Tư vấn 2.0" cho các văn bản siêu dài cũng đã được tăng từ 2k lên 32k, cho phép hiểu rõ hơn về ngữ cảnh.

Đối với các nhà sản xuất mô hình quy mô lớn theo định hướng ToB như SenseTime, bản thân chất lượng của mô hình lớn mới chỉ là điểm khởi đầu. một quá trình lặp đi lặp lại ổn định và tiếp cận nó từng bước Điểm đau thực sự là nơi người chiến thắng sẽ được quyết định.

Khả năng kết hợp cơ sở tri thức mở

Sau khi SenseTime đào tạo một "Tư vấn 2.0" với siêu hiểu biết, đối thoại, lý luận và các khả năng khác, khách hàng doanh nghiệp cũng có thể sử dụng kiến thức doanh nghiệp tích lũy của mình để biến mô hình lớn thành một "nhân tài chuyên nghiệp" có thể phục vụ tốt cho công ty của họ. .

Làm thế nào để giải quyết hiệu quả các vấn đề kỹ thuật này là rất quan trọng.

"Tư vấn 2.0" do SenseTime đưa ra đã bổ sung giao diện tích hợp cơ sở tri thức, cho phép doanh nghiệp nhanh chóng tiếp thu kiến thức và khả năng chuyên môn mà không cần chờ đợi nâng cấp lặp lại của mô hình lớn cơ bản. Sau khi cơ sở tri thức được tích hợp, khả năng cập nhật và hiểu tri thức của mô hình có thể được nâng cao, đồng thời tăng cường khả năng hiểu và tiếp thu tri thức nhanh chóng, đồng thời, chi phí cho các mô hình đào tạo khách hàng sẽ giảm đi rất nhiều.

Wang Xiaogang, đồng sáng lập và nhà khoa học trưởng của SenseTime, cho biết: "Với cơ sở tri thức, việc tóm tắt kiến thức tương ứng trong lĩnh vực này tương đối đơn giản và thuận tiện mà không cần nhập vào chính mô hình của chúng tôi" và vì thông tin chính xác hơn , cũng giải quyết được vấn đề ảo giác.

Con người Kỹ thuật số như một Công cụ Năng suất

Đồng thời với việc nâng cấp toàn diện "Tư vấn 2.0", các khả năng của nền tảng AIGC trong hệ thống "Mô hình lớn SenseNova" không ngừng đột phá và sau khi tích hợp các khả năng của mô hình lớn ngôn ngữ, đã đạt được một bước cải tiến nhảy vọt.

Ví dụ: nền tảng tạo Wenshengtu "Miaohua" được đề cập ở trên đã được nâng cấp lên phiên bản 3.0 lần này, các thông số mô hình đã được tăng lên mức 7 tỷ và độ chi tiết của các bức ảnh được tạo ra đã đạt đến mức độ chụp ảnh chuyên nghiệp. Đối với vấn đề đau đầu về các từ nhắc, "Discussion 2.0" cung cấp cho "Miahua 3.0" khả năng tự động mở rộng các từ nhắc. Điều này có nghĩa là người dùng chỉ cần một vài từ gợi ý đơn giản để đạt được kết quả hình ảnh chi tiết.

Trong lĩnh vực con người kỹ thuật số, nền tảng tạo video con người kỹ thuật số "Ruying" của SenseTime cũng đã được nâng cấp lên phiên bản 2.0. Độ trôi chảy của giọng nói và khẩu hình của "Ruying 2.0" đã tăng hơn 30% và có thể thực hiện được video 4K. . Tại buổi họp báo, hình ảnh con người kỹ thuật số của nhà kinh tế học Ren Zeping, Master Yancan và Xu Li đã xuất hiện, và hiệu ứng đủ chân thực.

Trong cảnh hạ cánh của mô hình lớn, con người kỹ thuật số là một phương pháp mang rất quan trọng, phát trực tiếp con người kỹ thuật số rất phổ biến gần đây là một cảnh điển hình. Phát trực tiếp, bao gồm các video ngắn, cũng là một trong những cảnh được khách hàng chú trọng nhất trong quá trình thử nghiệm nội bộ và công khai kéo dài ba tháng của "Ruying 2.0".

Luan Qing, tổng giám đốc Bộ phận Giải trí Kỹ thuật số của SenseTime, cho biết trong khuôn khổ AIGC, “Discussion 2.0” có thể đảm nhận việc viết quảng cáo và tạo kịch bản cho các chương trình phát sóng trực tiếp video ngắn. Và làm thế nào "Ronin 2.0" có thể bắt kịp xu hướng trong giao tiếp cũng phụ thuộc vào khả năng mô hình ngôn ngữ lớn của "Consultation 2.0" để tìm hiểu kho văn bản video ngắn mới nhất.

Ngoài các cảnh quay video ngắn và phát sóng trực tiếp, "Ronin 2.0" đang tăng tốc xâm nhập vào mọi tầng lớp xã hội.

Ví dụ: trong ngành bảo hiểm, mọi chuyên gia bảo hiểm đều có nhu cầu quảng bá sản phẩm mới hoặc đầu ra nội dung hướng đến dịch vụ được cá nhân hóa khác cho khách hàng. "Ruying 2.0" có thể thay thế các chuyên gia bảo hiểm vào ngày sinh nhật của khách hàng hoặc khi một số sản phẩm quản lý tài sản được phát hành. Nội dung và dịch vụ được cá nhân hóa; trong ngành giáo dục, "Roning 2.0" đã bắt đầu hỗ trợ giáo viên trên các nền tảng giáo dục nghề nghiệp hàng đầu trong nước sản xuất tài liệu giáo dục nhằm đáp ứng nhu cầu nội bộ về sản xuất video.

"Con người kỹ thuật số là một công cụ hiệu quả điển hình trong doanh nghiệp." Luân Thanh nói.

Là một nền tảng sáng tạo AIGC, Ronin sẽ tiếp tục phát triển sâu hơn trong lĩnh vực tạo video trong tương lai.Luan Qing tin rằng điều này là do việc tạo nội dung đang trải qua một sự thay đổi về chiều từ văn bản, hình ảnh sang video.

Hướng tới đa phương thức

Vì thông tin hình ảnh và video chiếm một tỷ lệ rất lớn trong thế giới thực, vượt xa thông tin ngôn ngữ, nên nhu cầu hiểu thế giới thực sẽ khiến tương lai của mô hình quy mô lớn cơ bản hướng tới tính đa phương thức, lần đầu tiên được nhìn thấy thông qua Đầu mối "Tư vấn 2.0".

Ngoài văn bản, "Tư vấn 2.0" còn có khả năng phân tích nội dung hình ảnh và video.

Ví dụ: như trong hình trên, "Tư vấn 2.0" có thể xác định các đối tượng cụ thể trong bức ảnh bàn làm việc lộn xộn và kết hợp các đặc điểm của từng đối tượng để trả lời "bạn làm gì khi cảm thấy nóng?" Điều này gần với quá trình thiết kế câu hỏi mở; hoặc sau khi xem ảnh thực đơn, hãy giúp người dùng đưa ra các lựa chọn gọi món trong phạm vi giá hạn chế.

SenseTime, ban đầu bước vào lĩnh vực AI từ nghiên cứu về thị giác máy tính và đã vượt qua làn sóng AI, tin chắc hơn rằng làn sóng mô hình lớn này sẽ là một cơ hội thực sự.

Nghiên cứu mô hình quy mô lớn hiện nay dựa trên kiến trúc mạng máy biến áp. "SenseTime đã tham gia vào nghiên cứu mô hình quy mô lớn kể từ năm 2019. Vào thời điểm đó, đó là con đường để thực hiện tầm nhìn." Theo Wang Xiaogang, đồng sáng lập và nhà khoa học trưởng của SenseTime, một số tiêu chuẩn hình ảnh và tiêu chuẩn ngôn ngữ tự nhiên đang dần thay đổi. hội tụ ngày nay.", "Khi chúng ta phát triển theo hướng đa phương thức, ngôn ngữ và tầm nhìn bắt đầu có sự tích hợp sâu hơn, điều này phản ánh sự tích lũy và khả năng tương đối mạnh mẽ trong lĩnh vực này."

Nhiều kịch bản ứng dụng mà chúng ta gặp trong đời thực, chẳng hạn như trong một loạt lĩnh vực như lái xe tự động và người máy, phải được áp dụng cho đa phương thức. "Tuy nhiên, dữ liệu đa phương thức và một số nhiệm vụ thường không dễ lấy và yêu cầu tích lũy sâu trong ngành. Đây cũng là ưu điểm của SenseTime." Wang Xiaogang giới thiệu.

Ba tháng sau lần đầu tiên xuất hiện trước công chúng tại Hội nghị Trí tuệ Nhân tạo Thế giới năm nay, hệ thống "Mô hình lớn SenseNova mới hàng ngày" của SenseTime đã được nâng cấp hoàn toàn và mở cửa cho người dùng doanh nghiệp. Đồng thời, nhiều người không chú ý rằng Shangtang cũng đã phát hành một mô hình học giả quy mô lớn đa phương thức cùng với Phòng thí nghiệm trí tuệ nhân tạo Thượng Hải. Trong tương lai, điều đáng mong đợi là liệu SenseTime có thể đi đầu trong việc tìm kiếm chìa khóa cho con đường đa phương thức hay không.

Xem bản gốc

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
GT 2025 Q2 Burn Completed
13k Phổ biến
Michael Saylor Hints at Buying BTC
10k Phổ biến
BTC
30453k Phổ biến
4contentstar
10720k Phổ biến
5NADA
11186k Phổ biến
6BOME
11565k Phổ biến
7BTC
30453k Phổ biến
8SMILE
9062k Phổ biến
9比特币
13442k Phổ biến

Ghim

sơ đồ trang web