Phương pháp điều trị ảo giác tốt nhất trong cả nước! Với 53 tỷ tham số, khả năng suy luận của Baichuan2 tăng vọt 100% và API lần đầu tiên được mở cho mục đích thương mại.

Nguồn gốc: Xinzhiyuan

Nguồn hình ảnh: Được tạo bởi AI không giới hạn

Mô hình lớn của Baichuan đã được nâng cấp hoàn toàn vào ngày hôm qua!

Vừa vào ngày 25 tháng 9, Baichuan Intelligence đã chính thức phát hành mẫu lớn thông số 53 tỷ mới được nâng cấp-Baichuan2-53B.

Địa chỉ trải nghiệm:

Lần này, khả năng suy luận toán học và logic của nó được cải thiện đáng kể.

Quan trọng hơn, thông qua hệ thống dữ liệu chất lượng cao và cải tiến tìm kiếm, ảo giác của Baichuan2-53B đã giảm đi đáng kể, trở thành mô hình nội địa lớn nhất có vấn đề ảo giác thấp nhất.

Không những vậy, với tư cách là một trong những công ty kiểu mẫu lớn đầu tiên vượt qua quá trình đăng ký, Baichuan Intelligence còn đã mở giao diện API Baichuan2-53B.

Điều này có nghĩa là Baichuan Intelligence đã chính thức bước vào lĩnh vực To B và sẽ bắt đầu quá trình thương mại hóa kể từ bây giờ.

Xử lý ảo ảnh, vượt xa ở Trung Quốc

Điều đáng chú ý nhất là Baichuan2-53B mới được nâng cấp đã vượt xa ngành công nghiệp trong nước về khả năng xử lý "ảo ảnh".

Nói một cách đơn giản, "ảo tưởng" có nghĩa là LLM thường nói một cách nghiêm túc và vô nghĩa mà không có bất kỳ sự thật nào được biết đến để chứng minh điều đó.

Mặc dù GPT-4 thực hiện tốt nhiều nhiệm vụ khác nhau nhưng nó cũng không thể thoát khỏi lời nguyền này.

Vậy tại sao người mẫu cỡ lớn lại xuất hiện "ảo giác"?

Vào tháng 4, nhà đồng sáng lập OpenAI và nhà khoa học nghiên cứu John Schulman đã trình bày chi tiết về những khó khăn khó khắc phục với các mô hình lớn trong bài phát biểu tại UC Berkeley.

Theo quan điểm của Schulman, có một “biểu đồ tri thức” ẩn bên trong hộp đen LLM. Nếu không có kiến thức trong kiến trúc này và chỉ dạy kiến thức mô hình lớn (tức là nhân bản hành vi) thông qua SFT thì thực sự đang dạy nó tạo ra ảo tưởng.

Để giải quyết vấn đề này, làm thế nào Baichuan Intelligence đạt được hiệu suất dẫn đầu ngành trong việc "xử lý ảo ảnh" của các mô hình lớn?

Về mặt xây dựng dữ liệu chất lượng cao, Baichuan2-53B đã tạo ra một hệ thống chất lượng dữ liệu độc đáo.

Phân loại dữ liệu dựa trên tiêu chuẩn chất lượng thấp và chất lượng cao để đảm bảo Baichuan2-53B luôn sử dụng dữ liệu chất lượng cao để đào tạo trước.

Ngoài ra, về mặt thu thập thông tin, Baichuan2-53B đã nâng cấp nhiều mô-đun, bao gồm các thành phần chính như hiểu mục đích lệnh, tìm kiếm thông minh và nâng cao kết quả.

Hệ thống toàn diện này thúc đẩy chính xác việc tìm kiếm các cụm từ truy vấn bằng cách hiểu sâu hướng dẫn của người dùng và cuối cùng kết hợp công nghệ mô hình ngôn ngữ lớn để tối ưu hóa độ tin cậy của việc tạo kết quả mô hình, đạt được kết quả trả lời mô hình chính xác và thông minh hơn, đồng thời giảm ảo tưởng về mô hình.

Ví dụ, khi giải thích vấn đề “móc ba sợi, bốn dây và năm”, GPT-4 rõ ràng đang nói những điều vô nghĩa.

Ngược lại, Baichuan2-53B lại đưa ra câu trả lời đúng ngay lần đầu tiên.

Một ví dụ khác, câu trả lời của Baichuan2-53B cho câu hỏi kinh điển "Chu Thụ Nhân và Lỗ Tấn có phải là cùng một người không?" vừa toàn diện vừa chính xác.

Có thể thấy, thông qua việc xây dựng hệ thống dữ liệu chất lượng cao và tối ưu hóa công nghệ nâng cao tìm kiếm, Baichuan2-53B đã giảm thiểu ảo giác mô hình một cách hiệu quả.

Kết quả sau khi đánh giá FacTool cho thấy Ba Xuyên2-53B có điểm toàn diện là 140,5, chỉ xếp sau GPT-4 trong số các mẫu lớn cơ bản phổ thông và ở mức dẫn đầu trong nước.

FacTool là một khuôn khổ chung do các học giả từ Đại học Shanghai Jiao Tong, Đại học Carnegie Mellon, Đại học Thành phố Hồng Kông, Meta và các tổ chức khác cùng đề xuất. Nó có thể kiểm tra tính chính xác thực tế của nội dung do các mô hình lớn tạo ra (nó cũng có thể kiểm tra tính chính xác thực tế về nội dung chung) giới tính).

địa chỉ dự án:

Nâng cấp khả năng, lý luận tăng 100%

Trên thực tế, Baichuan2-53B đã là mẫu lớn thứ sáu được Baichuan Intelligence phát hành.

Kể từ khi Baichuan Intelligence được thành lập vào ngày 10 tháng 4, nó đã đổi mới với tốc độ đáng kinh ngạc, tốc độ lặp lại đã đạt mức trung bình để tung ra một mô hình lớn cứ sau 28 ngày!

Ngay từ ngày 8 tháng 8, khi Ba Xuyên2-53B lần đầu tiên được phát hành, nó đã thể hiện câu hỏi và câu trả lời kiến thức tuyệt vời cũng như khả năng sáng tạo văn học.

Nếu bạn muốn hỏi đâu là những chỉ số quan trọng để đánh giá một mô hình lớn có dẫn đầu hay không, tôi tin rằng “khả năng suy luận toán học và logic” sẽ là câu trả lời được nhiều người trong ngành đưa ra.

Lần này, dựa trên Baichuan-53B, Baichuan2-53B tập trung vào việc tăng cường khả năng suy luận logic và toán học, đồng thời nâng cấp toàn diện khả năng tổng thể của nó.

Cụ thể, khả năng suy luận logic tăng 100%, khả năng toán học tăng 31%, khả năng hiểu ngôn ngữ tăng 29%, khả năng tạo văn bản tăng 18% và khả năng hỏi đáp kiến thức tăng lên. bằng 9%.

### Lý luận toán học

Baichuan2-53B, đã nâng cấp đáng kể khả năng toán học, có thể dễ dàng giải các bài toán đố.

Ví dụ: tổng của hai số là 572 và chữ số hàng đơn vị của một trong các số cộng là 0. Sau khi loại bỏ số 0, số đó sẽ giống với số cộng thứ hai. Vậy hai con số này là gì?

Baichuan2-53B liệt kê phương trình, giả sử rằng một phần bổ sung là 10A và phần còn lại là B, sau đó dựa trên các điều kiện đã biết sẽ thu được lời giải đúng.

Một ví dụ khác, trong câu hỏi bên dưới, Ba Xuyên2-53B trước tiên tính tổng doanh thu vận chuyển, sau đó chia cho tổn thất trên mỗi hộp kính để có được số hộp kính bị hư hỏng.

Hãy lấy một câu hỏi kinh điển khác: “Khoảng cách giữa hai địa điểm là bao nhiêu km?” Baichuan2-53B có được câu trả lời đúng thông qua tính toán từng bước.

Về mặt lý luận, hãy bắt đầu bằng một câu hỏi đơn giản: Dự báo thời tiết cho biết thứ Tư tuần này trời sẽ mưa và hôm qua trời cũng mưa. Hôm nay là ngày thứ mấy trong tuần?

Ba Xuyên2-53B dễ dàng nghĩ ra "Thứ Năm"!

Tiếp theo, lý luận khó hơn một chút: Giả sử có một cái ao với lượng nước vô tận trong đó.

Có hai chiếc ấm rỗng có dung tích lần lượt là 5 lít và 6 lít. Làm thế nào tôi có thể lấy được 3 lít nước từ ao chỉ với 2 chiếc ấm này?

Baichuan2-53B bắt đầu trả lời trôi chảy và đưa ra câu trả lời đúng trong vòng 6 bước.

Sau nhiều vòng thử nghiệm, có thể thấy rằng khả năng suy luận toán học và logic của Baichuan2-53B nâng cấp thực sự khác biệt so với khả năng suy luận của cùng một mẫu. Nó đã cải thiện rất nhiều về các chủ đề mà trước đây nó không giỏi lắm.

Vấn đề về tính kịp thời

Xét về tính kịp thời, hiệu suất của Baichuan2-53B là rất xuất sắc.

Đại hội thể thao châu Á Hàng Châu vừa khai mạc, cầu thủ trẻ nhất mới 9 tuổi. Baichuan2-53B cũng trả lời chính xác câu hỏi mới nhất.

Baichuan2-53B thậm chí còn giải thích chính xác nguyên lý mạng lưới thần kinh đằng sau Optimus, robot hình người vừa được Tesla công bố.

Một ví dụ khác, vào đầu tháng 9 năm nay, Liên hoan phim Venice lần thứ 80 đã kết thúc tại Ý.

Có bộ phim và diễn viên Trung Quốc nào đoạt giải tại liên hoan phim này không?

Baichuan2-53B ngay lập tức trả lời rằng "Love is a Gun" của Li Hongqi đã giành giải phim truyện đầu tay hay nhất, và Lương Triều Vỹ đã giành được giải Sư tử vàng cho Thành tựu trọn đời.

Hợp đồng của Boss Mei với Paris sẽ hết hạn vào cuối tháng 6 năm nay và anh chính thức gia nhập Inter Miami vào tháng 7.

Baichuan2-53B cũng biết rất rõ điều này.

Tương tự, nó cũng có thể cho bạn biết chính xác rằng Druid đã giành được tổng cộng 24 Grand Slam, bao gồm cả giải này vào năm 2023.

Mở API và chính thức đưa vào sử dụng thương mại

Không chỉ vậy, lần này Baichuan2-53B còn chính thức mở giao diện API, cho phép các doanh nghiệp và nhà phát triển tích hợp mô hình này vào các ứng dụng, dịch vụ của riêng mình.

Địa chỉ API:

Có ngưỡng nào cho dịch vụ này không?

Có thể nói là gần như không có. Giao diện API của Baichuan2-53B rất tiện lợi và dễ sử dụng, chỉ cần cấu hình và tích hợp đơn giản là có thể truy cập.

Hơn nữa, nó có khả năng tương thích cao với giao diện của OpenAI, cho phép khách hàng di chuyển nhanh chóng, giảm đáng kể cả chi phí triển khai mô hình và chi phí chuyển đổi.

Nói tóm lại, bây giờ cho dù đó là dịch vụ khách hàng thông minh, văn bản thông minh hay đề xuất thông minh, tất cả đều có thể được hỗ trợ bởi khả năng của các mô hình lớn.

Điều người dùng doanh nghiệp quan tâm nhất là vấn đề tuân thủ bảo mật.

Không cần phải lo lắng về điều này.

Là một trong những công ty mô hình quy mô lớn đầu tiên thông qua "Các biện pháp tạm thời để quản lý dịch vụ trí tuệ nhân tạo sáng tạo", Baichuan Intelligence đã tạo ra các cải tiến bảo mật cho Baichuan2-53B bao gồm toàn bộ chu trình đào tạo trước mô hình quy mô lớn, tốt- điều chỉnh và suy luận. Có thể nói rằng toàn bộ quá trình đều được bảo mật.

Với khả năng mô hình phong phú và mạnh mẽ của Baichuan2-53B, người dùng doanh nghiệp không chỉ có thể nâng cấp các dịch vụ hiện có và giảm chi phí mà còn có thể khám phá nhiều kịch bản ứng dụng hơn.

Người ta tin rằng tại thời điểm này, đã có một làn sóng lớn những đổi mới ấn tượng đang hình thành trong lòng đất.

Người giới thiệu:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)