Hơn nửa năm trôi qua, thứ hạng của ChatGPT gần như "đáy"

2023-09-08 06:02:49

Nguồn: Titan Media

Tác giả: Công nghệ Sanyan

Hôm qua tác giả lỡ tay vuốt nhầm ảnh.

Theo hình ảnh, GPT-4 của OpenAI đã được xếp cuối cùng trong số 11 mẫu lớn (số một là 0). Một số cư dân mạng đã thêm dòng chữ "GPT4: Làm cách nào tôi có thể khởi kiện những bất bình của mình?"

Điều này không khỏi khiến mọi người tò mò, đầu năm nay, sau khi ChatGPT trở nên phổ biến, các công ty khác bắt đầu đề xuất ý tưởng về mô hình lớn.

Mới hơn nửa năm mà GPT đã “chạm đáy”?

Vì vậy, tác giả muốn xem thứ hạng GPT như thế nào.

Thời gian thử nghiệm khác, nhóm thử nghiệm khác, GPT-4 đứng thứ 11

Đánh giá theo thông tin hiển thị trên hình ảnh ở bài viết trước thì thứ hạng này thuộc hạng C.

C-List, tên đầy đủ của Danh sách kiểm tra toàn diện mô hình lớn C-Global, là một bộ đánh giá kiểm tra toàn diện mô hình ngôn ngữ Trung Quốc do Đại học Thanh Hoa, Đại học Giao thông Thượng Hải và Đại học Edinburgh đồng xây dựng.

Được biết, bộ này bao gồm bốn hướng chính: nhân văn, khoa học xã hội, khoa học và kỹ thuật và các chuyên ngành khác, bao gồm 52 môn học, bao gồm nhiều lĩnh vực kiến thức như giải tích và đại số tuyến tính. Có tổng cộng 13.948 câu hỏi kiến thức và lý luận tiếng Trung, với độ khó được chia thành 4 cấp độ thi: trung học cơ sở, đại học, cao học và dạy nghề.

Vì vậy tôi đã kiểm tra danh sách C mới nhất.

Thứ hạng mới nhất của danh sách C phù hợp với thứ hạng được hiển thị trong hình trước, trong số 11 mẫu xe lớn hàng đầu, GPT-4 xếp cuối cùng.

Theo danh sách C, những kết quả này đại diện cho các bài kiểm tra không bắn (học không bắn) hoặc ít bắn (học ít bắn), nhưng ít bắn không nhất thiết phải tốt hơn bắn không.

C- cho biết trong các thử nghiệm của mình, người ta nhận thấy rằng nhiều mẫu máy sau khi tinh chỉnh theo hướng dẫn đã hoạt động tốt hơn trong điều kiện không chụp. Nhiều mô hình được thử nghiệm có cả kết quả bắn không và bắn ít, đồng thời xếp hạng hiển thị cài đặt có điểm trung bình tổng thể tốt hơn.

Danh sách C cũng chỉ ra rằng "*" trong tên của mô hình lớn cho biết kết quả của mô hình được nhóm C kiểm tra, trong khi các kết quả khác thu được thông qua việc gửi của người dùng.

Ngoài ra, tác giả cũng nhận thấy thời gian gửi kết quả thử nghiệm của các mô hình lớn này rất khác nhau.

Kết quả kiểm tra GPT-4 được nộp vào ngày 15 tháng 5, trong khi Yuntianshu, xếp hạng đầu tiên, được nộp vào ngày 31 tháng 8, Galaxy xếp thứ hai được nộp vào ngày 23 tháng 8 và YaYi xếp thứ ba được nộp vào ngày 31 tháng 8. cho ngày 4 tháng 9 .

Hơn nữa, trong số 16 mẫu xe lớn hàng đầu, chỉ có GPT-4 được thêm "*" vào tên và đã được C-team thử nghiệm.

Vì vậy tác giả đã kiểm tra lại danh sách C đầy đủ.

Danh sách C mới nhất bao gồm tổng cộng 66 bảng xếp hạng mẫu xe lớn.

Trong số đó, tên có “*” tức là do C-team test chỉ có 11 cái, thời gian nộp bài là ngày 15/5.

Đối với các mô hình lớn được nhóm C thử nghiệm này, GPT-4 của OpenAI xếp thứ 11, ChatGPT xếp thứ 36, ChatGLM-6B của Tsinghua Zhipu AI xếp thứ 60 và MOSS của Fudan xếp thứ 6. 14.

Mặc dù những bảng xếp hạng này cho thấy đà phát triển nhanh chóng của các mô hình quy mô lớn trong nước nhưng tác giả cho rằng suy cho cùng, các cuộc thử nghiệm không được thực hiện bởi cùng một đội, điều này không đủ để chứng minh đầy đủ ai mạnh hơn ai yếu hơn. trong số những mô hình quy mô lớn này.

Đây giống như một lớp học mà mỗi học sinh có thời gian làm bài và trả lời các bài khác nhau, làm sao có thể dựa vào điểm của từng học sinh để so sánh?

Nhà phát triển mô hình lớn nói gì? Một số người nói rằng họ đã vượt qua ChatGPT về khả năng tiếng Trung và các khả năng khác

Gần đây, giới người mẫu lớn khá sôi động.

Ngoài ra, các sản phẩm mẫu lớn của tám công ty bao gồm Baidu và Byte đã vượt qua việc đăng ký "Các biện pháp tạm thời để quản lý dịch vụ trí tuệ nhân tạo sáng tạo" và có thể chính thức ra mắt trực tuyến để cung cấp dịch vụ cho công chúng. Các công ty khác đã liên tiếp cho ra đời những sản phẩm mẫu mã lớn của riêng mình.

Vậy các nhà phát triển những mẫu xe cỡ lớn này giới thiệu sản phẩm của mình như thế nào?

Ngày 7 tháng 7, tại diễn đàn Hội nghị Trí tuệ nhân tạo thế giới năm 2023 “Cơ hội và Rủi ro đối với sự phát triển của ngành Trí tuệ nhân tạo nói chung trong Kỷ nguyên Mô hình lớn”, Qiu Xipeng, giáo sư Trường Khoa học và Công nghệ Máy tính thuộc Đại học Phúc Đán và là người đứng đầu Hệ thống MOSS cho biết mô hình ngôn ngữ đàm thoại quy mô lớn MOSS của Fudan Sau khi được phát hành vào tháng 2 năm nay, nó vẫn liên tục lặp lại, "MOSS mới nhất đã có thể vượt qua ChatGPT về khả năng tiếng Trung."

Cuối tháng 7, NetEase Youdao tung ra mô hình dịch thuật quy mô lớn, CEO NetEase Youdao Chu Feng đã công khai tuyên bố rằng trong các thử nghiệm nội bộ, theo hướng dịch Trung – Anh, nó đã vượt qua khả năng dịch thuật của ChatGPT và vượt qua trình độ của Google Translate. **

Vào cuối tháng 8, tại Hội nghị thượng đỉnh mùa hè của Diễn đàn Yabuli 2023, Liu Qingfeng, người sáng lập kiêm chủ tịch của iFlytek, đã có bài phát biểu và cho biết: “**Khả năng tạo và hoàn thiện mã của mô hình iFlytek Spark đã vượt qua ChatGPT, và khả năng khác này là ** Logic, thuật toán, hệ thống phương pháp và chuẩn bị dữ liệu cho khả năng mã hiện tại đã sẵn sàng và tất cả những gì cần là thời gian và sức mạnh tính toán.”

SenseTime cho biết trong một thông cáo báo chí gần đây rằng vào tháng 8 năm nay, mẫu internlm-123b mới đã hoàn thành quá trình huấn luyện và số lượng thông số tăng lên 123 tỷ. **Trên 51 bộ đánh giá nổi tiếng toàn cầu với tổng số 300.000 câu hỏi, kết quả kiểm tra tổng thể đứng thứ hai thế giới, vượt qua các mẫu như gpt-3.5-turbo và llama2-70b mới ra mắt của Meta Company. **

Theo Shangtang, **internlm-123 đứng đầu trong 12 đánh giá chính. Trong số đó, điểm agi trong bài kiểm tra toàn diện của bộ đánh giá là 57,8, vượt qua gpt-4 để xếp hạng nhất; điểm đánh giá của **câu đố kiến thức commonsenseqa là 88,5, xếp hạng đầu tiên; internlm-123b đạt điểm trong năm lần đánh giá môn đọc. hiểu Tất cả đứng đầu danh sách.

Ngoài ra, nó đứng đầu trong năm đánh giá về lý luận.

Đầu tháng này, Zuoyebang đã chính thức trình làng mẫu Galaxy tự phát triển.

Zuoyebang cho biết mô hình Galaxy đã đạt được kết quả trên hai tiêu chuẩn đánh giá mô hình ngôn ngữ lớn có thẩm quyền là C- và CMMLU. Số liệu cho thấy Zuoyebang Galaxy Big Model đứng đầu bảng C- với điểm trung bình là 73,7 điểm; đồng thời đứng trong danh sách CMMLU đánh giá Five-shot và Zero-shot với điểm trung bình lần lượt là 74,03 điểm và 73,85 điểm Đầu tiên, nó trở thành mô hình giáo dục lớn đầu tiên đứng đầu về điểm trung bình trong hai danh sách có thẩm quyền nêu trên.

Hôm qua, Baichuan Intelligence đã công bố Baichuan 2-7B, Baichuan 2-13B, Baichuan 2-13B-Chat được tinh chỉnh mã nguồn mở chính thức và phiên bản lượng tử hóa 4-bit của họ.

Wang Xiaochuan, người sáng lập và Giám đốc điều hành của Baichuan Intelligence, cho biết trong lĩnh vực Trung Quốc, hiệu suất thực tế của mô hình Trò chuyện được tinh chỉnh trong môi trường Hỏi đáp hoặc môi trường tóm tắt đã vượt xa hiệu suất của các mô hình nguồn đóng như ChatGPT-3.5. **

Hôm nay, tại Hội nghị Sinh thái Kỹ thuật số Toàn cầu Tencent 2023, Tencent đã chính thức ra mắt mô hình lớn Hunyuan. Jiang Jie, phó chủ tịch Tập đoàn Tencent, cho biết khả năng ngôn ngữ Trung Quốc của **Mẫu lớn Tencent Hunyuan đã vượt quá GPT-3.5. **

Ngoài phần giới thiệu của các nhà phát triển này, còn có một số phương tiện truyền thông và nhóm đánh giá một mô hình lớn.

Vào đầu tháng 8, nhóm của Shen Yang, giáo sư và giám sát tiến sĩ tại Trường Báo chí và Truyền thông thuộc Đại học Thanh Hoa, đã công bố “Báo cáo đánh giá hiệu suất toàn diện của các mô hình ngôn ngữ lớn”. Báo cáo cho thấy điểm toàn diện của **Baidu Wenxinyiyan ở 20 chỉ số ở ba khía cạnh chính dẫn đầu cả nước và tốt hơn ChatGPT. Trong số đó, hiểu biết ngữ nghĩa của tiếng Trung xếp hạng cao và một số khả năng của tiếng Trung tốt hơn GPT-4. **

Vào giữa tháng 8, một số phương tiện truyền thông đưa tin rằng vào ngày 11 tháng 8, model cỡ lớn MiLM-6B của Xiaomi đã xuất hiện trong danh sách đánh giá model cỡ lớn C- và CMMLU. Tính đến thời điểm hiện tại, MiLM-6B đứng thứ 10 trong danh sách tổng C, đứng thứ nhất trong cùng cấp thông số và đứng thứ nhất trong mẫu lớn CMMLU của Trung Quốc.

Vào ngày 12 tháng 8, Đại học Thiên Tân đã công bố "Báo cáo đánh giá mô hình lớn". Báo cáo cho thấy **GPT-4 và Baidu Wenxinyiyan vượt trội đáng kể so với các mẫu khác về hiệu suất toàn diện và điểm số của cả hai không chênh lệch nhiều, ở cùng mức độ. Wenxin Yiyan đã vượt qua ChatGPT trong hầu hết nhiệm vụ Trung Quốc và dần thu hẹp khoảng cách với GPT-4. **

Vào cuối tháng 8, một số phương tiện truyền thông đưa tin KwaiYii, một mô hình ngôn ngữ lớn do Kuaishou phát triển, đã bắt đầu thử nghiệm nội bộ. Trong bảng xếp hạng định hướng Trung Quốc mới nhất của CMMLU, KwaiYii-13B, phiên bản 13B của KwaiYi, đứng đầu ở cả hạng mục bắn 5 phát và bắn 0. Nó mạnh về nhân văn, chủ đề cụ thể của Trung Quốc, v.v., với điểm trung bình trên 61 điểm.

Từ những điều trên có thể thấy, mặc dù các mô hình lớn này khẳng định đứng đầu một bảng xếp hạng nhất định hoặc vượt qua ChatGPT ở một số khía cạnh nhất định, nhưng hầu hết chúng đều hoạt động tốt ở một số lĩnh vực cụ thể.

Ngoài ra, một số điểm toàn diện vượt quá GPT-3.5 hoặc GPT-4, nhưng bài kiểm tra GPT đã bị dừng vào tháng 5. Ai có thể đảm bảo rằng GPT không được cải thiện trong ba tháng qua?

Tình hình của OpenAI

Theo báo cáo từ UBS Group vào tháng 2, chỉ hai tháng sau khi ChatGPT ra mắt, số người dùng hoạt động hàng tháng của nó đã vượt quá 100 triệu vào cuối tháng 1 năm 2023, khiến nó trở thành ứng dụng tiêu dùng phát triển nhanh nhất trong lịch sử.

Nhưng sự phát triển của ChatGPT không hề suôn sẻ.

Vào tháng 7 năm nay, nhiều người dùng GPT-4 phàn nàn rằng so với khả năng suy luận trước đó, hiệu suất của GPT-4 đã giảm sút.

Một số người dùng đã chỉ ra các vấn đề trên Twitter và diễn đàn nhà phát triển trực tuyến OpenAI, tập trung vào logic yếu hơn, nhiều câu trả lời sai hơn, không thể theo dõi thông tin được cung cấp, khó làm theo hướng dẫn, quên thêm dấu ngoặc đơn trong mã phần mềm cơ bản và chỉ nhớ các những lời khuyên gần đây nhất và như vậy.

Vào tháng 8, một báo cáo khác cho biết OpenAi có thể gặp khó khăn về tài chính và có thể phá sản vào cuối năm 2024.

Báo cáo cho biết OpenAI tốn khoảng 700.000 USD mỗi ngày chỉ để vận hành dịch vụ trí tuệ nhân tạo ChatGPT. Hiện tại, công ty đang cố gắng có lãi với GPT-3.5 và GPT-4, nhưng vẫn chưa tạo ra đủ doanh thu để hòa vốn.

Tuy nhiên, OpenAI cũng có thể có những cơ hội mới.

Gần đây, OpenAI thông báo sẽ tổ chức hội nghị nhà phát triển đầu tiên vào tháng 11.

Mặc dù OpenAI tuyên bố rằng họ sẽ không phát hành GPT-5, OpenAI cho biết hàng trăm nhà phát triển từ khắp nơi trên thế giới sẽ làm việc với nhóm OpenAI để xem trước "các công cụ mới" và trao đổi ý tưởng.

Điều này có thể có nghĩa là ChatGPT đã đạt được tiến bộ mới.

Theo The Paper, vào ngày 30 tháng 8, một người quen thuộc với vấn đề này đã tiết lộ rằng bằng cách bán phần mềm AI và sức mạnh tính toán để thúc đẩy hoạt động của nó, OpenAI dự kiến sẽ đạt được doanh thu hơn 1 tỷ USD trong 12 tháng tới.

Hôm nay, một báo cáo truyền thông khác cho biết Morgan Stanley sẽ ra mắt một chatbot trí tuệ nhân tạo tổng hợp được phát triển chung với OpenAI vào cuối tháng này.

Những người làm việc với các chủ ngân hàng ở Morgan Stanley đều giàu có hoặc giàu có. Nếu chatbot trí tuệ nhân tạo tổng hợp sắp ra mắt này có thể mang lại trải nghiệm khác cho khách hàng của Morgan Stanley thì đó có thể là một lợi ích to lớn cho OpenAI.

Sự xuất hiện của kỷ nguyên trí tuệ nhân tạo đã trở nên không thể ngăn cản được. Còn ai giỏi hơn thì bạn không thể chỉ nói với mình mà phải để người dùng đánh giá. Chúng tôi cũng tin rằng các mô hình lớn trong nước chắc chắn sẽ bắt kịp ChatGPT về năng lực cụ thể và năng lực toàn diện.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
1/3
1Altcoin Season Coming?
24k Phổ biến
2Stablecoin Regulation Crackdown
9k Phổ biến
3Gate June Transparency Report
22k Phổ biến
4ETH Breaks Through $3,800
28k Phổ biến
5Institutions Buying Bitcoin
17k Phổ biến

Ghim

sơ đồ trang web