Lan Zhenzhong, Giáo sư Đại học Tây Hồ: Một số nhận thức về mô hình lớn

Vào ngày 19 tháng 9 năm 2023, "Tuần lễ quốc tế về Blockchain Thượng Hải năm 2023 · Hội nghị thượng đỉnh toàn cầu về Blockchain lần thứ chín" đã khai mạc tại Thượng Hải. Lan Zhenzhong, người sáng lập West Lake Xinchen và giáo sư của Đại học West Lake, đã có một bài giảng trực tiếp có tựa đề "Một số nhận thức về các mô hình lớn".

Để biết thêm thông tin, vui lòng nhấp vào: Điểm nổi bật "Tuần lễ quốc tế Blockchain Thượng Hải 2023" (cập nhật liên tục)"

Golden Finance đã tiến hành theo dõi tại chỗ và báo cáo toàn bộ cuộc họp. Sau đây là tóm tắt nội dung bài phát biểu.

a6HYl04gicQVln4YS70b1BQDxTDyQ71rWo9B2M3P.jpeg

chào buổi sáng mọi người!

Hôm nay tôi sẽ chủ yếu nói về các mô hình lớn và trí tuệ nhân tạo, sau đó tôi sẽ nói về một số tích hợp với Web3 và công việc đang được thực hiện.

Tôi bắt đầu làm việc về trí tuệ nhân tạo từ năm 2007, tính đến nay đã hơn chục năm, từ thời đại CPU đến thời đại GPU, từ mô hình nhỏ đến mô hình lớn, tôi đã làm rất lâu và tôi cũng đã làm như vậy. thực hiện một số nội dung tương đối tiêu biểu. Năm 2019, mẫu lớn tôi làm khi còn ở Google là mẫu lớn tốt nhất thế giới, tốt hơn nhiều so với GPT2, nên lúc đó chúng tôi coi thường dòng GPT, nhưng giờ họ đang làm rất tốt.

Khi trở lại Trung Quốc vào năm 2020, tôi đã thực hiện đánh giá mô hình lớn đầu tiên của Trung Quốc, có thể coi tôi là người tham gia chuyên sâu về các mô hình lớn, hiện đã có phòng thí nghiệm và công ty nghiên cứu liên quan đến mô hình lớn.

Trước đây, tôi ít khi nhìn lại lịch sử phát triển của những mẫu xe lớn, cũng ít khi suy nghĩ sâu sắc về chúng. Cho đến khi ChatGPT trở nên phổ biến, mọi người đã đến hỏi tôi rất nhiều câu hỏi, tôi xin tóm tắt những câu hỏi sau:

Đầu tiên, bạn muốn mô hình trở nên lớn hơn hay nhỏ hơn?

Thứ hai, hiện nay người ta bàn tán rất nhiều về các mô hình lớn nói chung, vậy các mô hình lớn nói chung có cơ hội hay các mô hình lớn trong ngành có cơ hội?

Thứ ba, nên đầu tư vào NVIDIA hay các công ty mô hình, công ty ứng dụng lớn?

Thứ tư, đối với công chúng, những mô hình lớn có thể thay đổi công việc của tôi như thế nào? Tôi nên chọn nghề nghiệp như thế nào.

Những câu hỏi này cho phép chúng ta ôn lại lịch sử quá khứ, chủ yếu trình bày một số dữ liệu trong quá khứ để các bạn tham khảo.

Trước hết, câu hỏi đầu tiên, liệu các mô hình lớn có ngày càng lớn hơn không? Nhìn lại lịch sử, khi máy tính lần đầu tiên bắt đầu phát triển vào năm 1950, các mô hình thực sự ngày càng trở nên lớn hơn. Có thể nói, mô hình ngày càng lớn hơn về cơ bản là yếu tố đầu tiên để mô hình trở nên thông minh nên mô hình sẽ ngày càng lớn hơn.

Cho đến năm 2018, chúng tôi đã phát hiện ra một phương pháp có thể làm cho mô hình mở rộng nhanh chóng. Bây giờ nó đang mở rộng rất nhanh. Từ năm 2018 đến đầu năm 2021, về cơ bản nó đã tăng hàng trăm lần sau mỗi 18 tháng. Bây giờ tốc độ đã chậm lại, nhưng nó là cũng mở rộng nhanh chóng.

(Như trong hình) Hình này là hình của GPT4. Trục tung nói về mức độ thông minh. Mức độ thông minh càng cao thì cấp độ càng cao. Trục hoành nói về quy mô mô hình và số lượng đào tạo . Khi mô hình ngày càng lớn hơn và được huấn luyện nhiều hơn, mức độ thông minh ngày càng cao hơn. Điểm xanh là GPT4, lúc đó vẫn còn độ dốc và sẽ vẫn đi xuống. Vì vậy có thể mong đợi rằng khi bạn làm cho mô hình lớn hơn, nó vẫn có thể trở nên thông minh hơn. Con người luôn theo đuổi giới hạn và chúng ta chắc chắn sẽ khuếch đại nó.

Nhưng điều mà mọi người lo lắng hiện nay là GPT4 đã là mô hình cấp nghìn tỷ, chi phí suy luận rất đắt, đào tạo cũng rất tốn kém, khuếch đại có hữu ích không?

Nhìn vào một dữ liệu khác, chúng ta biết rằng sự lo lắng này là không cần thiết, vì chi phí đào tạo và suy luận đang giảm mạnh. Khi GPT3 được đào tạo vào năm 2020, chi phí cho một buổi đào tạo là 4 triệu USD. Nó đã giảm xuống còn 400.000 USD vào năm 2022 và chi phí giảm rất nhanh.

Chủ yếu từ một số khía cạnh:

Đầu tiên, hiệu suất GPU đã tăng mạnh và chi phí giảm xuống, vượt xa Định luật Moore. Từ năm 2016 đến năm 2022, theo Định luật Moore, hiệu năng của CPU đã tăng 8 lần và của GPU đã tăng 26 lần, sự cải thiện là rất rõ ràng.

Thứ hai là cải tiến phần mềm, với sự nâng cao hiệu quả đào tạo do phần mềm mang lại, chi phí đào tạo hàng năm giảm khoảng 47%, sự kết hợp của cả hai là sự sụt giảm rất khủng khiếp, một là phần cứng, một là phần mềm.

Thứ ba, chúng tôi đang trải rộng sức mạnh tính toán trên quy mô lớn. Trước khi ChatGPT ra mắt, sức mạnh tính toán toàn cầu tăng khoảng 20% -40% mỗi năm. Sau khi ChatGPT ra mắt, sức mạnh tính toán có thể tăng gấp đôi. Khi sức mạnh tính toán của bạn tăng lên trên quy mô lớn và GPU được sản xuất hàng loạt, chi phí vận hành cũng giảm. Tổng hợp lại, chi phí đào tạo và suy luận đang giảm mạnh, vì vậy chúng ta có thể thấy rằng nó đã giảm 10 lần trong hai năm.

Trong vài năm tới, những mô hình cấp nghìn tỷ như GPT4 sẽ trở nên tương đối rẻ và mọi người đều có thể sử dụng chúng.

Tóm lại, tôi dự đoán rằng các mô hình sẽ tiếp tục lớn hơn và mạnh hơn, chi phí đào tạo và suy luận sẽ tiếp tục giảm và quá trình lặp lại sẽ diễn ra nhanh chóng.

(Như trong hình) Bức ảnh này là về GPT1. Lúc đó tôi không đánh giá cao GPT1. Bây giờ nhìn lại, tôi đã phạm một sai lầm lớn. GPT1 đã có đóng góp rất lớn và đã biến trí tuệ nhân tạo từ trí tuệ nhân tạo chuyên dụng. Chuyển đổi thành trí tuệ nhân tạo nói chung.

Trước đây có hàng trăm tác vụ xử lý ngôn ngữ tự nhiên và nhiều mô hình khác nhau được thiết kế cho từng tác vụ nên có rất nhiều bài viết. Nhưng sau khi GPT1 ra mắt, tôi đã bảo bạn không nên sử dụng nhiều mô hình khác nhau, tôi đã sử dụng một mô hình duy nhất để xử lý hầu hết (nhiệm vụ) của bạn.

Bài viết sau được viết bởi đồng nghiệp của tôi tại Google vào thời điểm đó, bài viết này đã tích hợp nhiều nhiệm vụ khác nhau vào cùng một mô hình. Vì vậy, đóng góp chính của làn sóng này là tính phổ quát. Tính phổ quát không chỉ được thể hiện qua văn bản mà còn ở hình ảnh, âm thanh và Đối với các loại dữ liệu khác nhau như trình tự, chỉ cần bạn có thể chuyển đổi dữ liệu thành trình tự thì về cơ bản nó có thể được xử lý.

Cắt hình ảnh thành nhiều mảnh và kéo dài nó là một nhiệm vụ mà mô hình Transformer hiện có thể xử lý. Về cơ bản, nó có thể thực hiện nhiều nhiệm vụ khác nhau và rất linh hoạt.

Mặc dù các mô hình lớn bây giờ không thể xử lý nhiều nhiệm vụ phức tạp nhưng bạn có thể làm được miễn là bạn giúp anh ấy làm một chút và chia nhỏ nhiệm vụ ra một chút. Mặc dù mọi người đều cảm thấy GPT4 rất mạnh, độ chính xác khi trực tiếp thực hiện 24 điểm là 7,3%, nhưng nếu chia nhỏ ra một chút thì có thể cải thiện lên 74%. bây giờ Các mô hình dòng GPT hoặc các mô hình lớn nói chung có thể giúp bạn giải quyết nhiều nhiệm vụ và đạt được sự tự động hóa.

Một là mô hình sẽ trở nên lớn hơn, hai là nó linh hoạt và có thể giải được nhiều ký tự phức tạp chỉ với một chút tháo gỡ nên rất thiết thực. Có nhiều dự án đã được triển khai thành công ở nước ngoài, chẳng hạn như Duolingo là một công ty ở Pittsburgh, doanh thu của công ty này đã tăng 42% trong quý 1 năm 2023 nhờ có thêm ứng dụng ChatGPT.

Hiện nay có rất nhiều lập trình viên đang sử dụng Copilot, doanh thu của OpenAI năm nay ước tính đạt 1,2 tỷ USD, đây là một quy mô doanh thu rất khó khăn đối với một công ty khởi nghiệp.

Sự khác biệt giữa làn sóng trí tuệ nhân tạo này với làn sóng trước đó là nó thay thế những người lao động trí óc.Hình bên phải thể hiện mức độ trí tuệ (tự động hóa) ở các ngành khác nhau trước làn sóng trí tuệ nhân tạo nói chung này, phía dưới là những ngành không có bằng cấp , tiếp theo là từ From Master đến PHD, mức độ thay thế ngày càng thấp khi bạn đi lên. Bây giờ mọi chuyện đã khác, sau sự xuất hiện của trí tuệ nhân tạo nói chung, những người lao động trí óc có thể dễ dàng bị thay thế.

Tóm lại, việc triển khai các mô hình lớn sẽ nhanh hơn chúng ta tưởng tượng, tất nhiên là chậm hơn so với nhiều nhân viên tài chính tưởng tượng, bởi vì phản ứng của thị trường chứng khoán luôn nhanh hơn công nghệ, ít nhất là nhanh hơn chúng ta tưởng tượng, và nó có thể trao quyền cho mọi tầng lớp xã hội. mạng sống. Bạn khó có thể tháo dỡ từng nhiệm vụ, nếu một công ty kiểu mẫu lớn đi sâu vào ngành sẽ có cơ hội lớn.

Ngày nay, hầu hết mọi người đều chú ý đến trí thông minh của người mẫu, ít chú ý đến “trí tuệ cảm xúc” của người mẫu và mức độ tương tác với mọi người, ví dụ như tôi hỏi một câu mà người yêu tôi hay hỏi, và ChatGPT đã cho tôi câu trả lời này. Có một phương pháp cho câu trả lời này, nhưng dường như không có Cảm xúc nào cho thấy sự tương tác của chúng tôi với mô hình là lạnh lùng và thiếu quan tâm đến người dùng. Điều này phản ánh sự phát triển ban đầu của ngành.

Bạn có thể so sánh các công cụ tìm kiếm, khi mới ra mắt, việc cá nhân hóa còn hiếm, nhưng hiện nay, mọi người sử dụng Baidu và Google theo cách khác nhau, vì rất nhiều thông tin sẽ được cá nhân hóa để tìm kiếm chính xác hơn, nhưng hầu hết các Model đều chưa làm được điều này.

Một số người cũng đã bắt đầu làm điều đó, chẳng hạn như một công ty tên là Character.ai, cũng do đồng nghiệp Google của tôi thành lập, anh ấy đã thêm tính năng cá nhân hóa vào mô hình, điều này có thể cải thiện đáng kể thời gian tương tác giữa mô hình và con người. Dữ liệu trong tháng 5: Thời gian tương tác trung bình của OpenAI là 4 phút và thời gian tương tác trung bình của công ty này là 28 phút, gấp nhiều lần thời gian tương tác. Trang trông như thế này, tương đương với việc chia mô hình lớn thành nhiều Thủ đô và Đại lý (đại lý) khác nhau để đạt được hướng đi cá nhân hóa, mang tính cảm xúc hơn và mọi người sẵn sàng tương tác với nó. Với sự phát triển của các mô hình lớn hiện nay, sẽ có bước đột phá lớn trong tương tác giữa người và máy tính.

Công ty và phòng thí nghiệm của chúng tôi chủ yếu nghiên cứu các mô hình lớn tổng hợp có IQ cao và EQ cao, chủ yếu là các mô hình lớn đa phương thức. Trước đây, để cải thiện trí tuệ cảm xúc của các người mẫu, một loạt khả năng đã được phát triển để nâng cao trí nhớ, khả năng cá nhân hóa và nhận thức cảm xúc.

Mô hình này được ra mắt tương đối sớm, vì tôi đã làm mô hình tổng quát lớn ở Google trong một thời gian dài. Trước khi ChatGPT ra mắt vào giữa năm 2020, chúng tôi đã có mô hình tổng quát lớn của riêng mình. Vào thời điểm đó, khả năng viết của mô hình này mô hình ngang bằng với 3,5 và đó là một nghề quan trọng.

Nó đã trực tuyến được hơn một năm và có hơn 200 người dùng bên C và hơn 100 người dùng bên B bao gồm Starbucks và Alipay.

Một trong những ứng dụng tiêu biểu hơn cả là sự hợp tác với Tom Cat. Tom Cat là sản phẩm đồng hành với 400 triệu người dùng hoạt động hàng tháng trên toàn thế giới, trước đây nó chủ yếu sao chép lời nói của mọi người và sao chép từ ngữ thông qua thay đổi giọng nói. Chúng tôi thêm khả năng tương tác đa phương thức và khả năng đối thoại vào đó.

Hãy quay lại Web3 liên quan đến hội nghị. Đây là sự hiểu biết sơ bộ của tôi. Tôi nghĩ rằng mô hình lớn và Web3 tương ứng với các mối quan hệ năng suất và sản xuất. Mô hình lớn cải thiện đáng kể mức năng suất, nhưng nếu muốn hoạt động tốt thì phải có mối quan hệ sản xuất tương ứng để phù hợp. Tôi tóm tắt rằng có một số vấn đề trong việc triển khai các mô hình lớn:

Thứ nhất, chi phí đào tạo rất cao, không có động cơ khuyến khích các công ty khởi nghiệp mở mã nguồn mô hình của họ, những mô hình tốn hàng triệu USD đào tạo đều là mã nguồn mở, nhưng sau đó lại không liên quan gì đến tôi. Khó lắm. để họ mở nguồn chúng. Nhưng nguồn mở rất quan trọng đối với các mô hình. Nhiều mô hình hiện tại là hộp đen. Nhiều cơ sở nghiên cứu không đủ khả năng để đào tạo các mô hình của riêng họ. Nếu mọi người đều đào tạo thì mọi người đều đang phát minh lại bánh xe. Vì vậy, nguồn mở rất quan trọng, nhưng nó cần có những biện pháp tương ứng.

Thứ hai, chi phí lý luận cao, chi phí lý luận hiện tại cho một cuộc trò chuyện trong GPT4 là 60 xu, đắt hơn nhiều so với bài phát biểu của tôi, chi phí lý luận rất cao và rất khó thực hiện. GPT4 có thể được sử dụng ở nhiều nơi nhưng chi phí thì không thể chấp nhận được.

Thứ ba là độ nhạy cảm của dữ liệu, trước đây dữ liệu của Samsung đã bị OpenAI rò rỉ và gây xôn xao dư luận. Dữ liệu chúng tôi tải lên mô hình lớn hiện nay là dữ liệu nhạy cảm, nhiều công ty không muốn tải lên dữ liệu của chính họ. Làm thế nào để giải quyết những vấn đề này? Tôi hy vọng Web3 có thể giúp chúng tôi giải quyết những vấn đề này.

Vừa nghe thầy Cao nói vẫn còn nhiều khó khăn, nhưng chúng tôi hy vọng thông qua nghiên cứu có thể giúp giải quyết những vấn đề này, chẳng hạn như chúng tôi có chuỗi công khai và mọi người đều có thể tải lên các mô hình nguồn mở, ngay cả khi bạn mở mô hình. và upload lên public chain sẽ có cơ chế khuyến khích tương ứng, ví dụ người dùng upload dữ liệu nếu chúng ta được đào tạo thì sẽ có khuyến khích tương ứng.

Ngoài ra còn có vấn đề về tính toán, hiện nay mọi người đều có một card đồ họa rất mạnh trên điện thoại di động, nếu điện thoại di động của mọi người có thể góp phần suy luận thì chúng ta có thể giảm chi phí suy luận rất nhiều. Chúng tôi hy vọng rằng lý tưởng của chúng tôi có thể thực sự được hiện thực hóa thông qua sức mạnh của Web3. Chúng tôi hy vọng rằng các mô hình lớn có thể trao quyền cho mọi tầng lớp xã hội, đồng hành cùng mọi người và thực sự trở thành trợ lý hoặc người bạn đồng hành của mọi người.

cảm ơn tất cả!

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)