Các nhà nghiên cứu nổi tiếng của Trung Quốc tại OpenAI, Google và Meta đang suy nghĩ gì | Bản ghi lại cuộc trò chuyện

Nguồn gốc: Silicon Star People

Nguồn hình ảnh: Được tạo bởi AI‌ không giới hạn

Chỗ ngồi đã chật kín và lối đi chật kín người.

Bạn thậm chí có thể nghĩ đó là một cuộc gặp gỡ của người nổi tiếng.

Nhưng đây thực sự là một trong những hội nghị bàn tròn tại hội nghị GenAI ở Thung lũng Silicon.

Nó được bố trí trên "sân khấu phụ" vào buổi trưa khi mọi người buồn ngủ nhất. Có rất nhiều CEO và nhà sáng lập của các công ty ngôi sao ở Thung lũng Silicon ngồi trên sân khấu trong một phòng họp lớn khác, và chiếc bàn tròn này "chỉ" một số nhà nghiên cứu. , nhưng người ta vẫn cứ đổ về căn phòng nhỏ.

Mục tiêu của họ là ba nhà nghiên cứu Trung Quốc. Trước đây ở Thung lũng Silicon, cảnh tượng này luôn xảy ra khi "giám đốc điều hành người Trung Quốc có chức vụ cao nhất trong các công ty ở Thung lũng Silicon" xuất hiện, nhưng lần này lại có người truy đuổi ba thanh niên.

Xinyun Chen, Chunting Chu và Jason Wei.

**Các nhà nghiên cứu trẻ Trung Quốc tại ba trong số những công ty AI quan trọng nhất ở Thung lũng Silicon. **

Ba cái tên này chắc chắn sẽ quen thuộc với những người theo sát xu hướng mẫu xe cỡ lớn.

Xinyun Chen là nhà khoa học nghiên cứu cấp cao của nhóm suy luận Google Brain và DeepMind. Mối quan tâm nghiên cứu của cô là tổng hợp chương trình thần kinh và học máy đối nghịch. Cô nhận bằng Tiến sĩ khoa học máy tính tại Đại học California, Berkeley và bằng cử nhân khoa học máy tính của lớp ACM tại Đại học Shanghai Jiao Tong.

Cô đã tham gia vào các bài viết bao gồm việc cho phép LLM tạo ra các công cụ của riêng mình và dạy LLM gỡ lỗi mã của riêng mình, v.v. Đây đều là những bài viết rất quan trọng và quan trọng trong lĩnh vực tạo mã AI. Cô cũng đã được một số phương tiện truyền thông mô tả một cách phóng đại là thành viên của "Nhóm Google Deepmind Trung Quốc".

Chunting Chu là nhà khoa học nghiên cứu tại Meta AI. Vào tháng 5 năm 2022, cô nhận bằng Tiến sĩ tại Viện Công nghệ Ngôn ngữ tại Đại học Carnegie Mellon. Mối quan tâm nghiên cứu chính hiện tại của cô nằm ở sự giao thoa giữa xử lý ngôn ngữ tự nhiên và học máy, cũng như các phương pháp căn chỉnh mới. Bài báo do cô dẫn đầu, cố gắng sử dụng ít mẫu hơn và tinh tế hơn để đào tạo các mô hình lớn, đã được Yann Lecun hết lời khen ngợi và đề xuất trong bài báo. Bài báo đã cung cấp cho ngành những ý tưởng mới hơn bên cạnh các phương pháp chính thống như RLHF.

Người cuối cùng là Jason Wei của OpenAI, một nhà nghiên cứu ngôi sao được cộng đồng AI trong và ngoài nước rất kính trọng. Nhà phát triển COT (Chuỗi suy nghĩ) nổi tiếng. Sau khi tốt nghiệp đại học vào năm 2020, anh trở thành nhà nghiên cứu cấp cao tại Google Brain, trong nhiệm kỳ của mình, anh đã đề xuất khái niệm chuỗi tư duy, đây cũng là một trong những chìa khóa cho sự xuất hiện của LLM. Vào tháng 2 năm 2023, anh gia nhập OpenAI và gia nhập nhóm ChatGPT.

Mọi người đến với những công ty này nhưng chủ yếu là để nghiên cứu.

Nhiều khi trong diễn đàn này, họ giống như những sinh viên, bạn như đang xem một cuộc thảo luận ở trường đại học, họ là những người thông minh, logic phản ứng nhanh, hơi lo lắng nhưng cũng đầy lối nói hóm hỉnh.

"Tại sao bạn phải nghĩ ảo giác là một điều xấu?"

“Nhưng Trump ngày nào cũng bị ảo giác.”

Có tiếng cười.

Đây là một cuộc trò chuyện hiếm hoi, sau đây là bản ghi lại, những người của Silicon Star cũng tham gia và đặt câu hỏi.

Câu hỏi: Cùng thảo luận một vấn đề rất quan trọng trong LLM, đó là ảo giác. Khái niệm ảo giác đã được đề xuất ngay từ khi các tham số của mô hình còn rất ít và kích thước còn rất nhỏ, nhưng bây giờ khi các mô hình ngày càng lớn hơn, vấn đề ảo giác đã thay đổi như thế nào?

Chunting: Tôi có thể nói trước. Tôi đã thực hiện một dự án ba năm trước về ảo giác. Vấn đề ảo giác mà chúng tôi gặp phải vào thời điểm đó rất khác so với những gì chúng tôi gặp phải bây giờ, vào thời điểm đó, chúng tôi đã tạo ra những mô hình rất nhỏ và thảo luận về ảo giác trong các lĩnh vực cụ thể, chẳng hạn như dịch thuật hoặc tóm tắt tài liệu và các chức năng khác. Nhưng bây giờ rõ ràng vấn đề lớn hơn nhiều.

Tôi nghĩ có nhiều nguyên nhân khiến các mô hình lớn vẫn tạo ra ảo giác. Trước hết, về mặt dữ liệu huấn luyện, do con người bị ảo giác nên dữ liệu cũng có vấn đề. Nguyên nhân thứ hai là do cách đào tạo của mô hình nên không thể trả lời các câu hỏi theo thời gian thực và sẽ trả lời sai các câu hỏi. Cũng như những thiếu sót về lý luận và các khả năng khác có thể dẫn đến vấn đề này.

Xinyun:** Thật ra tôi sẽ bắt đầu câu trả lời này bằng một câu hỏi khác. Tại sao con người nghĩ ảo giác là một điều xấu **

Tôi có chuyện đồng nghiệp của tôi hỏi người mẫu một câu hỏi cũng được lấy từ một số ngân hàng câu hỏi đánh giá: Điều gì sẽ xảy ra khi công chúa hôn con ếch. Câu trả lời của mô hình là không có gì xảy ra. **

Trong nhiều câu trả lời đánh giá mô hình, câu trả lời "sẽ trở thành hoàng tử" là câu trả lời đúng và câu trả lời sẽ không có chuyện gì xảy ra sẽ bị đánh giá là sai. **Nhưng đối với tôi, tôi thực sự nghĩ rằng đây là câu trả lời hay hơn và rất nhiều người thú vị sẽ trả lời câu hỏi này. **

Sở dĩ mọi người cho rằng đây là ảo ảnh là vì họ chưa nghĩ đến việc khi nào AI không nên có ảo giác và khi nào AI nên có ảo giác.

Ví dụ, một số công việc sáng tạo có thể yêu cầu nó và trí tưởng tượng là rất quan trọng. Bây giờ chúng ta không ngừng làm mô hình lớn hơn, nhưng có một vấn đề ở đây là dù lớn đến đâu cũng không thể nhớ chính xác mọi thứ. Con người thực sự có cùng một vấn đề. Tôi nghĩ một điều có thể làm được là cung cấp một số công cụ nâng cao để hỗ trợ mô hình, chẳng hạn như tìm kiếm, tính toán, công cụ lập trình, v.v. Con người có thể nhanh chóng giải quyết vấn đề ảo giác với sự trợ giúp của những công cụ này, nhưng các mô hình trông vẫn chưa đẹp lắm. Đây cũng là câu hỏi mà tôi muốn tự mình nghiên cứu.

Jason: **Nếu bạn hỏi tôi, Trump ngày nào cũng bị ảo giác. (Cười) Bạn nói có hoặc không. **

Nhưng tôi nghĩ một vấn đề khác ở đây là kỳ vọng của mọi người về mô hình ngôn ngữ đang thay đổi. **Vào năm 2016, khi RNN tạo một URL, bạn mong đợi rằng URL đó phải sai và không đáng tin cậy. Nhưng hôm nay, tôi đoán bạn sẽ mong đợi mô hình này đúng về rất nhiều thứ, vì vậy bạn cũng sẽ nghĩ rằng ảo giác nguy hiểm hơn. Vì vậy, đây thực sự là một nền tảng rất quan trọng. **

(Các hướng nghiên cứu tiềm năng được liệt kê bởi Jason Wei)

Hỏi: Câu hỏi tiếp theo dành cho Xinyun, chẳng hạn như một chủ đề rất quan trọng trong ngành hiện nay là tự cải tiến mô hình và tự sửa lỗi. Bạn có thể chia sẻ nghiên cứu của bạn?

Xinyun: Cảm hứng cho việc tự sửa lỗi mô hình thực ra đến từ cách con người lập trình. Chúng tôi biết rằng nếu chương trình của con người kết thúc một lần, chắc chắn sẽ có vấn đề và việc gỡ lỗi là cần thiết. Đối với những lập trình viên rất giỏi, việc gỡ lỗi cũng là một kỹ năng rất quan trọng. Mục tiêu của chúng tôi là không cần bất kỳ hướng dẫn bên ngoài nào và không cần con người cho nó biết điều gì sai, mô hình có thể xem mã do chính nó tạo ra, xem kết quả của hoạt động và sau đó xác định điều gì đã xảy ra. Nếu có vấn đề, hãy đi và gỡ lỗi nó.

Và tại sao việc tự gỡ lỗi sẽ hỗ trợ việc tạo mã, tôi nghĩ có hai lý do. Đầu tiên, việc tạo mã về cơ bản dựa trên đào tạo mã nguồn mở, nó có thể tạo mã phù hợp với hướng chung mà bạn muốn, nhưng mã có thể rất dài, có nhiều lỗi và không thể chạy được. Nhưng chúng ta không cần phải bắt đầu lập trình từ đầu thay vì sử dụng cơ sở mã hiện có, bởi vì dù bạn bắt đầu lại từ đầu bao nhiêu lần thì vấn đề là không thể tránh khỏi, vì vậy cần phải tạo mã trên các tài nguyên mã hiện có và gỡ lỗi. đang trở nên quan trọng. **Thứ hai, quá trình gỡ lỗi tiếp tục nhận được một số phản hồi từ bên ngoài, điều này rất hữu ích để nâng cao hiểu biết về mô hình.

Q: Một câu hỏi tiếp theo là, nếu bạn để mô hình tự cải thiện thì liệu có vấn đề gì không?

Chunting: Chúng tôi từng làm một thí nghiệm kỳ lạ, kết quả là tác nhân sau khi thực thi mã đã xóa môi trường phát triển python, nếu tác nhân này xâm nhập vào thế giới thực, có thể sẽ gây ảnh hưởng xấu. Đây là điều chúng ta cần cân nhắc khi phát triển đại lý. Tôi cũng thấy rằng mô hình cơ bản càng nhỏ thì năng lực càng nhỏ, khó có thể đề cao và suy ngẫm về bản thân. Có lẽ chúng ta có thể dạy mô hình tự cải thiện bằng cách cho nó thấy nhiều "lỗi" hơn trong quá trình căn chỉnh.

Q: Còn Jason thì sao, bạn làm như thế nào và bạn nghĩ gì về việc đánh giá các mô hình.

Jason: Ý kiến cá nhân của tôi là việc đánh giá các mô hình ngày càng khó khăn, đặc biệt là trong mô hình mới. Có nhiều lý do đằng sau điều này, một là do các mô hình ngôn ngữ hiện được sử dụng trong vô số nhiệm vụ và bạn thậm chí còn không biết phạm vi khả năng của nó. Lý do thứ hai là nếu nhìn vào lịch sử của AI, chúng ta chủ yếu giải quyết các vấn đề truyền thống và cổ điển, mục tiêu rất ngắn hạn và văn bản cũng rất ngắn. Nhưng hiện nay văn bản giải đã dài hơn, thậm chí con người còn mất nhiều thời gian để đánh giá. Có lẽ thách thức thứ ba là đối với nhiều thứ, cái gọi là hành vi đúng đắn lại không được xác định rõ ràng. **

Tôi nghĩ có một số điều chúng ta có thể làm để cải thiện khả năng đánh giá. Đầu tiên và rõ ràng nhất là đánh giá ở phạm vi rộng hơn, khi gặp phải một số hành vi có hại thì có thể chia cụ thể hơn thành các nhiệm vụ nhỏ hơn để đánh giá hay không. Một câu hỏi khác là liệu có thể đưa ra nhiều phương pháp đánh giá hơn cho các nhiệm vụ cụ thể hay không, con người có thể đưa ra một số và AI cũng có thể đưa ra một số.

Q: Bạn nghĩ sao về việc sử dụng AI để đánh giá lộ trình của AI?

Jason: Nghe hay đấy. Tôi nghĩ một trong những xu hướng mà tôi đang xem xét gần đây là liệu các mô hình được sử dụng để đánh giá các mô hình có thể hoạt động tốt hơn hay không. Ví dụ, ý tưởng đào tạo AI theo hiến pháp, ngay cả khi hiệu suất hiện tại không hoàn hảo, rất có thể sau thế hệ GPT tiếp theo, những mô hình này sẽ hoạt động tốt hơn con người.

**Ngôi sao Silicon: Các bạn đều là những nhà nghiên cứu còn rất trẻ. Tôi muốn biết bạn, với tư cách là nhà nghiên cứu trong doanh nghiệp, nghĩ gì về sự không phù hợp nghiêm trọng giữa GPU và sức mạnh tính toán giữa doanh nghiệp và giới học thuật. **

Jason: Nếu bạn làm việc trong một môi trường hạn chế nào đó, điều đó thực sự có thể có tác động tiêu cực, nhưng tôi nghĩ vẫn còn chỗ cho nhiều công việc, chẳng hạn như phần thuật toán và nghiên cứu có thể không yêu cầu nhiều GPU . Không bao giờ thiếu chủ đề.

Chunting: Tôi cũng cảm thấy có rất nhiều không gian và địa điểm đáng để khám phá. Ví dụ, nghiên cứu về các phương pháp căn chỉnh thực sự có thể được thực hiện với nguồn lực hạn chế**. Và có thể ở Vùng Vịnh, có nhiều cơ hội hơn cho những người học tập.

Xinyun: Nhìn chung, có hai hướng chung cho nghiên cứu LLM, một là cải thiện hiệu suất kết quả và hai là hiểu mô hình. Chúng tôi thấy rằng nhiều khuôn khổ, điểm chuẩn tốt, v.v., cũng như một số thuật toán tốt đều đến từ giới học thuật.

Ví dụ, khi tôi tốt nghiệp Tiến sĩ, người hướng dẫn của tôi đã đưa ra cho tôi một gợi ý - **Các nhà nghiên cứu AI nên suy nghĩ về nghiên cứu trong chiều thời gian của nhiều năm trong tương lai, nghĩa là không chỉ xem xét cải tiến một số thứ hiện tại . , mà là một khái niệm công nghệ có thể mang lại những thay đổi căn bản trong tương lai. **

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)