XAI của Musk, kết quả nghiên cứu công khai đầu tiên là ở đây!
Một trong những tác phẩm phổ biến là Greg Yang, một thành viên sáng lập của xAI và là đệ tử của Yau Chengtong.
Trước đây, Yange đã công khai tuyên bố rằng hướng nghiên cứu của ông trong xAI là "Toán học cho AI" và "AI cho Toán học".
Một trong những điểm nổi bật là tiếp tục nghiên cứu trước đây của mình:
Chương trình Tensor, một ngôn ngữ lập trình thống nhất mô tả các kiến trúc mạng nơ-ron - những thành tựu liên quan, đã có sẵn trong GPT-4.
Bài báo mới này, thuộc bộ truyện, tập trung vào "cách đào tạo mạng sâu vô hạn".
Để đạt được điều này, bản thân Yange cũng đặc biệt thực hiện một buổi chia sẻ phát sóng trực tiếp trên X.
Chúng ta hãy xem nội dung tuyệt vời nào đáng để đánh dấu ~
** Đào tạo mạng nơ-ron sâu vô hạn **
Nói một cách đơn giản, bài báo này nghiên cứu sự mở rộng của các mạng dư (ResNet) theo hướng sâu.
Chúng ta biết rằng các mạng dư giải quyết vấn đề suy giảm hiệu suất của các mạng thần kinh tích chập sâu khi độ sâu tăng lên. Nhưng khi mạng lưới tiếp tục sâu sắc, đào tạo một mạng lưới dư sâu tốt vẫn không phải là một nhiệm vụ dễ dàng:
Khi mạng lưới sâu hơn, quy mô của các tính năng sẽ tiếp tục tăng, dẫn đến sự bất ổn của mạng. Sau khi đào sâu mạng, cần phải điều chỉnh lại các siêu tham số, đây không phải là một lượng công việc nhỏ ...
Ý tưởng cho Yanger và những người bạn của ông là tìm ra một phương pháp tham số sâu có thể vừa học các tính năng vừa đạt được chuyển siêu tham số.
Đầu tiên họ nghĩ đến hai giới hạn cho các mạng nơ-ron rộng vô hạn: máy hạt nhân hoặc người học tính năng. Đối với cái sau, các siêu tham số tối ưu không thay đổi theo chiều rộng.
Ở đây, họ đã phân tích các giới hạn của một mạng rộng vô hạn bằng cách sử dụng khung Chương trình Tensor.
Như đã đề cập trước đó, Chương trình Tensor là một trong những mục tiêu nghiên cứu dài hạn của Younger: xây dựng ngôn ngữ lập trình cơ bản có thể mô tả và phân tích các kiến trúc mạng thần kinh bằng ngôn ngữ toán học.
Cụ thể, Chương trình Tensor bao gồm các chức năng nhân và kích hoạt ma trận. Young phát hiện ra rằng nếu các chức năng mạng thần kinh có thể được thể hiện bằng ngôn ngữ này, chúng có thể được khởi tạo tự động và đầy đủ để phân tích.
Phần dẫn xuất toán học, không có sự mở rộng cụ thể ở đây, chúng ta có thể cảm nhận được phong cách hội họa nông cạn...
Trên cơ sở các phân tích đạo hàm này, các tác giả đề xuất phương pháp Độ sâu-μP, có thể thực hiện chuyển siêu tham số theo hướng độ sâu và đơn giản hóa rất nhiều việc điều chỉnh siêu tham số ở các độ sâu khác nhau.
Độ sâu-μP chứa các điểm sau:
Hệ số a/sqrt(L) tỷ lệ nghịch với căn bậc hai của mỗi nhánh dư và độ sâu L.
Tốc độ học của mỗi ma trận trọng lượng giảm khi độ sâu L tăng, tùy thuộc vào loại thuật toán tối ưu hóa. Đối với SGD, tốc độ học tập mất η liên tục và đối với các thuật toán tối ưu hóa thích ứng như Adam, tốc độ học tập mất η / sqrt (L).
Điều đáng chú ý là các tác giả nhận thấy rằng khi độ sâu khối dư là 1, Độ sâu-μP là cách tối ưu để tham số hóa độ sâu, có thể đảm bảo rằng các siêu tham số hội tụ với sự gia tăng độ sâu và nhận ra sự truyền siêu tham số theo hướng độ sâu.
Tuy nhiên, khi độ sâu khối còn lại ≥ 2, lỗi di chuyển siêu tham số và suy giảm hiệu suất đào tạo vẫn sẽ xảy ra.
Ngoài ra, bài báo khám phá khái niệm "đa dạng tính năng" như một vai trò quan trọng trong các mạng sâu.
Một đồng tác giả khác của bài báo là Dingli Yu từ Princeton. Anh tốt nghiệp lớp Thanh Hoa Yao với bằng cử nhân và hiện đang theo học tiến sĩ khoa học máy tính tại Princeton.
** Yanger đã nói gì trong buổi phát sóng trực tiếp? **
Trong buổi phát sóng trực tiếp, Yange cũng trả lời các câu hỏi mà khán giả quan tâm. Không thay đổi ý nghĩa ban đầu, qubit đã sắp xếp một số vấn đề.
Hỏi: Đối với nhiều người trong chúng ta, [nội dung của bài báo] có thể vượt quá sự hiểu biết của chúng ta. Nhưng tôi tự hỏi, mô hình mà bạn đề cập khác với công nghệ ChatGPT và OpenAI mà chúng ta có thể trải nghiệm như thế nào? Sự khác biệt hoặc đổi mới đáng kể giữa bài báo này và kết quả của OpenAI là gì?
Trẻ hơn: Hãy để tôi đưa ra một nhận xét ngắn gọn, và tôi muốn nói rằng những tính chất này không liên quan trực tiếp đến các ứng dụng thực tế tại thời điểm này, nhưng giống như nghiên cứu trong tự nhiên.
Tất nhiên, mục tiêu cuối cùng của việc làm tất cả những điều này là làm cho mô hình tốt hơn, an toàn hơn và sau đó mang lại lợi ích cho nhân loại. Những gì chúng tôi đang làm bây giờ là mô tả hiệu quả dự định, không nhất thiết phải có tác động trực tiếp.
Bây giờ chúng tôi đang ở trên cùng một con thuyền, chúng tôi đang làm những gì chúng tôi có thể, cho dù đó là công việc ngắn hạn hay nghiên cứu ứng dụng dài hạn, để làm cho nó hoạt động vì lợi ích của mọi người.
Q: Nghe có vẻ như bạn đang xây dựng một bộ não máy tính nhân tạo có khả năng suy luận, vậy đây có phải là những gì bạn đang làm không? Ngoài ra, tôi là một người mẹ và con trai 7 tuổi của tôi rất quan tâm đến toán học, bạn có lời khuyên nào có thể khiến nó thích thú và nhiệt tình trong lĩnh vực AI không?
Trẻ hơn: "Web mới" đề cập đến các mạng thần kinh nhân tạo, mà tôi nghĩ là xương sống của nhiều công nghệ hiện đại, bao gồm Google, Facebook, Instagram, v.v. mà bạn sử dụng hàng ngày và các dịch vụ này sử dụng các mạng thần kinh nhân tạo này bên dưới. Những mạng lưới này được sinh ra khoảng sáu mươi hoặc bảy mươi năm trước lấy cảm hứng từ mạng lưới thần kinh thực sự ở động vật và con người, nhưng chúng đã đi chệch khỏi khoa học thần kinh thực sự.
Các mạng này về cơ bản là các vấn đề toán học, vì vậy chúng ta có thể hiểu sâu các mạng thần kinh này sau khi chúng ta nắm bắt các vấn đề toán học mới này và thực hiện nhiều phân tích.
Mặc dù chúng ta chưa biết chính xác cách các tế bào thần kinh kết nối, nhưng thông qua nghiên cứu toán học, chúng ta có thể tối ưu hóa các mạng thần kinh nhân tạo này để giúp các công ty công nghệ cải thiện cuộc sống của mọi người.
Về câu hỏi thứ hai của bạn, thật tuyệt khi biết rằng con trai bạn rất quan tâm đến toán học. Đây là nền tảng để tạo ra những thành tựu to lớn trong lĩnh vực công nghệ và cải thiện cuộc sống của mọi người.
Lời khuyên tôi muốn đưa ra là trước hết bạn hãy duy trì niềm đam mê toán học của con trai mình, điều này rất quan trọng. Một khi bạn mất đi niềm đam mê này, việc tiếp tục học hỏi trở nên khó khăn.
Cũng chú ý quan sát những gì anh ấy thích, làm cho quá trình học tập trở nên thú vị và kích thích hơn nữa sự quan tâm của anh ấy. Đồng thời, cũng cần phải nuôi dưỡng sự tò mò của mình về nguyên tắc mọi thứ hoạt động như thế nào và cố gắng trau dồi tư duy khoa học, được thúc đẩy bởi sự tò mò để nghiên cứu. Nó giống như tháo rời mọi thứ và cố gắng hiểu cách chúng hoạt động.
Nếu một người mất đi sự nhiệt tình của một người để khám phá các sự thật toán học của vũ trụ, có thể khó đạt được động lực. Nói chung, tôi khuyên bạn nên nuôi dưỡng sự quan tâm và tò mò sâu sắc của con trai bạn về thế giới, đặc biệt là bản chất của toán học và khoa học.
Hỏi: Tôi có một câu hỏi trừu tượng hơn. Bạn đã có ý tưởng rằng chiều sâu tiếp cận vô cùng, và sau đó bạn đã viết bài báo này dựa trên ý tưởng đó. Bạn đã xem xét các mạng nơ-ron với các kiến trúc khác nhau chưa? Không phải là một kiến trúc tiêu chuẩn với các tế bào thần kinh và vô số lớp, mà là một cái gì đó hoàn toàn khác. Ví dụ, các tế bào thần kinh này được kết nối theo những cách hoàn toàn khác nhau, có thể là một loại hình vuông?
Trẻ hơn: Trên thực tế, những hiểu biết sâu sắc về phi tuyến tính và số lượng lớp trong công việc của chúng tôi là những nghiên cứu rất thô sơ. Chắc chắn có nhiều câu hỏi có thể được khám phá về cấu trúc phù hợp là gì, hoặc loại cấu trúc nào nên có.
Ví dụ, nhóm Meta trước đây đã nghiên cứu những gì xảy ra với các tế bào thần kinh được kết nối ngẫu nhiên và nhận được một số kết quả thú vị. Vì vậy, chắc chắn còn rất nhiều việc phải làm ở đây. Bây giờ tôi thực sự không có câu trả lời cụ thể để nói điều gì sẽ đúng hoặc có cấu trúc tốt hơn.
Giới thiệu về Jange
Sinh ra ở tỉnh Hồ Nam, Yang Ge đến Hoa Kỳ sau khi tốt nghiệp tiểu học, nơi ông học tại Harvard dưới sự hướng dẫn của Giáo sư Chengtong Yau.
** △ Yang Ge và Yau Chengtong, nguồn: Twitter Yang Ge **
Năm 2017, Yange tốt nghiệp Harvard và sau đó vào Microsoft theo sự giới thiệu của Shen Xiangyang.
Tại Microsoft, Yang Ge được Thẩm Tương Dương đánh giá cao. Vài tháng trước, tại một diễn đàn có tên "Khoa học cơ bản và trí tuệ nhân tạo", Shen Xiangyang đã công khai tuyên bố:
Microsoft Research thường chỉ tuyển dụng sinh viên tiến sĩ và Yange vào Microsoft Research khi tốt nghiệp đại học. Không chỉ bước vào Microsoft Research, mà còn làm rất tốt trong năm năm qua, đặc biệt là trong việc phát triển GPT đã có những đóng góp quyết định.
Điều đáng nói là chính ông đã thừa nhận rằng GPT-4 sử dụng phương pháp μTransfer (Tensor Programs series) của mình.
Nghiên cứu của Young về Chương trình Tensor đã có từ rất sớm và "Chương trình Tensor I" được xuất bản vào năm 2019 và anh ấy tiếp tục khám phá nó chuyên sâu khi làm việc tại Microsoft. Ông tin rằng hầu hết mọi tính toán trong học sâu đều có thể được biểu diễn dưới dạng Chương trình Tensor.
Vào tháng 7 năm nay, Musk tuyên bố thành lập một công ty mới, xAI và Young rời Microsoft để gia nhập nhóm sáng lập xAI và trở thành một nhà toán học của xAI.
Sau khi gia nhập xAI, Young đã hơn một lần tiết lộ rằng mục tiêu dài hạn của dự án Chương trình Tensor là phát triển một "lý thuyết về mọi thứ" của học sâu quy mô lớn, nghĩa là tìm ra một quy tắc lý thuyết có thể thực sự hiểu được hành vi của các mô hình lớn AI.
Ông cũng tuyên bố:
AI sẽ cho phép mọi người hiểu vũ trụ toán học của chúng ta theo những cách mà trước đây không thể tưởng tượng được.
Liên kết giấy:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Kết quả nghiên cứu đầu tiên của Musk về xAI được công bố! Thành viên sáng lập: Cựu sinh viên lớp Young &; Yao cùng làm việc
Nguồn: Qubits
XAI của Musk, kết quả nghiên cứu công khai đầu tiên là ở đây!
Một trong những tác phẩm phổ biến là Greg Yang, một thành viên sáng lập của xAI và là đệ tử của Yau Chengtong.
Trước đây, Yange đã công khai tuyên bố rằng hướng nghiên cứu của ông trong xAI là "Toán học cho AI" và "AI cho Toán học".
Một trong những điểm nổi bật là tiếp tục nghiên cứu trước đây của mình:
Chương trình Tensor, một ngôn ngữ lập trình thống nhất mô tả các kiến trúc mạng nơ-ron - những thành tựu liên quan, đã có sẵn trong GPT-4.
Bài báo mới này, thuộc bộ truyện, tập trung vào "cách đào tạo mạng sâu vô hạn".
Chúng ta hãy xem nội dung tuyệt vời nào đáng để đánh dấu ~
** Đào tạo mạng nơ-ron sâu vô hạn **
Nói một cách đơn giản, bài báo này nghiên cứu sự mở rộng của các mạng dư (ResNet) theo hướng sâu.
Chúng ta biết rằng các mạng dư giải quyết vấn đề suy giảm hiệu suất của các mạng thần kinh tích chập sâu khi độ sâu tăng lên. Nhưng khi mạng lưới tiếp tục sâu sắc, đào tạo một mạng lưới dư sâu tốt vẫn không phải là một nhiệm vụ dễ dàng:
Khi mạng lưới sâu hơn, quy mô của các tính năng sẽ tiếp tục tăng, dẫn đến sự bất ổn của mạng. Sau khi đào sâu mạng, cần phải điều chỉnh lại các siêu tham số, đây không phải là một lượng công việc nhỏ ...
Ý tưởng cho Yanger và những người bạn của ông là tìm ra một phương pháp tham số sâu có thể vừa học các tính năng vừa đạt được chuyển siêu tham số.
Đầu tiên họ nghĩ đến hai giới hạn cho các mạng nơ-ron rộng vô hạn: máy hạt nhân hoặc người học tính năng. Đối với cái sau, các siêu tham số tối ưu không thay đổi theo chiều rộng.
Như đã đề cập trước đó, Chương trình Tensor là một trong những mục tiêu nghiên cứu dài hạn của Younger: xây dựng ngôn ngữ lập trình cơ bản có thể mô tả và phân tích các kiến trúc mạng thần kinh bằng ngôn ngữ toán học.
Phần dẫn xuất toán học, không có sự mở rộng cụ thể ở đây, chúng ta có thể cảm nhận được phong cách hội họa nông cạn...
Độ sâu-μP chứa các điểm sau:
Điều đáng chú ý là các tác giả nhận thấy rằng khi độ sâu khối dư là 1, Độ sâu-μP là cách tối ưu để tham số hóa độ sâu, có thể đảm bảo rằng các siêu tham số hội tụ với sự gia tăng độ sâu và nhận ra sự truyền siêu tham số theo hướng độ sâu.
Một đồng tác giả khác của bài báo là Dingli Yu từ Princeton. Anh tốt nghiệp lớp Thanh Hoa Yao với bằng cử nhân và hiện đang theo học tiến sĩ khoa học máy tính tại Princeton.
** Yanger đã nói gì trong buổi phát sóng trực tiếp? **
Trong buổi phát sóng trực tiếp, Yange cũng trả lời các câu hỏi mà khán giả quan tâm. Không thay đổi ý nghĩa ban đầu, qubit đã sắp xếp một số vấn đề.
Hỏi: Đối với nhiều người trong chúng ta, [nội dung của bài báo] có thể vượt quá sự hiểu biết của chúng ta. Nhưng tôi tự hỏi, mô hình mà bạn đề cập khác với công nghệ ChatGPT và OpenAI mà chúng ta có thể trải nghiệm như thế nào? Sự khác biệt hoặc đổi mới đáng kể giữa bài báo này và kết quả của OpenAI là gì?
Trẻ hơn: Hãy để tôi đưa ra một nhận xét ngắn gọn, và tôi muốn nói rằng những tính chất này không liên quan trực tiếp đến các ứng dụng thực tế tại thời điểm này, nhưng giống như nghiên cứu trong tự nhiên.
Tất nhiên, mục tiêu cuối cùng của việc làm tất cả những điều này là làm cho mô hình tốt hơn, an toàn hơn và sau đó mang lại lợi ích cho nhân loại. Những gì chúng tôi đang làm bây giờ là mô tả hiệu quả dự định, không nhất thiết phải có tác động trực tiếp.
Bây giờ chúng tôi đang ở trên cùng một con thuyền, chúng tôi đang làm những gì chúng tôi có thể, cho dù đó là công việc ngắn hạn hay nghiên cứu ứng dụng dài hạn, để làm cho nó hoạt động vì lợi ích của mọi người.
Q: Nghe có vẻ như bạn đang xây dựng một bộ não máy tính nhân tạo có khả năng suy luận, vậy đây có phải là những gì bạn đang làm không? Ngoài ra, tôi là một người mẹ và con trai 7 tuổi của tôi rất quan tâm đến toán học, bạn có lời khuyên nào có thể khiến nó thích thú và nhiệt tình trong lĩnh vực AI không?
Trẻ hơn: "Web mới" đề cập đến các mạng thần kinh nhân tạo, mà tôi nghĩ là xương sống của nhiều công nghệ hiện đại, bao gồm Google, Facebook, Instagram, v.v. mà bạn sử dụng hàng ngày và các dịch vụ này sử dụng các mạng thần kinh nhân tạo này bên dưới. Những mạng lưới này được sinh ra khoảng sáu mươi hoặc bảy mươi năm trước lấy cảm hứng từ mạng lưới thần kinh thực sự ở động vật và con người, nhưng chúng đã đi chệch khỏi khoa học thần kinh thực sự.
Các mạng này về cơ bản là các vấn đề toán học, vì vậy chúng ta có thể hiểu sâu các mạng thần kinh này sau khi chúng ta nắm bắt các vấn đề toán học mới này và thực hiện nhiều phân tích.
Mặc dù chúng ta chưa biết chính xác cách các tế bào thần kinh kết nối, nhưng thông qua nghiên cứu toán học, chúng ta có thể tối ưu hóa các mạng thần kinh nhân tạo này để giúp các công ty công nghệ cải thiện cuộc sống của mọi người.
Về câu hỏi thứ hai của bạn, thật tuyệt khi biết rằng con trai bạn rất quan tâm đến toán học. Đây là nền tảng để tạo ra những thành tựu to lớn trong lĩnh vực công nghệ và cải thiện cuộc sống của mọi người.
Lời khuyên tôi muốn đưa ra là trước hết bạn hãy duy trì niềm đam mê toán học của con trai mình, điều này rất quan trọng. Một khi bạn mất đi niềm đam mê này, việc tiếp tục học hỏi trở nên khó khăn.
Cũng chú ý quan sát những gì anh ấy thích, làm cho quá trình học tập trở nên thú vị và kích thích hơn nữa sự quan tâm của anh ấy. Đồng thời, cũng cần phải nuôi dưỡng sự tò mò của mình về nguyên tắc mọi thứ hoạt động như thế nào và cố gắng trau dồi tư duy khoa học, được thúc đẩy bởi sự tò mò để nghiên cứu. Nó giống như tháo rời mọi thứ và cố gắng hiểu cách chúng hoạt động.
Nếu một người mất đi sự nhiệt tình của một người để khám phá các sự thật toán học của vũ trụ, có thể khó đạt được động lực. Nói chung, tôi khuyên bạn nên nuôi dưỡng sự quan tâm và tò mò sâu sắc của con trai bạn về thế giới, đặc biệt là bản chất của toán học và khoa học.
Hỏi: Tôi có một câu hỏi trừu tượng hơn. Bạn đã có ý tưởng rằng chiều sâu tiếp cận vô cùng, và sau đó bạn đã viết bài báo này dựa trên ý tưởng đó. Bạn đã xem xét các mạng nơ-ron với các kiến trúc khác nhau chưa? Không phải là một kiến trúc tiêu chuẩn với các tế bào thần kinh và vô số lớp, mà là một cái gì đó hoàn toàn khác. Ví dụ, các tế bào thần kinh này được kết nối theo những cách hoàn toàn khác nhau, có thể là một loại hình vuông?
Trẻ hơn: Trên thực tế, những hiểu biết sâu sắc về phi tuyến tính và số lượng lớp trong công việc của chúng tôi là những nghiên cứu rất thô sơ. Chắc chắn có nhiều câu hỏi có thể được khám phá về cấu trúc phù hợp là gì, hoặc loại cấu trúc nào nên có.
Ví dụ, nhóm Meta trước đây đã nghiên cứu những gì xảy ra với các tế bào thần kinh được kết nối ngẫu nhiên và nhận được một số kết quả thú vị. Vì vậy, chắc chắn còn rất nhiều việc phải làm ở đây. Bây giờ tôi thực sự không có câu trả lời cụ thể để nói điều gì sẽ đúng hoặc có cấu trúc tốt hơn.
Giới thiệu về Jange
Sinh ra ở tỉnh Hồ Nam, Yang Ge đến Hoa Kỳ sau khi tốt nghiệp tiểu học, nơi ông học tại Harvard dưới sự hướng dẫn của Giáo sư Chengtong Yau.
**
△ Yang Ge và Yau Chengtong, nguồn: Twitter Yang Ge **
Năm 2017, Yange tốt nghiệp Harvard và sau đó vào Microsoft theo sự giới thiệu của Shen Xiangyang.
Tại Microsoft, Yang Ge được Thẩm Tương Dương đánh giá cao. Vài tháng trước, tại một diễn đàn có tên "Khoa học cơ bản và trí tuệ nhân tạo", Shen Xiangyang đã công khai tuyên bố:
Điều đáng nói là chính ông đã thừa nhận rằng GPT-4 sử dụng phương pháp μTransfer (Tensor Programs series) của mình.
Nghiên cứu của Young về Chương trình Tensor đã có từ rất sớm và "Chương trình Tensor I" được xuất bản vào năm 2019 và anh ấy tiếp tục khám phá nó chuyên sâu khi làm việc tại Microsoft. Ông tin rằng hầu hết mọi tính toán trong học sâu đều có thể được biểu diễn dưới dạng Chương trình Tensor.
Vào tháng 7 năm nay, Musk tuyên bố thành lập một công ty mới, xAI và Young rời Microsoft để gia nhập nhóm sáng lập xAI và trở thành một nhà toán học của xAI.
Sau khi gia nhập xAI, Young đã hơn một lần tiết lộ rằng mục tiêu dài hạn của dự án Chương trình Tensor là phát triển một "lý thuyết về mọi thứ" của học sâu quy mô lớn, nghĩa là tìm ra một quy tắc lý thuyết có thể thực sự hiểu được hành vi của các mô hình lớn AI.
Ông cũng tuyên bố:
Liên kết giấy: