Nén mọi thứ trực tiếp! Nhà khoa học trưởng của OpenAI Ilya Sutskever thấy cách học không giám sát theo cách này

2023-08-21 01:46:52

Nguồn gốc: Trái tim của cỗ máy

Tín dụng hình ảnh: Được tạo bởi AI‌ không giới hạn

Gần đây, Ilya Sutskever, nhà khoa học trưởng của OpenAI, đã có một bài giảng tại Viện Simons, nơi tập trung vào nghiên cứu lý thuyết tính toán, trong một câu, chúng ta có thể xem xét việc học không giám sát từ góc độ nén. Ngoài ra, anh còn chia sẻ nhiều hiểu biết thú vị khác. Tâm máy sắp xếp trình bày nội dung khái quát của bài phát biểu, hy vọng sẽ giúp bạn đọc hiểu sâu hơn về học không giám sát.

Lần đầu tiên Sutskever nói về sự thay đổi hướng nghiên cứu của mình, ông nói: "Cách đây không lâu, tôi đã chuyển toàn bộ trọng tâm nghiên cứu của mình sang nghiên cứu căn chỉnh AI." Đây là nhóm "Superalignment (siêu căn chỉnh)" do OpenAI thành lập cách đây một thời gian. , mà anh ấy đồng lãnh đạo với Jan Leike. Sutskever nói rằng họ đã đạt được một số kết quả nghiên cứu về sự liên kết của AI, nhưng đây không phải là chủ đề mà buổi nói chuyện này tập trung vào.

Chủ đề của bài phát biểu này là "An observe on Generalization (quan sát về khái quát hóa)", và Ilya Sutskever đặc biệt nói về một lý thuyết giải thích việc học không giám sát.

Đầu tiên, Ilya Sutskever đặt ra một loạt câu hỏi rộng về "việc học": Chính xác thì việc học là gì? Tại sao học tập hữu ích? Tại sao học tập nên hữu ích? Tại sao máy tính nên có khả năng học hỏi? Tại sao mạng lưới thần kinh có thể học hỏi? Tại sao các mô hình máy học có thể học các quy luật của dữ liệu? Chúng ta có thể mô tả việc học bằng thuật ngữ toán học không?

Học có giám sát

Sutskever bắt đầu với việc học có giám sát. Ông nói rằng đã có công việc chính thức quan trọng về học tập có giám sát, kết quả của một số nhà nghiên cứu cách đây nhiều năm; những kết quả này thường được gọi là lý thuyết học tập thống kê.

Ưu điểm của học có giám sát là nó có thể cung cấp một điều kiện toán học chính xác để học thành công. Nghĩa là, nếu bạn có một số dữ liệu từ một số phân phối dữ liệu, thì bạn có thể đạt được thành công trong việc giảm tổn thất đào tạo thấp và bạn có đủ dữ liệu đào tạo (nhiều bậc tự do hơn so với phân phối dữ liệu), thì lỗi kiểm tra của bạn phải thấp.

Về mặt toán học, việc học phải thành công nếu có thể tìm thấy một hàm trong một lớp các hàm đạt được tổn thất đào tạo thấp hơn. Do đó, học có giám sát rất đơn giản.

Các nhà nghiên cứu đã phát hiện ra một số định lý trong nghiên cứu liên quan, sau đây là một ví dụ. Sutskever cho biết sẽ mất khoảng năm phút để giải thích định lý, nhưng dường như thời gian cho bài nói của ông có hạn.

Nói chung, định lý là "thanh lịch" và thể hiện một quá trình học tập có giám sát chỉ với ba dòng dẫn xuất toán học.

Vì vậy, học có giám sát được hiểu tương đối rõ. Chúng tôi biết lý do tại sao nó sẽ hoạt động—miễn là chúng tôi có thể thu thập các tập dữ liệu lớn về học tập có giám sát, chúng tôi có thể tự tin rằng các mô hình sẽ ngày càng tốt hơn. Tất nhiên, một điểm khác cũng rất quan trọng, đó là đảm bảo rằng phân phối bài kiểm tra phù hợp với phân phối đào tạo, chỉ bằng cách này, lý thuyết học tập có giám sát mới có hiệu quả.

Vì vậy khái niệm học có giám sát rất đơn giản. Chúng tôi cũng đã có câu trả lời về lý do tại sao học có giám sát hoạt động — chúng tôi biết lý do tại sao nhận dạng giọng nói và phân loại hình ảnh hoạt động vì chúng dựa trên học tập có giám sát hiệu quả và đảm bảo về mặt toán học.

Nhân đây, Ilya Sutskever đã đề cập đến chiều VC. Ông đề cập rằng nhiều nhà nghiên cứu về lý thuyết học thống kê tin rằng chiều VC là thành phần chính, nhưng mục đích của chiều VC được phát minh là để cho phép mô hình có thể xử lý các tham số với độ chính xác vô hạn.

Ví dụ: nếu mỗi tham số của bộ phân loại tuyến tính của bạn có độ chính xác vô hạn, nhưng độ chính xác của các số dấu phẩy động trong thực tế bị hạn chế và độ chính xác sẽ giảm, thì bạn có thể triển khai một số chức năng thông qua thứ nguyên VC và chuyển đổi bộ phân loại tuyến tính này được rút gọn thành dạng học có giám sát được mô tả bởi công thức trước đó.

Học không giám sát là gì?

Tiếp theo nhìn vào học tập không giám sát. Trước hết học tập không giám sát là gì? Ilya Sutskever nói rằng anh ấy vẫn chưa thấy một lời giải thích thỏa đáng nào về việc học không giám sát và chúng tôi không biết cách suy luận về nó bằng toán học - tốt nhất, chúng tôi chỉ có thể làm một số trực giác.

Học không giám sát đã là giấc mơ từ lâu của lĩnh vực học máy. Sutskever tin rằng mục tiêu này đã đạt được trong các nghiên cứu thử nghiệm, trong đó mô hình xem xét dữ liệu mà không được cho biết nội dung của nó và phát hiện ra cấu trúc ẩn thực sự và hữu ích trong đó.

Làm sao chuyện này lại xảy ra? Chúng ta có thể chắc chắn điều này sẽ xảy ra? Sutskever nói rằng chúng ta không thể, sau tất cả, chúng ta không có cùng sự đảm bảo về mặt lý thuyết đối với việc học không giám sát như chúng ta có đối với việc học có giám sát.

Mọi người đã khám phá học tập không giám sát từ những năm 1980, sử dụng thuật ngữ tương tự. Trong thí nghiệm, người ta quan sát thấy khi lượng dữ liệu ít thì hiện tượng học không giám sát không xuất hiện, nhưng đã xuất hiện một số ý tưởng phát triển phổ biến như BERT, mô hình khuếch tán, mô hình ngôn ngữ kiểu cũ, v.v. Học tập không giám sát vào thời điểm đó cũng có thể tạo ra một số mẫu thú vị, nhưng tất nhiên nó không tốt bằng công nghệ ngày nay.

Nhưng vì chúng ta không biết cách thức hoạt động của học tập không giám sát nên nó luôn gây nhầm lẫn.

Ví dụ: khi bạn tối ưu hóa cho một mục tiêu nhất định (chẳng hạn như tái tạo hình ảnh hoặc dự đoán từ tiếp theo), bạn cũng có thể quan tâm đến một mục tiêu khác (chẳng hạn như phân loại hình ảnh hoặc phân loại tài liệu) và mô hình cũng có thể hoạt động tốt trên mục tiêu chưa được tối ưu hóa này .đạt thành tích tốt. Nhưng tại sao? Tôi không biết, đó là kết quả của thí nghiệm. Sutskever nói nó giống như một phép màu vậy.

Có phải chúng ta sẽ từ bỏ lý thuyết và đi theo chủ nghĩa thực chứng?

Chúng tôi biết rằng học không giám sát là học cấu trúc trong phân phối đầu vào, sau đó lấy thứ gì đó từ nó giúp đạt được mục tiêu. Nhưng nếu phân phối đầu vào là một phân phối thống nhất thì sao? Tại thời điểm này, nhiều thuật toán học tập không giám sát sẽ không thành công. Chúng ta nên điều trị hiện tượng này như thế nào? Sutskever nói rằng chúng ta cần đưa ra một số giả định.

Một phương pháp học tập không giám sát: đối sánh phân phối

Tiếp theo, Sutskever cho thấy một cách suy nghĩ tiềm năng về học tập không giám sát. Ông nói rằng phương pháp học không giám sát này chưa trở thành xu hướng chủ đạo, nhưng nó rất thú vị. Nó có những đặc điểm tương tự như học có giám sát, nghĩa là nó phải hiệu quả. Tại sao? Điều này liên quan đến một quá trình học tập không giám sát được gọi là kết hợp phân phối.

Tiếp theo, hãy để tôi giải thích ngắn gọn. Giả sử có hai nguồn dữ liệu X và Y không có sự tương ứng giữa chúng; mục tiêu của mô hình là tìm một hàm F sao cho phân phối của F(X) xấp xỉ với phân phối của Y - đây là ràng buộc đối với F.

Ràng buộc này có thể có ý nghĩa đối với nhiều tình huống ứng dụng như dịch máy và nhận dạng giọng nói. Ví dụ, nếu có một phân phối của các câu tiếng Anh, sau khi sử dụng hàm F, chúng ta có thể nhận được một phân phối gần với phân phối của các câu tiếng Pháp, khi đó chúng ta có thể nói rằng chúng ta đã thu được các ràng buộc thực sự của F.

Nếu kích thước của cả X và Y đủ cao, thì F có thể có một số lượng lớn các ràng buộc. Trên thực tế, bạn thậm chí có thể khôi phục toàn bộ điểm F từ những ràng buộc đó. Đây là một ví dụ về học có giám sát của học không giám sát và nó phải hoạt động, giống như học có giám sát phải hoạt động.

Ngoài ra, mật mã thay thế cũng phù hợp với khuôn khổ này.

Sutskever cho biết ông đã phát hiện ra hiện tượng này một cách độc lập vào năm 2015. Nó khiến anh ấy suy nghĩ: có lẽ chúng ta có thể mô tả việc học không giám sát dưới dạng toán học có ý nghĩa nào đó.

Tất nhiên, kịch bản dịch máy được mô tả ở trên là một kịch bản nhân tạo được đơn giản hóa, không phù hợp với tình huống ứng dụng thực tế và kịch bản học không giám sát tương ứng đương nhiên giống nhau.

Tiếp theo, Sutskever sẽ mô tả phương pháp được đề xuất của ông - phương pháp này có thể đưa ra lời giải thích toán học cho việc học không giám sát và đảm bảo rằng kết quả của việc học không giám sát là tốt.

Như chúng ta đã biết, nén là một dự đoán và mọi máy nén đều có thể được chuyển đổi thành một bộ dự đoán và ngược lại. Có một sự tương ứng một-một giữa bộ nén tập hợp và bộ dự đoán tập hợp.

Sutskever đã chỉ ra rằng để minh họa rõ ràng hơn suy nghĩ về học tập không giám sát, sẽ thuận lợi hơn khi sử dụng khía cạnh nén của cuộc thảo luận.

Dựa trên điều này, ông đã đưa ra một thí nghiệm tưởng tượng.

Giả sử bạn có hai bộ dữ liệu X và Y, là hai tệp trên ổ cứng của bạn; thì bạn có một thuật toán nén tuyệt vời C. Ngoài ra, giả sử bạn thực hiện nén chung trên X và Y, tức là nối chúng trước, sau đó đưa nó vào máy nén.

Câu hỏi quan trọng bây giờ là: một máy nén đủ tốt sẽ làm được những gì?

Sutskever đã đưa ra một câu trả lời rất trực quan: máy nén sử dụng các mẫu có trong X để giúp nén Y; và ngược lại.

Anh ấy nói rằng bối cảnh nhiệm vụ dự đoán thực sự có một hiện tượng tương tự, nhưng nó có vẻ trực quan hơn khi nói trong bối cảnh nén.

Nếu máy nén của bạn đủ tốt, kết quả nén của các tệp được nối sẽ không tệ hơn kết quả nén riêng biệt.

Vì vậy, việc nén thêm mà bạn nhận được bằng cách ghép nối là một số loại cấu trúc được chia sẻ mà máy nén của bạn thông báo. Máy nén càng tốt, nó càng có thể trích xuất nhiều cấu trúc phổ biến hơn.

Sự khác biệt giữa hai kết quả nén là cấu trúc được chia sẻ, thông tin lẫn nhau theo thuật toán.

Tương ứng, bạn có thể coi Y là dữ liệu cho tác vụ được giám sát, X là dữ liệu cho tác vụ không được giám sát và bạn có một số dạng suy luận toán học về thông tin này - bạn có thể sử dụng các mẫu trong X để trợ giúp cho tác vụ Y.

Cũng lưu ý cách nó khái quát hóa đối sánh phân phối. Nếu trong trường hợp so khớp phân phối, giả sử X là ngôn ngữ 1 và Y là ngôn ngữ 2, và tồn tại một hàm F đơn giản nào đó chuyển đổi từ phân phối này sang phân phối khác; thì một máy nén tốt cũng sẽ nhận thấy điều này và sử dụng nó, nó thậm chí có thể khôi phục chức năng bên trong.

Theo cách này, một vòng khép kín được hình thành. Vậy làm thế nào để chúng ta mô tả việc học không giám sát dưới dạng toán học?

Chính thức hóa toán học của học tập không giám sát

Lưu ý rằng mô tả trong phần này sử dụng mô tả kịch bản nén và kịch bản dự đoán thay thế cho nhau.

Đầu tiên, giả sử chúng ta có thuật toán học máy A có vai trò nén Y. Thuật toán A có quyền truy cập vào X. Gọi X là tài liệu số 1 và Y là tài liệu số 2. Chúng tôi muốn thuật toán/bộ nén máy học của mình nén Y và nó có thể sử dụng X khi thích hợp. Mục tiêu là nén Y càng nhiều càng tốt.

Sau đó, chúng ta phải tự hỏi: Điều hối tiếc (hối tiếc) lớn nhất khi sử dụng thuật toán này là gì?

Sutskever giải thích: "Nếu tôi đang làm tốt công việc và mức độ hối tiếc của tôi thấp, điều đó có nghĩa là tôi đã nhận được mọi sự trợ giúp có thể từ dữ liệu chưa được gắn nhãn này. Dữ liệu chưa được gắn nhãn đã giúp ích nhiều nhất có thể". không hối tiếc về điều đó." Điều đó có nghĩa là không có dự đoán nào tốt hơn cho thuật toán nén tốt hơn. "Tôi đã tận dụng tối đa dữ liệu chưa được gắn nhãn của mình."

Sutskever coi đây là một bước quan trọng hướng tới suy nghĩ về học tập không giám sát. Bạn không biết liệu tập dữ liệu không giám sát của mình có thực sự hữu ích hay không, nhưng nếu bạn ít hối tiếc về thuật toán học có giám sát, thì bạn đã có kết quả tốt nhất, không thể có kết quả nào tốt hơn.

Bây giờ vào lãnh thổ lý thuyết hơi mơ hồ.

Sử dụng độ phức tạp của Kolmogorov làm công cụ nén cuối cùng mang lại cho chúng ta một thuật toán có độ tiếc cực thấp, nhưng nó không thực sự là một thuật toán vì nó không thể tính toán được.

Hãy giải thích ngắn gọn về độ phức tạp của Kolmogorov: Giống như việc bạn đưa cho tôi một số dữ liệu và để nén nó, tôi sẽ cung cấp cho bạn chương trình ngắn nhất có thể. Độ phức tạp Kolmogorov bằng độ dài của chương trình ngắn nhất này.

Giả sử C là một bộ nén có thể tính toán được, thì với mọi X độ phức tạp của bộ nén Kolmogorov nhỏ hơn đầu ra tùy ý của bộ nén C cộng với số ký tự mã cần thiết để thực hiện bộ nén.

Chúng ta có thể chứng minh điều này bằng cách sử dụng đối số mô phỏng. Giả sử có một máy nén C rất tốt, thì đó có thể là một chương trình máy tính, nếu giao chương trình máy tính này cho K chạy thì chi phí mà K cần là độ dài của chương trình này. Máy nén Kolmogorov có thể mô phỏng các chương trình máy tính khác và các máy nén khác, do đó nó không thể tính toán được. Nó giống như một chương trình miễn phí mô phỏng tất cả các chương trình máy tính, nhưng nó cũng là máy nén tốt nhất có thể.

Bây giờ chúng tôi tổng quát hóa máy nén Kolmogorov để sử dụng thông tin bổ sung. Chúng tôi biết rằng máy nén Kolmogorov không thể tính toán được, không thể quyết định được mà giống như tìm kiếm tất cả các chương trình. Điều này giống như việc sử dụng mạng thần kinh để điều chỉnh các tham số thông qua SGD (Stochastic Gradient Descent) để tìm kiếm một chương trình. Quá trình này chạy trên một máy tính có tài nguyên nhất định (bộ nhớ, số bước), giống như một máy nén Kolmogorov rất nhỏ. Có những điểm tương đồng giữa hai người.

Mạng thần kinh có thể mô phỏng các applet, là những máy tính nhỏ có vòng lặp/mạch. Chúng ta có thể sử dụng SGD để đào tạo các máy tính này tìm "mạch" của nó từ dữ liệu.

Lập luận từ các mô phỏng cũng áp dụng ở đây. Nếu bạn muốn thiết kế một kiến trúc mạng thần kinh tốt hơn, bạn sẽ gặp khó khăn, bởi vì việc thêm hoặc sửa đổi các kết nối có thể được mô phỏng bởi các kiến trúc mạng thần kinh khác, nhưng thực tế rất khó thực hiện. Bởi vì đây là những trường hợp hiếm hoi có thể dẫn đến những cải tiến lớn. Cũng giống như quá trình chuyển đổi từ RNN sang Transformer. RNN có một nút cổ chai: trạng thái ẩn. Nhưng nếu chúng ta có thể tìm ra cách để RNN có trạng thái ẩn rất lớn, thì hiệu suất của nó có thể sẽ lại bắt kịp Transformer.

Vì vậy, chúng ta có thể sử dụng độ phức tạp Kolmogorov có điều kiện như một giải pháp cho việc học không giám sát như sau:

trong đó C là bộ nén có thể tính toán được và K(Y|X) là độ dài của chương trình ngắn nhất xuất ra Y nếu có thể sử dụng X.

Đây là một giải pháp cực kỳ ít hối tiếc cho việc học không giám sát không thể tính toán được, nhưng cung cấp một khuôn khổ hữu ích.

Nén trực tiếp mọi thứ!

Sutskever tiến thêm một bước và đề cập rằng cũng có thể "nén mọi thứ trực tiếp".

Độ phức tạp Kolmogorov có điều kiện K(Y|X) là không tự nhiên trong bối cảnh học máy vì nó nén Y dựa trên X, điều này hầu như không thể đạt được trên các tập dữ liệu lớn, ít nhất là cho đến thời điểm hiện tại. Chúng tôi có thể phù hợp với các tập dữ liệu lớn, nhưng rất khó để điều chỉnh chúng.

Và phần trên nói: nếu bạn muốn đưa ra dự đoán về thứ gì đó Y mà bạn giám sát, máy nén Kolmogorov thông thường nén dữ liệu nối X và Y sẽ hoạt động tốt như máy nén có điều kiện. Tất nhiên, có nhiều chi tiết phức tạp hơn trong các chi tiết thực tế, nhưng điều này thực sự có nghĩa là chúng ta có thể sử dụng máy nén Kolmogorov thông thường để giải quyết việc học không giám sát -- chỉ cần nối tất cả dữ liệu của bạn và thực hiện nén, để bạn có thể đạt được kết quả tốt thu được khi thực hiện nhiệm vụ giám sát.

Việc chứng minh điều này phức tạp hơn nên tôi sẽ không đi sâu vào ở đây.

Kết luận quan trọng là nén Kolmogorov thông thường (không có điều kiện đối với một tập dữ liệu nhất định) là "cách sử dụng tốt nhất có thể" của dữ liệu chưa được gắn nhãn. Đây là giải pháp cho việc học không giám sát.

khả năng nén khớp là tối đa

Điểm cuối cùng mà Sutskever đưa ra trong bài nói chuyện của mình là: khả năng nén khớp này là tối đa, miễn là không có tình trạng quá khớp.

Nếu bạn có một tập dữ liệu, thì tổng các khả năng xảy ra đối với các tham số đã cho là chi phí nén tập dữ liệu đó. Bạn cũng phải trả chi phí nén các thông số. Và nếu bạn muốn nén hai tập dữ liệu, không vấn đề gì, chỉ cần thêm các điểm dữ liệu vào tập dữ liệu của bạn, tức là thêm nhiều mục hơn vào phép tính tổng ở trên.

Vì vậy, nén chung bằng cách nối dữ liệu là một cách tiếp cận rất tự nhiên trong bối cảnh học máy. Ngược lại, việc vượt qua độ phức tạp Kolmogorov có điều kiện rắc rối hơn nhiều.

Chúng ta thậm chí có thể sử dụng nó để giải thích cách thức hoạt động của mạng lưới thần kinh. Chúng tôi có thể sử dụng SGD cho các mạng thần kinh lớn làm công cụ tìm kiếm chương trình lớn của mình. Mạng thần kinh càng lớn thì nó càng có thể xấp xỉ máy nén Kolmogorov thông thường. Sutskever nhận xét: "Có lẽ đây là lý do tại sao chúng tôi thích các mạng nơ-ron lớn, bởi vì chúng tôi có thể ước lượng ý tưởng về một máy nén Kolmogorov thông thường không thể thực hiện được mà không có sự hối tiếc. Khi chúng tôi đào tạo các mạng nơ-ron lớn hơn và lớn hơn, sự hối tiếc sẽ tăng lên. Thấp."

Lý thuyết này có áp dụng cho các mô hình GPT không?

Câu trả lời của Sutskever cho vấn đề này là có, nhưng để giải thích hành vi của mô hình GPT, mà không trích dẫn tuyên bố về nén hoặc học có giám sát, bạn có thể nói rằng "lý thuyết" của GPT có thể thu được bằng lý luận về phân phối có điều kiện của văn bản.

Vì vậy, chúng ta có thể tìm các phương pháp xác minh trực tiếp khác để kiểm tra lý thuyết này không? Chúng ta có thể giải thích nó theo các lĩnh vực khác như tầm nhìn không? Chúng ta có thể học không giám sát tốt nếu làm điều này trên dữ liệu pixel không?

Sutskever cho biết họ đã thực hiện một nghiên cứu như vậy vào năm 2020, iGPT. Tất nhiên, đây chủ yếu là nghiên cứu chứng minh khái niệm và vẫn còn một chặng đường dài để đi từ ứng dụng thực tế.

Bài báo cho thấy rằng nếu bạn có thể tạo ra một công cụ dự đoán bước tiếp theo tuyệt vời, thì bạn có thể học tập không giám sát tuyệt vời. Bài viết này chứng minh khẳng định trong lĩnh vực hình ảnh.

Nói một cách đơn giản, trước tiên hãy chuyển đổi hình ảnh thành một chuỗi các pixel, mỗi pixel có một giá trị mật độ riêng biệt. Tất cả những gì cần làm là sử dụng cùng một Transformer để dự đoán pixel tiếp theo. Điều này khác với BERT, dự đoán mã thông báo tiếp theo, bởi vì đây là khả năng nén tối đa.

Hãy xem kết quả:

Như được hiển thị, đây là độ chính xác của đầu dò tuyến tính trên CIFAR-10 đối với các kích thước khác nhau của mô hình iGPT, tức là độ chính xác dự đoán bước tiếp theo đối với nhiệm vụ dự đoán pixel của quá trình học không giám sát. Có thể thấy rằng dự đoán pixel tiếp theo cũng hiệu quả như dự đoán từ tiếp theo. Học không giám sát hoạt động tốt hơn khi kích thước mô hình lớn hơn.

Họ đã tiến hành các nghiên cứu thử nghiệm và nhận thấy rằng trên ImageNet, hiệu suất của iGPT, vốn đã được mở rộng theo nhiều cách, có thể tiệm cận với công nghệ học tập có giám sát tiên tiến nhất, nhưng vẫn còn một số lỗ hổng.

Tuy nhiên, Sutskever tin rằng đây là một vấn đề tính toán, bởi vì các phương pháp học có giám sát như SimCLR sử dụng các hình ảnh lớn có độ phân giải cao và chúng cung cấp các hình ảnh nhỏ 64x64 cho Transformer khổng lồ (6,8 tỷ tham số). Nó giống như dự đoán pixel tiếp theo theo cách không giám sát dựa trên tập dữ liệu lớn, sau đó khớp các đầu dò tuyến tính trên ImageNet, với kết quả tuyệt vời.

Trên CIFAR-10, iGPT-L với 1,36 tỷ tham số đạt độ chính xác 99%, như thể hiện trong hình bên dưới.

Biểu diễn tuyến tính

Kết thúc buổi nói chuyện, Sutskever cho biết ông muốn nói về các biểu diễn tuyến tính.

Ông nói: “Tôi thích lý thuyết nén vì trước đây không có cách nào để nghĩ về việc học không giám sát một cách chặt chẽ. Nhưng lý thuyết nén không thể giải thích trực tiếp tại sao các biểu diễn có thể phân tách tuyến tính, cũng như không thể giải thích rằng nên có các đầu dò tuyến tính. Các biểu diễn tuyến tính có mặt khắp nơi và lý do hình thành chúng phải rất sâu sắc. Sutskever tin rằng chúng ta sẽ có thể diễn đạt nó trong tương lai.

Một điều thú vị khác mà anh ấy thấy thú vị là mô hình tự hồi quy tốt hơn BERT về mặt biểu diễn tuyến tính. Nhưng vẫn chưa rõ tại sao.

Tuy nhiên, Sutskever đã đưa ra suy đoán của riêng mình: khi dự đoán pixel tiếp theo dựa trên tất cả các pixel trước đó, mô hình cần quan sát cấu trúc tầm xa của dữ liệu. BERT loại bỏ một số mã thông báo pixel khi xử lý vectơ và bằng cách xem xét cả một chút quá khứ và một chút tương lai, mô hình thực sự có thể nhận được những dự đoán khá tốt. Bằng cách này, tất cả các nhiệm vụ khó khăn đều bị loại bỏ và độ khó của các nhiệm vụ giảm đi rất nhiều. Nhiệm vụ dự đoán khó nhất trong dự đoán pixel tiếp theo khó hơn nhiều so với nhiệm vụ dự đoán khó nhất trong trường hợp dự đoán BERT.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích