Chính xác thì mô hình ngôn ngữ lớn hoạt động như thế nào trong nội bộ? Bài viết này giải thích với toán học và thuật ngữ tối thiểu.
Tác giả của bài viết này, Tim Lee, từng làm việc trong hãng truyền thông công nghệ Ars Technica, gần đây anh ấy đã ra mắt Bản tin "Hiểu về AI", chủ yếu thảo luận về nguyên lý hoạt động của trí tuệ nhân tạo. Sean Trott là trợ lý giáo sư tại Đại học California, San Diego, nơi ông nghiên cứu về các mô hình ngôn ngữ và hiểu ngôn ngữ của con người. (Nội dung dưới đây do OneFlow biên soạn và xuất bản sau khi được cấp phép, vui lòng liên hệ với OneFlow để được cấp phép in lại. Nguyên văn:
Khi ChatGPT ra mắt vào mùa thu năm ngoái, nó đã gây chấn động trong ngành công nghệ và trên toàn thế giới. Vào thời điểm đó, các nhà nghiên cứu máy học đã cố gắng phát triển các mô hình ngôn ngữ lớn (LLM) trong nhiều năm, nhưng công chúng không chú ý nhiều hoặc không nhận ra chúng đã trở nên mạnh mẽ như thế nào.
Ngày nay, hầu hết mọi người đều đã nghe nói về LLM và hàng chục triệu người đã sử dụng chúng, nhưng không nhiều người hiểu cách chúng hoạt động. Bạn có thể đã nghe nói rằng các LLM được đào tạo để "dự đoán từ tiếp theo" và họ yêu cầu rất nhiều văn bản để làm điều này. Tuy nhiên, giải thích thường dừng lại ở đó. Các chi tiết về cách họ dự đoán từ tiếp theo thường được coi là một câu đố bí truyền.
Một lý do cho điều này là các hệ thống này được phát triển theo một cách khác. Phần mềm điển hình được viết bởi các kỹ sư con người, những người cung cấp cho máy tính các hướng dẫn từng bước rõ ràng. Ngược lại, ChatGPT được xây dựng trên mạng thần kinh được đào tạo bằng hàng tỷ từ ngôn ngữ.
Do đó, không ai trên trái đất hiểu đầy đủ các hoạt động bên trong của LLM. Các nhà nghiên cứu đang nỗ lực tìm hiểu những mô hình này, nhưng đó là một quá trình chậm mất nhiều năm, nếu không muốn nói là hàng thập kỷ, để hoàn thành.
Tuy nhiên, các chuyên gia biết khá nhiều về cách thức hoạt động của các hệ thống này. Mục tiêu của bài viết này là mở ra kiến thức này cho nhiều đối tượng. Chúng tôi sẽ cố gắng giải thích những gì đã biết về hoạt động bên trong của các mô hình này mà không đi sâu vào thuật ngữ kỹ thuật hoặc toán học cao cấp.
Chúng ta sẽ bắt đầu bằng cách giải thích các vectơ từ, đây là một cách đáng ngạc nhiên để các mô hình ngôn ngữ biểu diễn và suy luận về ngôn ngữ. Sau đó, chúng ta sẽ đi sâu vào Transformers, nền tảng của việc xây dựng các mô hình như ChatGPT. Cuối cùng, chúng tôi giải thích cách các mô hình này được đào tạo và khám phá lý do tại sao có thể đạt được hiệu suất tốt với lượng dữ liệu khổng lồ.
véc tơ từ
Để hiểu cách các mô hình ngôn ngữ hoạt động, trước tiên bạn cần hiểu cách chúng biểu thị các từ. Con người sử dụng các chuỗi chữ cái để biểu thị các từ tiếng Anh, chẳng hạn như CAT cho mèo. Các mô hình ngôn ngữ sử dụng một danh sách dài các số được gọi là vectơ từ. Ví dụ: đây là một cách để biểu diễn một con mèo dưới dạng vectơ:
Tại sao sử dụng một ký hiệu phức tạp như vậy? Đây là một sự tương tự, Washington DC nằm ở 38,9 độ vĩ độ bắc và 77 độ kinh độ tây, mà chúng ta có thể biểu diễn bằng ký hiệu vectơ:
• Tọa độ của Washington DC là [38.9, 77]
• Tọa độ của New York là [40.7, 74]
• Tọa độ của Luân Đôn là [51,5, 0,1]
• Tọa độ của Paris là [48,9, -2,4]
Điều này rất hữu ích cho lý luận về các mối quan hệ không gian. Bạn có thể thấy rằng New York rất gần với Washington DC vì 38,9 gần với 40,7 hơn và 77 gần với 74 hơn trong tọa độ. Tương tự như vậy, Paris rất gần London. Nhưng Paris là một chặng đường dài từ Washington, DC.
Các mô hình ngôn ngữ có cách tiếp cận tương tự: mỗi vectơ từ đại diện cho một điểm trong "không gian từ" nơi các từ có nghĩa tương tự nằm gần nhau hơn. Ví dụ, những từ gần nhất với mèo trong không gian vectơ bao gồm chó, mèo con và thú cưng. Một lợi thế chính của việc biểu diễn các từ dưới dạng vectơ của số thực (trái ngược với chuỗi các chữ cái như "CAT") là các số có thể thực hiện các phép toán mà các chữ cái không thể thực hiện được.
Các từ quá phức tạp để được biểu diễn chỉ trong hai chiều, vì vậy các mô hình ngôn ngữ sử dụng không gian vectơ có hàng trăm hoặc thậm chí hàng nghìn chiều. Con người không thể tưởng tượng ra những không gian có kích thước lớn như vậy, nhưng máy tính có thể suy luận về chúng và tạo ra kết quả hữu ích.
Các nhà nghiên cứu đã nghiên cứu vectơ từ trong nhiều thập kỷ, nhưng khái niệm này thực sự thu hút được sự chú ý vào năm 2013, khi Google công bố dự án word2vec. Google đã phân tích hàng triệu tài liệu được thu thập từ Google News để tìm ra những từ nào có xu hướng xuất hiện trong các câu giống nhau. Theo thời gian, một mạng lưới thần kinh được đào tạo sẽ học cách đặt các từ thuộc các danh mục tương tự (chẳng hạn như chó và mèo) liền kề nhau trong không gian vectơ.
Các vectơ từ của Google cũng có một tính năng thú vị khác: bạn có thể sử dụng các phép toán vectơ để "suy ra" các từ. Ví dụ: các nhà nghiên cứu của Google lấy vectơ lớn nhất (lớn nhất), trừ vectơ lớn (lớn) và thêm vectơ nhỏ (nhỏ). Từ gần vectơ kết quả nhất là vectơ nhỏ nhất (nhỏ nhất).
Bạn có thể sử dụng phép toán véc tơ để so sánh! Trong ví dụ này, mối quan hệ giữa lớn và lớn nhất tương tự như mối quan hệ giữa nhỏ và nhỏ nhất. Các vectơ từ của Google nắm bắt nhiều mối quan hệ khác:
• Thụy Sĩ đối với Thụy Sĩ giống như Campuchia đối với Campuchia. (Quốc tịch)
• Paris và Pháp tương tự như Berlin và Đức. (thủ đô)
• Vô đạo đức và đạo đức tương tự như có thể và không thể. (từ trái nghĩa)
• Mouse (rats) và mice (số nhiều của mice) tương tự với đô la (đô la) và đô la (số nhiều của đô la). (dạng số nhiều)
• Đàn ông và phụ nữ giống như vua và hoàng hậu. (vai trò giới tính)
Bởi vì những vectơ này được xây dựng từ cách mọi người sử dụng ngôn ngữ, nên chúng phản ánh nhiều thành kiến tồn tại trong ngôn ngữ của con người. Ví dụ: (bác sĩ) trừ (nam) cộng (nữ) bằng (y tá) trong một số mô hình nhúng từ. Giảm sự thiên vị này là một lĩnh vực nghiên cứu mới.
Tuy nhiên, nhúng từ là một nền tảng hữu ích cho các mô hình ngôn ngữ, vì chúng mã hóa thông tin quan hệ tinh tế nhưng quan trọng giữa các từ. Nếu một mô hình ngôn ngữ học được điều gì đó về mèo (ví dụ: đôi khi nó đến bác sĩ thú y), thì điều tương tự cũng có thể áp dụng cho mèo con hoặc chó. Nếu mô hình đã học về mối quan hệ giữa Paris và Pháp (ví dụ: họ có chung ngôn ngữ), thì có khả năng mối quan hệ giữa Berlin và Đức và Rome và Ý sẽ giống nhau.
Nghĩa của từ phụ thuộc vào ngữ cảnh
Các sơ đồ nhúng từ đơn giản như thế này không nắm bắt được một thực tế quan trọng của ngôn ngữ tự nhiên: các từ thường có nhiều nghĩa.
Ví dụ: từ "ngân hàng" có thể chỉ một tổ chức tài chính hoặc một bờ sông. Hoặc xét các câu sau:
• John nhặt tạp chí (John nhặt tạp chí).
• Susan làm việc cho một tạp chí (Susan làm việc cho một tạp chí).
Trong những câu này, ý nghĩa của "tạp chí" có liên quan nhưng khác nhau. John chọn một tạp chí vật lý và Susan làm việc cho một công ty xuất bản tạp chí vật lý.
Khi một từ có hai nghĩa không liên quan, các nhà ngôn ngữ học gọi chúng là từ đồng âm. Khi một từ có hai nghĩa liên quan chặt chẽ với nhau, chẳng hạn như "tạp chí", các nhà ngôn ngữ học gọi đó là từ đa nghĩa.
Các mô hình ngôn ngữ như ChatGPT có thể biểu thị cùng một từ bằng các vectơ khác nhau tùy thuộc vào ngữ cảnh mà từ đó xuất hiện. Có một vectơ cho "ngân hàng (tổ chức tài chính)" và một vectơ cho "ngân hàng (bờ sông)". Có một vectơ cho "tạp chí (tổ chức xuất bản)" và một vectơ cho "tạp chí (tổ chức xuất bản)". Như bạn có thể mong đợi, mô hình ngôn ngữ sử dụng các vectơ giống nhau hơn về nghĩa của các từ đa nghĩa và ít giống nhau hơn về nghĩa của các từ đồng âm.
Cho đến nay, chúng tôi vẫn chưa giải thích cách các mô hình ngôn ngữ thực hiện điều này - sẽ sớm giải quyết vấn đề đó. Tuy nhiên, chúng tôi đang trình bày chi tiết các biểu diễn véc-tơ này, điều quan trọng để hiểu cách thức hoạt động của các mô hình ngôn ngữ.
Phần mềm truyền thống được thiết kế để hoạt động với dữ liệu rõ ràng. Nếu bạn yêu cầu máy tính tính "2+3", thì không có sự mơ hồ nào về ý nghĩa của 2, + hoặc 3. Nhưng sự mơ hồ trong ngôn ngữ tự nhiên vượt xa từ đồng âm và từ đa nghĩa:
• Trong câu "khách hàng yêu cầu thợ máy sửa xe cho mình", "his" có phải là khách hàng hay thợ máy không?
• Trong câu “the GIÁO SƯ giục sinh viên làm bài tập về nhà của cô ấy” thì “cô ấy” ám chỉ giáo sư hay sinh viên?
• Trong bài "Ruồi giấm thích chuối", "ruồi" là động từ (chỉ loại quả bay qua bầu trời như chuối) hay danh từ (chỉ ruồi giấm thích chuối)?
Mọi người giải quyết loại mơ hồ này tùy thuộc vào ngữ cảnh, nhưng không có quy tắc đơn giản hoặc rõ ràng. Thay vào đó, nó đòi hỏi sự hiểu biết về những gì đang thực sự diễn ra trên thế giới. Bạn cần biết rằng thợ máy thường sửa xe cho khách, sinh viên thường tự làm bài tập và trái cây thường không cánh mà bay.
Các vectơ từ cung cấp một cách linh hoạt để các mô hình ngôn ngữ biểu thị nghĩa chính xác của từng từ trong ngữ cảnh của một đoạn cụ thể. Bây giờ hãy xem cách họ làm điều này.
Chuyển đổi vectơ từ thành dự đoán từ
Mô hình GPT-3 đằng sau phiên bản gốc của ChatGPT bao gồm hàng chục lớp mạng thần kinh. Mỗi lớp lấy đầu vào là một chuỗi vectơ—một cho mỗi từ trong văn bản đầu vào—và thêm thông tin để giúp làm rõ nghĩa của từ đó và dự đoán tốt hơn các từ có thể xuất hiện tiếp theo.
Hãy bắt đầu với một ví dụ đơn giản.
Mỗi lớp của LLM là một Máy biến áp. Vào năm 2017, Google lần đầu tiên giới thiệu cấu trúc mạng thần kinh này trong một bài báo quan trọng.
Ở dưới cùng của biểu đồ, văn bản đầu vào của mô hình là "John muốn ngân hàng của anh ấy rút tiền mặt" và những từ này được biểu diễn dưới dạng vectơ kiểu word2vec và được chuyển đến Transformer đầu tiên. Transformer này xác định rằng cả wish và cash đều là động từ (hai từ này cũng có thể là danh từ). Chúng tôi biểu thị ngữ cảnh bổ sung này bằng văn bản màu đỏ trong ngoặc đơn, nhưng mô hình thực sự lưu trữ thông tin này bằng cách sửa đổi các vectơ từ theo cách mà con người khó diễn giải. Những vectơ mới này được gọi là trạng thái ẩn và được chuyển đến Transformer tiếp theo.
Transformer thứ hai bổ sung thêm hai thông tin theo ngữ cảnh: nó làm rõ rằng ngân hàng đề cập đến một tổ chức tài chính (tổ chức tài chính) chứ không phải là một bờ sông, và rằng ông đề cập đến đại từ John. Máy biến áp thứ hai tạo ra một tập hợp các vectơ trạng thái ẩn khác phản ánh tất cả thông tin mà mô hình đã học được trước đó.
Biểu đồ trên mô tả một LLM hoàn toàn mang tính giả thuyết, vì vậy đừng quá chú trọng vào các chi tiết. LLM thực có xu hướng có nhiều lớp hơn. Ví dụ: phiên bản mạnh nhất của GPT-3 có 96 lớp.
Nghiên cứu cho thấy rằng (một vài lớp đầu tiên tập trung vào việc hiểu ngữ pháp của câu và giải quyết những điểm mơ hồ được hiển thị ở trên. Các lớp sau (không được hiển thị ở trên để giữ cho kích thước sơ đồ có thể quản lý được) được dành riêng để hiểu toàn bộ đoạn văn ở mức độ cao.
Ví dụ: khi LLM "đọc" một truyện ngắn, nó dường như ghi nhớ tất cả các loại thông tin về các nhân vật trong truyện: giới tính và tuổi tác, mối quan hệ với các nhân vật khác, vị trí trong quá khứ và hiện tại, tính cách và mục tiêu, v.v.
Các nhà nghiên cứu không hiểu đầy đủ cách LLM theo dõi thông tin này, nhưng về mặt logic, thông tin phải được truyền giữa các lớp bằng cách sửa đổi các vectơ trạng thái ẩn. Kích thước vectơ trong LLM hiện đại là cực kỳ lớn, có lợi cho việc thể hiện thông tin ngữ nghĩa phong phú hơn.
Ví dụ: phiên bản mạnh nhất của GPT-3 sử dụng vectơ từ có kích thước 12288, nghĩa là mỗi từ được biểu thị bằng một danh sách gồm 12288 số. Con số này lớn gấp 20 lần so với sơ đồ word2vec do Google đề xuất vào năm 2013. Bạn có thể coi tất cả các kích thước bổ sung này như một loại "không gian đầu" mà GPT-3 có thể sử dụng để ghi lại ngữ cảnh của từng từ. Các ghi chú thông tin do các lớp trước tạo ra có thể được đọc và sửa đổi bởi các lớp sau, cho phép mô hình dần dần hiểu sâu hơn về toàn bộ văn bản.
Vì vậy, giả sử chúng ta thay đổi sơ đồ trên để mô tả mô hình ngôn ngữ 96 lớp để diễn giải một câu chuyện 1000 từ. Cấp 60 có thể bao gồm một vectơ cho John, với một vectơ được ký hiệu là "(Nhân vật chính, nam, đã kết hôn với Cheryl, anh họ của Donald, đến từ Minnesota, hiện đang ở Boise, đang cố gắng tìm chiếc ví bị mất của anh ấy)" trong ngoặc đơn. Một lần nữa, tất cả những dữ kiện này (và có thể nhiều hơn nữa) sẽ được mã hóa trong một danh sách gồm 12288 số tương ứng với từ John. Hoặc, một số thông tin trong câu chuyện đó có thể được mã hóa trong một vectơ 12288 chiều cho Cheryl, Donald, Boise, ví hoặc các từ khác.
Mục tiêu của việc này là để lớp thứ 96 và lớp cuối cùng của mạng xuất ra trạng thái ẩn chứa tất cả thông tin cần thiết để dự đoán từ tiếp theo.
Cơ chế chú ý
Bây giờ hãy nói về những gì xảy ra bên trong mỗi Transformer. Transformer có hai quá trình khi cập nhật trạng thái ẩn của từng từ trong đoạn đầu vào:
Trong bước chú ý, từ vựng "nhìn xung quanh" để tìm các từ khác có ngữ cảnh liên quan và chia sẻ thông tin với nhau.
Trong bước chuyển tiếp, mỗi từ "nghĩ" về thông tin thu thập được trong bước chú ý trước đó và cố gắng dự đoán từ tiếp theo.
Tất nhiên, chính mạng thực hiện các bước này chứ không phải từng từ riêng lẻ. Nhưng chúng tôi nói theo cách này để nhấn mạnh rằng Transformer sử dụng các từ làm đơn vị cơ bản của phân tích này, không phải toàn bộ câu hoặc đoạn văn. Cách tiếp cận này cho phép LLM tận dụng tối đa khả năng xử lý song song ồ ạt của các chip GPU hiện đại. Nó cũng giúp LLM mở rộng quy mô thành các đoạn văn dài chứa hàng nghìn từ. Hai khía cạnh này là những thách thức mà các mô hình ngôn ngữ ban đầu phải đối mặt.
Bạn có thể coi cơ chế chú ý như một dịch vụ khớp giữa các từ. Mỗi từ tạo một danh sách kiểm tra (được gọi là vectơ truy vấn) mô tả các đặc điểm của từ mà nó đang tìm kiếm. Mỗi từ cũng tạo ra một danh sách kiểm tra (được gọi là keyvector) mô tả các đặc điểm riêng của nó. Mạng thần kinh tìm từ phù hợp nhất bằng cách so sánh từng vectơ chính với từng vectơ truy vấn (bằng cách tính toán tích vô hướng). Sau khi tìm thấy kết quả phù hợp, nó sẽ chuyển thông tin liên quan từ từ tạo ra vectơ khóa sang từ tạo ra vectơ truy vấn.
Ví dụ, trong phần trước, chúng tôi đã trình bày một mô hình Transformer giả định cho thấy rằng "his" ám chỉ "John" trong một phần của câu "John muốn ngân hàng của anh ấy rút tiền mặt". Trong nội bộ, quy trình có thể diễn ra như sau: một vectơ truy vấn cho "anh ấy" có thể được biểu thị một cách hiệu quả là "Tôi đang tìm kiếm: danh từ mô tả đàn ông". Một vectơ chính cho "John" có thể được biểu thị một cách hiệu quả là "Tôi là một danh từ mô tả một người đàn ông". Mạng sẽ phát hiện ra rằng hai vectơ này khớp nhau và chuyển thông tin về vectơ "John" sang vectơ "anh ấy".
Mỗi lớp chú ý có một số "đầu chú ý", nghĩa là quá trình trao đổi thông tin này diễn ra nhiều lần (song song) trên mỗi lớp. Mỗi đầu chú ý tập trung vào một nhiệm vụ khác nhau:
• Một cái đầu chú ý có thể ghép đại từ với danh từ, như chúng ta đã thảo luận trước đó.
• Một tiêu đề chú ý khác có thể xử lý việc phân tích cú pháp nghĩa của các từ đa nghĩa như "ngân hàng".
• Đầu mối chú ý thứ ba có thể liên kết các cụm từ gồm hai từ như "Joe Biden".
Các đầu chú ý như vậy thường hoạt động tuần tự, với kết quả của hoạt động chú ý trong một lớp chú ý trở thành đầu vào cho một đầu chú ý trong lớp tiếp theo. Trên thực tế, mỗi nhiệm vụ mà chúng tôi vừa liệt kê có thể yêu cầu nhiều đầu óc chú ý chứ không chỉ một.
Phiên bản lớn nhất của GPT-3 có 96 lớp và mỗi lớp có 96 đầu chú ý, vì vậy mỗi khi dự đoán một từ mới, GPT-3 sẽ thực hiện 9216 thao tác chú ý.
Một ví dụ thực tế
Trong hai phần trên, chúng tôi đã trình bày các phiên bản lý tưởng hóa về cách thức hoạt động của các đầu chú ý. Bây giờ hãy xem nghiên cứu về hoạt động bên trong của các mô hình ngôn ngữ thực.
Năm ngoái, các nhà nghiên cứu tại Redwood Research đã nghiên cứu GPT-2, tiền thân của ChatGPT, cho đoạn văn "Khi Mary và John đi đến cửa hàng, John đã đưa đồ uống cho (khi Mary và John đến cửa hàng, John đã đưa đồ uống cho ) "Quá trình dự đoán từ tiếp theo.
GPT-2 dự đoán rằng từ tiếp theo là Mary. Các nhà nghiên cứu phát hiện ra rằng ba loại đầu óc chú ý đã góp phần vào dự đoán này:
• Ba đầu chú ý, được gọi là Name Mover Head, sao chép thông tin từ véc-tơ Mary sang véc-tơ đầu vào cuối cùng (véc-tơ cho từ đến). GPT-2 sử dụng thông tin trong vectơ ngoài cùng bên phải này để dự đoán từ tiếp theo.
• Làm thế nào để mạng lưới thần kinh quyết định rằng Mary là từ chính xác để sao chép? Đảo ngược quá trình tính toán của GPT-2, các nhà khoa học phát hiện ra một bộ 4 đầu chú ý mà họ gọi là đầu ức chế chủ thể (Subject Inhibition Head), đánh dấu véc tơ John thứ hai, ngăn không cho tên đầu di chuyển sao chép tên John.
• Làm thế nào để người đứng đầu đối tượng đàn áp biết rằng John không nên được sao chép? Nhóm đã ngoại suy xa hơn và phát hiện ra hai đầu chú ý mà họ gọi là Đầu mã thông báo trùng lặp. Họ đánh dấu véc-tơ John thứ hai là bản sao trùng lặp của véc-tơ John đầu tiên, điều này giúp đối tượng trấn áp đầu để quyết định rằng không nên sao chép John.
Nói tóm lại, chín chú ý này cho phép GPT-2 hiểu rằng "John đã đưa đồ uống cho John" không có ý nghĩa gì, và thay vào đó chọn "John đã đưa đồ uống cho Mary (John đưa đồ uống cho Mary)".
Ví dụ này cho thấy việc hiểu đầy đủ về LLM có thể khó khăn như thế nào. Một nhóm Redwood gồm năm nhà nghiên cứu đã xuất bản một bài báo dài 25 trang giải thích cách họ xác định và xác nhận những cái đầu chú ý này. Tuy nhiên, ngay cả với tất cả công việc này, chúng tôi vẫn còn một chặng đường dài để giải thích đầy đủ lý do tại sao GPT-2 quyết định dự đoán "Mary" là từ tiếp theo.
Ví dụ, làm thế nào để mô hình biết rằng từ tiếp theo phải là tên của ai đó chứ không phải một loại từ nào khác? Thật dễ dàng để tưởng tượng rằng trong những câu tương tự, Mary sẽ không phải là một người dự đoán tiếp theo tốt. Ví dụ, trong câu "khi Mary và John đến nhà hàng, John đã đưa chìa khóa của anh ấy cho (khi Mary và John đến nhà hàng, John đã đưa chìa khóa cho)", theo logic, từ tiếp theo phải là "người phục vụ ( đại diện cho nhân viên trông xe)".
Giả sử các nhà khoa học máy tính đã thực hiện đủ nghiên cứu, họ có thể tiết lộ và giải thích các bước khác trong quy trình lập luận của GPT-2. Cuối cùng, họ có thể hiểu đầy đủ cách GPT-2 quyết định rằng "Mary" là từ tiếp theo có nhiều khả năng nhất trong câu. Nhưng có thể mất nhiều tháng hoặc thậm chí nhiều năm nỗ lực để hiểu cách một từ được dự đoán.
Các mô hình ngôn ngữ đằng sau ChatGPT—GPT-3 và GPT-4—lớn hơn và phức tạp hơn GPT-2, đồng thời chúng có khả năng thực hiện các nhiệm vụ suy luận phức tạp hơn so với các câu đơn giản mà nhóm Redwood đã nghiên cứu. Do đó, công việc giải thích đầy đủ các hệ thống này sẽ là một dự án khổng lồ và không chắc con người sẽ hoàn thành nó trong một thời gian ngắn.
Bước chuyển tiếp
Sau khi đầu chú ý chuyển thông tin giữa các vectơ từ, mạng chuyển tiếp sẽ "nghĩ" về từng vectơ từ và cố gắng dự đoán từ tiếp theo. Ở giai đoạn này, không có thông tin nào được trao đổi giữa các từ và lớp chuyển tiếp nguồn cấp dữ liệu sẽ phân tích từng từ một cách độc lập. Tuy nhiên, các lớp chuyển tiếp nguồn cấp dữ liệu có quyền truy cập vào bất kỳ thông tin nào được sao chép trước đó bởi các đầu chú ý. Sau đây là cấu trúc lớp chuyển tiếp của phiên bản lớn nhất của GPT-3.
Các vòng tròn màu xanh lá cây và màu tím đại diện cho các nơ-ron: chúng là các hàm toán học tính toán tổng trọng số các đầu vào của chúng.
Lớp chuyển tiếp nguồn cấp dữ liệu mạnh mẽ vì số lượng kết nối lớn của nó. Chúng tôi vẽ mạng này bằng cách sử dụng ba nơ-ron làm lớp đầu ra và sáu nơ-ron làm lớp ẩn, nhưng lớp chuyển tiếp nguồn cấp dữ liệu của GPT-3 lớn hơn nhiều: 12288 nơ-ron trong lớp đầu ra (tương ứng với vectơ từ 12288 chiều của mô hình ) , lớp ẩn có 49152 nơ-ron.
Vì vậy, trong phiên bản lớn nhất của GPT-3, lớp ẩn có 49152 nơ-ron, mỗi nơ-ron có 12288 giá trị đầu vào (vì vậy mỗi nơ-ron có 12288 tham số trọng số) và cũng có 12288 nơ-ron đầu ra, mỗi nơ-ron có 49152 giá trị đầu vào (do đó có 49152 tham số trọng lượng trên mỗi nơ-ron). Điều này có nghĩa là mỗi lớp chuyển tiếp có 49152*12288+12288*49152=1,2 tỷ tham số trọng lượng. Và có 96 lớp chuyển tiếp, tổng cộng 1,2 tỷ*96=116 tỷ tham số! Con số này tương đương gần 2/3 khối lượng tham số của GPT-3 với 175 tỷ tham số.
Trong một bài báo năm 2020 (năm 2020), các nhà nghiên cứu từ Đại học Tel Aviv đã phát hiện ra rằng các lớp chuyển tiếp nguồn cấp dữ liệu hoạt động bằng cách khớp mẫu: mỗi nơ-ron trong lớp ẩn khớp với một mẫu cụ thể trong văn bản đầu vào. Dưới đây là phiên bản 16 lớp Một số nơ-ron trong GPT- 2 khớp với mẫu:
• Các tế bào thần kinh trong lớp 1 khớp với các chuỗi từ kết thúc bằng "người thay thế".
• Các tế bào thần kinh trong lớp 6 khớp với các chuỗi từ có liên quan đến quân sự và kết thúc bằng "căn cứ" hoặc "căn cứ".
• Các nơ-ron trong lớp 13 khớp với các chuỗi kết thúc bằng một khoảng thời gian, chẳng hạn như "từ 3 giờ chiều đến 7 giờ tối" hoặc "từ 7 giờ tối Thứ Sáu cho đến".
• Các nơ-ron trong lớp 16 đối sánh các chuỗi liên kết với chương trình truyền hình, chẳng hạn như "phiên bản ban ngày gốc của NBC, đã lưu trữ" hoặc "thời gian trễ đã tăng lượng người xem cho tập này lên 57 phần trăm".
Như bạn có thể thấy, trong các lớp sau lược đồ trở nên trừu tượng hơn. Các lớp đầu tiên có xu hướng khớp các từ cụ thể, trong khi các lớp sau khớp các cụm từ thuộc các danh mục ngữ nghĩa rộng hơn, chẳng hạn như chương trình truyền hình hoặc khoảng thời gian.
Điều này rất thú vị bởi vì, như đã đề cập trước đó, lớp chuyển tiếp nguồn cấp dữ liệu chỉ có thể kiểm tra một từ tại một thời điểm. Vì vậy, khi phân loại chuỗi "Bản phát hành ban ngày ban đầu của NBC, đã lưu trữ" là "liên quan đến TV", nó chỉ có quyền truy cập vào các vectơ cho từ "đã lưu trữ", chứ không phải các từ như NBC hoặc ban ngày. Có thể suy ra rằng lý do tại sao lớp chuyển tiếp nguồn cấp dữ liệu có thể đánh giá rằng "đã lưu trữ" là một phần của trình tự liên quan đến TV là do đầu chú ý trước đó đã chuyển thông tin theo ngữ cảnh vào vectơ "đã lưu trữ".
Khi một nơ-ron khớp với một trong các mẫu, nó sẽ thêm thông tin vào vectơ từ. Mặc dù thông tin này không phải lúc nào cũng dễ hiểu, nhưng trong nhiều trường hợp, bạn có thể coi nó như một dự đoán sơ bộ về từ tiếp theo.
Suy luận về mạng Feedforward Sử dụng Vector Operations
Nghiên cứu gần đây từ Đại học Brown (hiển thị một ví dụ hay về cách các lớp chuyển tiếp nguồn cấp dữ liệu có thể giúp dự đoán từ tiếp theo. Trước đây chúng ta đã thảo luận về nghiên cứu word2vec của Google cho thấy rằng lý luận tương tự có thể được thực hiện bằng cách sử dụng các phép toán vectơ. Ví dụ: Berlin - Đức + Pháp = Paris .
Các nhà nghiên cứu của Đại học Brown đã phát hiện ra rằng các lớp chuyển tiếp nguồn cấp dữ liệu đôi khi sử dụng phương pháp chính xác này để dự đoán từ tiếp theo. Ví dụ: họ đã nghiên cứu các câu trả lời của GPT-2 cho các lời nhắc sau: "Câu hỏi: Thủ đô của Pháp là gì? Câu trả lời: Paris. Câu hỏi: Thủ đô của Ba Lan là gì? Trả lời:"
Nhóm đã nghiên cứu một phiên bản GPT-2 với 24 lớp. Sau mỗi lớp, các nhà khoa học của Đại học Brown đã thăm dò mô hình, xem xét dự đoán tốt nhất của nó cho mã thông báo tiếp theo. Trong 15 lớp đầu tiên, khả năng đoán cao nhất là một từ có vẻ ngẫu nhiên. Giữa các lớp 16 và 19, mô hình bắt đầu dự đoán rằng từ tiếp theo là tiếng Ba Lan—không chính xác, nhưng tiến gần hơn. Sau đó, ở bậc 20, dự đoán có khả năng xảy ra cao nhất sẽ trở thành Warsaw—câu trả lời đúng và giữ nguyên cho bốn bậc cuối cùng.
Các nhà nghiên cứu tại Đại học Brown đã phát hiện ra rằng lớp chuyển tiếp thứ 20 chuyển đổi Ba Lan thành Warsaw bằng cách thêm một vectơ ánh xạ các vectơ quốc gia tới các thủ đô tương ứng của chúng. Khi thêm cùng một vectơ vào Trung Quốc, câu trả lời là Bắc Kinh.
Một lớp chuyển tiếp nguồn cấp dữ liệu trong cùng một mô hình sử dụng các phép toán véc tơ để chuyển đổi các từ viết thường thành các từ viết hoa và các từ ở thì hiện tại thành các từ tương đương ở thì quá khứ của chúng.
Lớp chú ý và lớp chuyển tiếp có các chức năng khác nhau
Cho đến nay, chúng ta đã thấy hai ví dụ thực tế về dự đoán từ GPT-2: phần chú ý giúp dự đoán rằng John sẽ cho Mary uống nước; lớp chuyển tiếp giúp dự đoán rằng Warsaw là thủ đô của Ba Lan.
Trong trường hợp đầu tiên, Mary xuất phát từ lời nhắc do người dùng cung cấp. Nhưng trong trường hợp thứ hai, Warsaw không xuất hiện trong lời nhắc. Thay vào đó, GPT-2 phải "nhớ" rằng Warsaw là thủ đô của Ba Lan và thông tin này được học từ dữ liệu huấn luyện.
Khi các nhà nghiên cứu của Đại học Brown vô hiệu hóa lớp chuyển tiếp chuyển đổi Ba Lan thành Warsaw, mô hình không còn dự đoán rằng từ tiếp theo là Warsaw. Nhưng thật thú vị, nếu sau đó họ thêm câu "Thủ đô của Ba Lan là Warsaw" vào đầu lời nhắc, GPT-2 đã có thể trả lời lại câu hỏi. Điều này có thể là do GPT-2 sử dụng cơ chế chú ý để trích xuất tên Warsaw khỏi gợi ý.
Sự phân công lao động này thể hiện rộng rãi hơn: cơ chế chú ý lấy thông tin từ các phần trước đó của tín hiệu, trong khi lớp chuyển tiếp cho phép mô hình ngôn ngữ "ghi nhớ" thông tin không xuất hiện trong tín hiệu.
Trên thực tế, lớp chuyển tiếp nguồn cấp dữ liệu có thể được coi là cơ sở dữ liệu thông tin mà mô hình đã học được từ dữ liệu huấn luyện. Các lớp chuyển tiếp nguồn cấp dữ liệu ban đầu có nhiều khả năng mã hóa các sự kiện đơn giản liên quan đến các từ cụ thể, chẳng hạn như "Trump thường đến sau Donald". Các lớp sau mã hóa các mối quan hệ phức tạp hơn như "thêm vectơ này để chuyển đổi một quốc gia thành thủ đô của nó.
Phương pháp đào tạo mô hình ngôn ngữ
Nhiều thuật toán học máy ban đầu yêu cầu các ví dụ đào tạo do con người dán nhãn. Ví dụ: dữ liệu đào tạo có thể là ảnh của chó hoặc mèo với nhãn giả (“chó” hoặc “mèo”). Nhu cầu về dữ liệu được dán nhãn khiến việc tạo bộ dữ liệu đủ lớn để huấn luyện các mô hình hiệu quả trở nên khó khăn và tốn kém.
Một cải tiến quan trọng của LLMs là chúng không yêu cầu dữ liệu được dán nhãn rõ ràng. Thay vào đó, họ học bằng cách cố gắng dự đoán từ tiếp theo trong một đoạn văn bản. Hầu hết mọi tài liệu bằng văn bản đều phù hợp để đào tạo các mô hình này -- từ các trang Wikipedia đến các bài báo cho đến mã máy tính.
Ví dụ: LLM có thể lấy đầu vào "Tôi thích cà phê của tôi với kem và (Tôi thích cà phê của tôi với kem và)" và cố gắng dự đoán "đường (đường)" là từ tiếp theo. Một mô hình ngôn ngữ mới được khởi tạo rất tệ trong việc này, bởi vì mỗi tham số trọng lượng của nó—phiên bản mạnh nhất của GPT-3 lên tới 175 tỷ tham số—ban đầu về cơ bản bắt đầu bằng một số ngẫu nhiên.
Nhưng khi mô hình thấy nhiều ví dụ hơn -- hàng trăm tỷ từ -- những trọng số đó dần dần điều chỉnh để đưa ra dự đoán tốt hơn.
Hãy sử dụng phép loại suy để minh họa quá trình này hoạt động như thế nào. Giả sử bạn đang tắm và bạn muốn nước ở nhiệt độ vừa phải: không quá nóng, không quá lạnh. Bạn chưa từng sử dụng vòi này bao giờ nên bạn tùy ý điều chỉnh hướng của tay cầm vòi và cảm nhận nhiệt độ của nước. Nếu trời quá nóng hoặc quá lạnh, bạn sẽ xoay tay cầm theo hướng ngược lại và bạn sẽ càng ít điều chỉnh tay cầm hơn khi càng gần đến nhiệt độ nước thích hợp.
Bây giờ, hãy thực hiện một vài thay đổi đối với phép loại suy này. Đầu tiên, hãy tưởng tượng rằng có 50.257 lần nhấn, mỗi lần nhấn tương ứng với một từ khác nhau, chẳng hạn như "the", "cat" hoặc "bank". Mục tiêu của bạn là chỉ để nước chảy ra từ vòi tương ứng với từ tiếp theo trong chuỗi.
Thứ hai, có một loạt các đường ống liên kết với nhau phía sau vòi và một loạt các van trên các đường ống đó. Vì vậy, nếu nước chảy ra từ vòi sai, bạn không thể điều chỉnh núm trên vòi. Bạn gửi một đội quân sóc thông minh để theo dõi mọi đường ống, điều chỉnh mọi van mà chúng tìm thấy trên đường đi.
Điều này trở nên phức tạp và vì cùng một đường ống thường cung cấp nhiều vòi, nên cần phải suy nghĩ cẩn thận về cách xác định van nào cần thắt chặt và nới lỏng cũng như mức độ bao nhiêu.
Rõ ràng, ví dụ này trở nên lố bịch khi hiểu theo nghĩa đen. Xây dựng một mạng lưới đường ống với 175 tỷ van là không thực tế và cũng không hữu ích. Nhưng nhờ Định luật Moore, máy tính có thể và thực sự hoạt động ở quy mô này.
Cho đến nay, tất cả các phần của LLM được thảo luận trong bài viết này—các nơ-ron trong lớp chuyển tiếp và các đầu chú ý truyền thông tin ngữ cảnh giữa các từ—được triển khai dưới dạng một loạt các hàm toán học đơn giản (chủ yếu là phép nhân ma trận), hành vi của chúng là được xác định bởi một tham số trọng lượng có thể điều chỉnh. Giống như con sóc trong câu chuyện của tôi điều khiển dòng nước bằng cách nới lỏng van, thuật toán đào tạo điều khiển luồng thông tin qua mạng nơ-ron bằng cách tăng hoặc giảm các tham số trọng số của mô hình ngôn ngữ.
Quá trình đào tạo được chia thành hai bước. Trước tiên, thực hiện "chuyển tiếp", bật nước và kiểm tra xem nước có đến từ đúng vòi không. Sau đó, nước bị tắt để "đi ngược lại", trong đó những con sóc chạy xuống từng đường ống, siết chặt hoặc nới lỏng các van. Trong các mạng nơ-ron kỹ thuật số, vai trò của con sóc được thực hiện bởi một thuật toán có tên là lan truyền ngược, thuật toán này sẽ "đi ngược" qua mạng, sử dụng phép tính để ước tính mức độ cần thay đổi của từng tham số trọng lượng.
Thực hiện điều này—truyền tới một ví dụ, sau đó truyền ngược lại để cải thiện hiệu suất của mạng trên ví dụ đó—đòi hỏi hàng chục tỷ phép toán. Và việc đào tạo một mô hình lớn như GPT-3 cần lặp lại quá trình này hàng tỷ lần-cho mỗi từ của mỗi dữ liệu đào tạo. OpenAI ước tính rằng việc đào tạo GPT-3 yêu cầu hơn 300 tỷ teraflop phép tính – điều mà sẽ cần hàng chục chip máy tính cao cấp để chạy trong nhiều tháng.
Hiệu suất tuyệt vời của GPT-3
Bạn có thể ngạc nhiên về hiệu quả của quá trình đào tạo. ChatGPT có thể thực hiện nhiều tác vụ phức tạp — viết bài, tạo phép loại suy và thậm chí viết mã máy tính. Vì vậy, làm thế nào để một cơ chế học tập đơn giản như vậy tạo ra một mô hình mạnh mẽ như vậy?
Một lý do là quy mô. Thật khó để nhấn mạnh quá nhiều ví dụ mà một mô hình như GPT-3 nhìn thấy. GPT-3 được đào tạo trên kho dữ liệu khoảng 500 tỷ từ. Để so sánh, một đứa trẻ trung bình gặp khoảng 100 triệu từ trước 10 tuổi.
Trong 5 năm qua, OpenAI đã liên tục tăng kích thước của các mô hình ngôn ngữ của mình. Trong một bài báo năm 2020 được lưu hành rộng rãi (báo cáo rằng độ chính xác của các mô hình ngôn ngữ của chúng có mối quan hệ quy luật lũy thừa với kích thước của mô hình, kích thước của tập dữ liệu và lượng tính toán được sử dụng để đào tạo, một số xu hướng thậm chí còn kéo dài hơn bảy trật tự độ lớn”.
Kích thước mô hình càng lớn thì nó càng thực hiện tốt các tác vụ liên quan đến ngôn ngữ. Nhưng chỉ khi họ tăng lượng dữ liệu huấn luyện theo một hệ số tương tự. Và để đào tạo các mô hình lớn hơn trên nhiều dữ liệu hơn, cần nhiều sức mạnh tính toán hơn.
Vào năm 2018, OpenAI đã phát hành mô hình lớn đầu tiên GPT-1. Nó sử dụng một vectơ từ 768 chiều, tổng cộng 12 lớp và tổng cộng 117 triệu tham số. Vài tháng sau, OpenAI đã phát hành GPT-2, phiên bản lớn nhất có vectơ từ 1600 chiều, 48 lớp và tổng cộng 1,5 tỷ tham số. Vào năm 2020, OpenAI đã phát hành GPT-3, có vectơ từ 12288 chiều, 96 lớp và tổng cộng 175 tỷ tham số.
Năm nay, OpenAI đã phát hành GPT-4. Công ty chưa công bố bất kỳ chi tiết kiến trúc nào, nhưng nhiều người trong ngành tin rằng GPT-4 lớn hơn nhiều so với GPT-3.
Mỗi mô hình không chỉ học được nhiều sự kiện hơn so với người tiền nhiệm nhỏ hơn của nó mà còn cho thấy hiệu suất tốt hơn trong các nhiệm vụ yêu cầu một số dạng suy luận trừu tượng.
Ví dụ, hãy xem xét câu chuyện sau: Một túi đầy bỏng ngô. Không có sô cô la trong túi. Tuy nhiên, nhãn trên túi ghi là "sô cô la" thay vì "bỏng ngô". Sam tìm thấy cái túi. Cô chưa bao giờ nhìn thấy chiếc túi trước đây. Cô không thể nhìn thấy những gì trong túi. Cô đọc nhãn.
Như bạn có thể đoán, Sam tin rằng chiếc túi chứa sô cô la và ngạc nhiên khi biết rằng nó chứa bỏng ngô.
Các nhà tâm lý học gọi nghiên cứu này về khả năng suy luận về trạng thái tinh thần của người khác là "Lý thuyết Tâm trí". Hầu hết mọi người đều có khả năng này từ khi bắt đầu học tiểu học. Các chuyên gia khác nhau về việc liệu thuyết tâm trí có áp dụng cho bất kỳ động vật phi nhân loại nào, chẳng hạn như tinh tinh hay không, nhưng sự đồng thuận chung là nó là trung tâm của nhận thức xã hội loài người.
Đầu năm nay, nhà tâm lý học Michal Kosinski của Đại học Stanford đã công bố một nghiên cứu (kiểm tra khả năng của LLM trong việc giải quyết lý thuyết về các nhiệm vụ trí óc). cô ấy tin rằng cái túi đã đầy", câu trả lời đúng là "sô cô la", nhưng một mô hình ngôn ngữ chưa trưởng thành có thể nói "bỏng ngô" hoặc gì đó tương tự.
GPT-1 và GPT-2 đã không vượt qua được thử nghiệm này. Nhưng phiên bản đầu tiên của GPT-3, phát hành vào năm 2020, đúng gần 40%, mức hiệu suất mà Kosinski so với một đứa trẻ ba tuổi. Phiên bản mới nhất, GPT-3, được phát hành vào tháng 11 năm ngoái, đã cải thiện độ chính xác của các câu hỏi trên lên khoảng 90%, tương đương với độ chính xác của một đứa trẻ bảy tuổi. GPT-4 đã trả lời đúng khoảng 95 phần trăm các câu hỏi lý thuyết về tâm trí.
"Cho rằng không có bằng chứng nào trong các mô hình này cho thấy ToM (tinh thần hóa) được thiết kế có chủ ý cũng như không có nghiên cứu chứng minh rằng các nhà khoa học biết cách đạt được nó, nên có khả năng khả năng này phát sinh một cách tự nhiên và tự chủ. Đây là khả năng ngôn ngữ của các mô hình A bởi -sản phẩm của sự cải tiến liên tục," Kosinski viết.
Điều đáng chú ý là không phải tất cả các nhà nghiên cứu đều đồng ý rằng những kết quả này chứng minh lý thuyết về tâm trí: ví dụ: những thay đổi nhỏ đối với nhiệm vụ niềm tin sai lầm đã dẫn đến sự sụt giảm lớn về hiệu suất của GPT-3 (trong khi hiệu suất của GPT-3 đối với các nhiệm vụ khác đo lường lý thuyết Tâm trí thất thường hơn (như Sean viết trong đó, hiệu suất thành công có thể là do một yếu tố gây nhiễu trong nhiệm vụ—một "Hans thông minh", đề cập đến một con ngựa tên là Hans có vẻ như có thể hoàn thành một số nhiệm vụ trí óc đơn giản, nhưng thực ra chỉ dựa vào các tín hiệu vô thức do con người đưa ra)", nhưng nó xuất hiện trên mô hình ngôn ngữ thay vì con ngựa.
Tuy nhiên, GPT-3 tiếp cận hiệu suất của con người trong một số nhiệm vụ được thiết kế để đo lường lý thuyết về tâm trí, điều không thể tưởng tượng được chỉ vài năm trước và điều này phù hợp với thực tế là các mô hình lớn hơn thường hoạt động tốt hơn trong các nhiệm vụ đòi hỏi quan điểm lý luận nâng cao nhất quán .
Đây chỉ là một trong nhiều ví dụ mà các mô hình ngôn ngữ đã cho thấy khả năng suy luận nâng cao một cách tự phát. Vào tháng 4, các nhà nghiên cứu tại Microsoft đã xuất bản một bài báo (nói rằng GPT-4 đã sớm cho thấy những dấu hiệu đáng kinh ngạc của trí tuệ nhân tạo nói chung — khả năng suy nghĩ theo cách phức tạp, giống con người.
Ví dụ: một nhà nghiên cứu đã yêu cầu GPT-4 vẽ một con kỳ lân bằng ngôn ngữ lập trình đồ họa khó hiểu có tên là TiKZ. GPT-4 đã phản hồi bằng một vài dòng mã, sau đó các nhà nghiên cứu sẽ đưa vào phần mềm TiKZ. Các hình ảnh thu được, mặc dù thô sơ, cho thấy rõ ràng rằng GPT-4 có một số hiểu biết về hình dạng của một con kỳ lân.
Các nhà nghiên cứu cho rằng GPT-4 có thể bằng cách nào đó đã ghi nhớ mã vẽ kỳ lân từ dữ liệu đào tạo, vì vậy họ đưa ra một thử thách tiếp theo: Họ sửa đổi mã kỳ lân để loại bỏ sừng và di chuyển một số bộ phận cơ thể khác. Sau đó, họ yêu cầu GPT-4 đeo lại sừng kỳ lân. GPT-4 phản ứng bằng cách đặt các góc đầu vào đúng vị trí:
Mặc dù phiên bản thử nghiệm của các tác giả được đào tạo hoàn toàn trên văn bản và không chứa bất kỳ hình ảnh nào, GPT-4 dường như vẫn có thể hoàn thành nhiệm vụ này. Tuy nhiên, GPT-4 rõ ràng đã học cách suy luận về hình dạng cơ thể của kỳ lân sau khi được đào tạo về một lượng lớn văn bản viết.
Hiện tại, chúng tôi không có hiểu biết thực sự về cách các LLM đạt được những thành tích như vậy. Một số người cho rằng những ví dụ như thế này cho thấy mô hình đang bắt đầu thực sự hiểu ý nghĩa của các từ trong tập huấn luyện của nó. Những người khác nhấn mạnh rằng các mô hình ngôn ngữ chỉ là "những con vẹt ngẫu nhiên" (chỉ lặp lại các chuỗi từ ngày càng phức tạp mà không thực sự hiểu chúng.
Cuộc tranh luận này chỉ ra một cuộc tranh luận triết học sâu sắc có thể không được giải quyết. Tuy nhiên, chúng tôi cho rằng điều quan trọng là phải tập trung vào hiệu suất thực nghiệm của các mô hình như GPT-3. Nếu một mô hình ngôn ngữ luôn có thể nhận được câu trả lời chính xác cho một loại câu hỏi cụ thể và nhà nghiên cứu tự tin rằng có thể loại trừ các yếu tố gây nhiễu (ví dụ: bằng cách đảm bảo rằng mô hình ngôn ngữ không tiếp xúc với những câu hỏi đó trong quá trình đào tạo), thì không quan trọng nó hiểu ngôn ngữ như thế nào Chính xác giống như ở người, đây là một kết quả thú vị và quan trọng.
Một lý do khả dĩ khác khiến việc huấn luyện dự đoán bổ đề tiếp theo hoạt động tốt như vậy là bản thân ngôn ngữ có thể dự đoán được. Các quy tắc của ngôn ngữ thường (mặc dù không phải luôn luôn) được liên kết với các quy tắc của thế giới vật chất. Do đó, khi một mô hình ngôn ngữ học mối quan hệ giữa các từ, nó thường cũng ngầm học mối quan hệ tồn tại trên thế giới.
Hơn nữa, dự đoán có thể là nền tảng của trí tuệ sinh học cũng như trí tuệ nhân tạo. Theo các nhà triết học như Andy Clark, bộ não con người có thể được coi là một "cỗ máy dự đoán" có nhiệm vụ chính là đưa ra những dự đoán về môi trường của chúng ta và sau đó sử dụng những dự đoán đó để điều hướng thành công môi trường. Dự đoán là rất quan trọng đối với cả trí tuệ sinh học và trí tuệ nhân tạo. Theo trực giác, dự đoán tốt đi đôi với biểu diễn tốt — bản đồ chính xác có nhiều khả năng giúp mọi người điều hướng tốt hơn so với bản đồ không chính xác. Thế giới rộng lớn và phức tạp, và việc đưa ra dự đoán sẽ giúp các sinh vật điều hướng và thích nghi hiệu quả với sự phức tạp này.
Theo truyền thống, một thách thức lớn trong việc xây dựng các mô hình ngôn ngữ là tìm ra những cách hữu ích nhất để biểu diễn các từ khác nhau, đặc biệt là vì nghĩa của nhiều từ phụ thuộc rất nhiều vào ngữ cảnh. Phương pháp dự đoán từ tiếp theo cho phép các nhà nghiên cứu vượt qua câu hỏi lý thuyết hóc búa này bằng cách biến nó thành một vấn đề thực nghiệm.
Hóa ra các mô hình ngôn ngữ có thể học cách hoạt động của ngôn ngữ con người bằng cách tìm ra các dự đoán từ tiếp theo tốt nhất nếu chúng ta cung cấp đủ dữ liệu và sức mạnh tính toán. Nhược điểm là kết quả hoạt động bên trong của hệ thống vẫn chưa được con người hiểu đầy đủ.
Ghi chú:
Về mặt kỹ thuật, các đoạn từ của LLM trở thành bổ đề, nhưng chúng tôi sẽ bỏ qua chi tiết triển khai này để giữ cho bài viết này có độ dài vừa phải (tham khảo bài viết "Tiết lộ nguyên tắc làm việc của GPT Tokenizer").
Mạng feedforward còn được gọi là perceptron nhiều lớp. Các nhà khoa học máy tính đã nghiên cứu loại mạng thần kinh này từ những năm 1960.
Về mặt kỹ thuật, sau khi nơ-ron tính tổng trọng số của các đầu vào, nó sẽ chuyển kết quả cho hàm kích hoạt. Bài viết này sẽ bỏ qua chi tiết triển khai này, để có giải thích đầy đủ về cách hoạt động của nơ-ron, hãy xem:
Nếu bạn muốn tìm hiểu thêm về lan truyền ngược, hãy xem phần giải thích năm 2018 của Tim về cách thức hoạt động của mạng lưới thần kinh.
Trong thực tế, việc huấn luyện thường được thực hiện theo đợt để tính toán hiệu quả. Vì vậy, phần mềm có thể thực hiện chuyển tiếp trên 32000 mã thông báo trước khi lan truyền ngược.
Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Ngôn ngữ giải cấu trúc phổ biến Các mô hình lớn hoạt động như thế nào
Biên dịch: OneFlow
作宇|Tim Lee, Sean Trott
Chính xác thì mô hình ngôn ngữ lớn hoạt động như thế nào trong nội bộ? Bài viết này giải thích với toán học và thuật ngữ tối thiểu.
Tác giả của bài viết này, Tim Lee, từng làm việc trong hãng truyền thông công nghệ Ars Technica, gần đây anh ấy đã ra mắt Bản tin "Hiểu về AI", chủ yếu thảo luận về nguyên lý hoạt động của trí tuệ nhân tạo. Sean Trott là trợ lý giáo sư tại Đại học California, San Diego, nơi ông nghiên cứu về các mô hình ngôn ngữ và hiểu ngôn ngữ của con người. (Nội dung dưới đây do OneFlow biên soạn và xuất bản sau khi được cấp phép, vui lòng liên hệ với OneFlow để được cấp phép in lại. Nguyên văn:
Khi ChatGPT ra mắt vào mùa thu năm ngoái, nó đã gây chấn động trong ngành công nghệ và trên toàn thế giới. Vào thời điểm đó, các nhà nghiên cứu máy học đã cố gắng phát triển các mô hình ngôn ngữ lớn (LLM) trong nhiều năm, nhưng công chúng không chú ý nhiều hoặc không nhận ra chúng đã trở nên mạnh mẽ như thế nào.
Ngày nay, hầu hết mọi người đều đã nghe nói về LLM và hàng chục triệu người đã sử dụng chúng, nhưng không nhiều người hiểu cách chúng hoạt động. Bạn có thể đã nghe nói rằng các LLM được đào tạo để "dự đoán từ tiếp theo" và họ yêu cầu rất nhiều văn bản để làm điều này. Tuy nhiên, giải thích thường dừng lại ở đó. Các chi tiết về cách họ dự đoán từ tiếp theo thường được coi là một câu đố bí truyền.
Một lý do cho điều này là các hệ thống này được phát triển theo một cách khác. Phần mềm điển hình được viết bởi các kỹ sư con người, những người cung cấp cho máy tính các hướng dẫn từng bước rõ ràng. Ngược lại, ChatGPT được xây dựng trên mạng thần kinh được đào tạo bằng hàng tỷ từ ngôn ngữ.
Do đó, không ai trên trái đất hiểu đầy đủ các hoạt động bên trong của LLM. Các nhà nghiên cứu đang nỗ lực tìm hiểu những mô hình này, nhưng đó là một quá trình chậm mất nhiều năm, nếu không muốn nói là hàng thập kỷ, để hoàn thành.
Tuy nhiên, các chuyên gia biết khá nhiều về cách thức hoạt động của các hệ thống này. Mục tiêu của bài viết này là mở ra kiến thức này cho nhiều đối tượng. Chúng tôi sẽ cố gắng giải thích những gì đã biết về hoạt động bên trong của các mô hình này mà không đi sâu vào thuật ngữ kỹ thuật hoặc toán học cao cấp.
Chúng ta sẽ bắt đầu bằng cách giải thích các vectơ từ, đây là một cách đáng ngạc nhiên để các mô hình ngôn ngữ biểu diễn và suy luận về ngôn ngữ. Sau đó, chúng ta sẽ đi sâu vào Transformers, nền tảng của việc xây dựng các mô hình như ChatGPT. Cuối cùng, chúng tôi giải thích cách các mô hình này được đào tạo và khám phá lý do tại sao có thể đạt được hiệu suất tốt với lượng dữ liệu khổng lồ.
véc tơ từ
Để hiểu cách các mô hình ngôn ngữ hoạt động, trước tiên bạn cần hiểu cách chúng biểu thị các từ. Con người sử dụng các chuỗi chữ cái để biểu thị các từ tiếng Anh, chẳng hạn như CAT cho mèo. Các mô hình ngôn ngữ sử dụng một danh sách dài các số được gọi là vectơ từ. Ví dụ: đây là một cách để biểu diễn một con mèo dưới dạng vectơ:
[0,0074, 0,0030, -0,0105, 0,0742, 0,0765, -0,0011, 0,0265, 0,0106, 0,0191, 0,0038, -0,0468, -0,0212, 0,0091, 0,0030, -0,0563, -0 .0396, -0.0998, -0.0796, …, 0.0002]
(lưu ý: chiều dài vectơ đầy đủ thực sự là 300 số)
Tại sao sử dụng một ký hiệu phức tạp như vậy? Đây là một sự tương tự, Washington DC nằm ở 38,9 độ vĩ độ bắc và 77 độ kinh độ tây, mà chúng ta có thể biểu diễn bằng ký hiệu vectơ:
• Tọa độ của Washington DC là [38.9, 77]
• Tọa độ của New York là [40.7, 74]
• Tọa độ của Luân Đôn là [51,5, 0,1]
• Tọa độ của Paris là [48,9, -2,4]
Điều này rất hữu ích cho lý luận về các mối quan hệ không gian. Bạn có thể thấy rằng New York rất gần với Washington DC vì 38,9 gần với 40,7 hơn và 77 gần với 74 hơn trong tọa độ. Tương tự như vậy, Paris rất gần London. Nhưng Paris là một chặng đường dài từ Washington, DC.
Các mô hình ngôn ngữ có cách tiếp cận tương tự: mỗi vectơ từ đại diện cho một điểm trong "không gian từ" nơi các từ có nghĩa tương tự nằm gần nhau hơn. Ví dụ, những từ gần nhất với mèo trong không gian vectơ bao gồm chó, mèo con và thú cưng. Một lợi thế chính của việc biểu diễn các từ dưới dạng vectơ của số thực (trái ngược với chuỗi các chữ cái như "CAT") là các số có thể thực hiện các phép toán mà các chữ cái không thể thực hiện được.
Các từ quá phức tạp để được biểu diễn chỉ trong hai chiều, vì vậy các mô hình ngôn ngữ sử dụng không gian vectơ có hàng trăm hoặc thậm chí hàng nghìn chiều. Con người không thể tưởng tượng ra những không gian có kích thước lớn như vậy, nhưng máy tính có thể suy luận về chúng và tạo ra kết quả hữu ích.
Các nhà nghiên cứu đã nghiên cứu vectơ từ trong nhiều thập kỷ, nhưng khái niệm này thực sự thu hút được sự chú ý vào năm 2013, khi Google công bố dự án word2vec. Google đã phân tích hàng triệu tài liệu được thu thập từ Google News để tìm ra những từ nào có xu hướng xuất hiện trong các câu giống nhau. Theo thời gian, một mạng lưới thần kinh được đào tạo sẽ học cách đặt các từ thuộc các danh mục tương tự (chẳng hạn như chó và mèo) liền kề nhau trong không gian vectơ.
Các vectơ từ của Google cũng có một tính năng thú vị khác: bạn có thể sử dụng các phép toán vectơ để "suy ra" các từ. Ví dụ: các nhà nghiên cứu của Google lấy vectơ lớn nhất (lớn nhất), trừ vectơ lớn (lớn) và thêm vectơ nhỏ (nhỏ). Từ gần vectơ kết quả nhất là vectơ nhỏ nhất (nhỏ nhất).
• Thụy Sĩ đối với Thụy Sĩ giống như Campuchia đối với Campuchia. (Quốc tịch)
• Paris và Pháp tương tự như Berlin và Đức. (thủ đô)
• Vô đạo đức và đạo đức tương tự như có thể và không thể. (từ trái nghĩa)
• Mouse (rats) và mice (số nhiều của mice) tương tự với đô la (đô la) và đô la (số nhiều của đô la). (dạng số nhiều)
• Đàn ông và phụ nữ giống như vua và hoàng hậu. (vai trò giới tính)
Bởi vì những vectơ này được xây dựng từ cách mọi người sử dụng ngôn ngữ, nên chúng phản ánh nhiều thành kiến tồn tại trong ngôn ngữ của con người. Ví dụ: (bác sĩ) trừ (nam) cộng (nữ) bằng (y tá) trong một số mô hình nhúng từ. Giảm sự thiên vị này là một lĩnh vực nghiên cứu mới.
Tuy nhiên, nhúng từ là một nền tảng hữu ích cho các mô hình ngôn ngữ, vì chúng mã hóa thông tin quan hệ tinh tế nhưng quan trọng giữa các từ. Nếu một mô hình ngôn ngữ học được điều gì đó về mèo (ví dụ: đôi khi nó đến bác sĩ thú y), thì điều tương tự cũng có thể áp dụng cho mèo con hoặc chó. Nếu mô hình đã học về mối quan hệ giữa Paris và Pháp (ví dụ: họ có chung ngôn ngữ), thì có khả năng mối quan hệ giữa Berlin và Đức và Rome và Ý sẽ giống nhau.
Nghĩa của từ phụ thuộc vào ngữ cảnh
Các sơ đồ nhúng từ đơn giản như thế này không nắm bắt được một thực tế quan trọng của ngôn ngữ tự nhiên: các từ thường có nhiều nghĩa.
Ví dụ: từ "ngân hàng" có thể chỉ một tổ chức tài chính hoặc một bờ sông. Hoặc xét các câu sau:
• John nhặt tạp chí (John nhặt tạp chí).
• Susan làm việc cho một tạp chí (Susan làm việc cho một tạp chí).
Trong những câu này, ý nghĩa của "tạp chí" có liên quan nhưng khác nhau. John chọn một tạp chí vật lý và Susan làm việc cho một công ty xuất bản tạp chí vật lý.
Khi một từ có hai nghĩa không liên quan, các nhà ngôn ngữ học gọi chúng là từ đồng âm. Khi một từ có hai nghĩa liên quan chặt chẽ với nhau, chẳng hạn như "tạp chí", các nhà ngôn ngữ học gọi đó là từ đa nghĩa.
Các mô hình ngôn ngữ như ChatGPT có thể biểu thị cùng một từ bằng các vectơ khác nhau tùy thuộc vào ngữ cảnh mà từ đó xuất hiện. Có một vectơ cho "ngân hàng (tổ chức tài chính)" và một vectơ cho "ngân hàng (bờ sông)". Có một vectơ cho "tạp chí (tổ chức xuất bản)" và một vectơ cho "tạp chí (tổ chức xuất bản)". Như bạn có thể mong đợi, mô hình ngôn ngữ sử dụng các vectơ giống nhau hơn về nghĩa của các từ đa nghĩa và ít giống nhau hơn về nghĩa của các từ đồng âm.
Cho đến nay, chúng tôi vẫn chưa giải thích cách các mô hình ngôn ngữ thực hiện điều này - sẽ sớm giải quyết vấn đề đó. Tuy nhiên, chúng tôi đang trình bày chi tiết các biểu diễn véc-tơ này, điều quan trọng để hiểu cách thức hoạt động của các mô hình ngôn ngữ.
Phần mềm truyền thống được thiết kế để hoạt động với dữ liệu rõ ràng. Nếu bạn yêu cầu máy tính tính "2+3", thì không có sự mơ hồ nào về ý nghĩa của 2, + hoặc 3. Nhưng sự mơ hồ trong ngôn ngữ tự nhiên vượt xa từ đồng âm và từ đa nghĩa:
• Trong câu "khách hàng yêu cầu thợ máy sửa xe cho mình", "his" có phải là khách hàng hay thợ máy không?
• Trong câu “the GIÁO SƯ giục sinh viên làm bài tập về nhà của cô ấy” thì “cô ấy” ám chỉ giáo sư hay sinh viên?
• Trong bài "Ruồi giấm thích chuối", "ruồi" là động từ (chỉ loại quả bay qua bầu trời như chuối) hay danh từ (chỉ ruồi giấm thích chuối)?
Mọi người giải quyết loại mơ hồ này tùy thuộc vào ngữ cảnh, nhưng không có quy tắc đơn giản hoặc rõ ràng. Thay vào đó, nó đòi hỏi sự hiểu biết về những gì đang thực sự diễn ra trên thế giới. Bạn cần biết rằng thợ máy thường sửa xe cho khách, sinh viên thường tự làm bài tập và trái cây thường không cánh mà bay.
Các vectơ từ cung cấp một cách linh hoạt để các mô hình ngôn ngữ biểu thị nghĩa chính xác của từng từ trong ngữ cảnh của một đoạn cụ thể. Bây giờ hãy xem cách họ làm điều này.
Chuyển đổi vectơ từ thành dự đoán từ
Mô hình GPT-3 đằng sau phiên bản gốc của ChatGPT bao gồm hàng chục lớp mạng thần kinh. Mỗi lớp lấy đầu vào là một chuỗi vectơ—một cho mỗi từ trong văn bản đầu vào—và thêm thông tin để giúp làm rõ nghĩa của từ đó và dự đoán tốt hơn các từ có thể xuất hiện tiếp theo.
Hãy bắt đầu với một ví dụ đơn giản.
Ở dưới cùng của biểu đồ, văn bản đầu vào của mô hình là "John muốn ngân hàng của anh ấy rút tiền mặt" và những từ này được biểu diễn dưới dạng vectơ kiểu word2vec và được chuyển đến Transformer đầu tiên. Transformer này xác định rằng cả wish và cash đều là động từ (hai từ này cũng có thể là danh từ). Chúng tôi biểu thị ngữ cảnh bổ sung này bằng văn bản màu đỏ trong ngoặc đơn, nhưng mô hình thực sự lưu trữ thông tin này bằng cách sửa đổi các vectơ từ theo cách mà con người khó diễn giải. Những vectơ mới này được gọi là trạng thái ẩn và được chuyển đến Transformer tiếp theo.
Transformer thứ hai bổ sung thêm hai thông tin theo ngữ cảnh: nó làm rõ rằng ngân hàng đề cập đến một tổ chức tài chính (tổ chức tài chính) chứ không phải là một bờ sông, và rằng ông đề cập đến đại từ John. Máy biến áp thứ hai tạo ra một tập hợp các vectơ trạng thái ẩn khác phản ánh tất cả thông tin mà mô hình đã học được trước đó.
Biểu đồ trên mô tả một LLM hoàn toàn mang tính giả thuyết, vì vậy đừng quá chú trọng vào các chi tiết. LLM thực có xu hướng có nhiều lớp hơn. Ví dụ: phiên bản mạnh nhất của GPT-3 có 96 lớp.
Nghiên cứu cho thấy rằng (một vài lớp đầu tiên tập trung vào việc hiểu ngữ pháp của câu và giải quyết những điểm mơ hồ được hiển thị ở trên. Các lớp sau (không được hiển thị ở trên để giữ cho kích thước sơ đồ có thể quản lý được) được dành riêng để hiểu toàn bộ đoạn văn ở mức độ cao.
Ví dụ: khi LLM "đọc" một truyện ngắn, nó dường như ghi nhớ tất cả các loại thông tin về các nhân vật trong truyện: giới tính và tuổi tác, mối quan hệ với các nhân vật khác, vị trí trong quá khứ và hiện tại, tính cách và mục tiêu, v.v.
Các nhà nghiên cứu không hiểu đầy đủ cách LLM theo dõi thông tin này, nhưng về mặt logic, thông tin phải được truyền giữa các lớp bằng cách sửa đổi các vectơ trạng thái ẩn. Kích thước vectơ trong LLM hiện đại là cực kỳ lớn, có lợi cho việc thể hiện thông tin ngữ nghĩa phong phú hơn.
Ví dụ: phiên bản mạnh nhất của GPT-3 sử dụng vectơ từ có kích thước 12288, nghĩa là mỗi từ được biểu thị bằng một danh sách gồm 12288 số. Con số này lớn gấp 20 lần so với sơ đồ word2vec do Google đề xuất vào năm 2013. Bạn có thể coi tất cả các kích thước bổ sung này như một loại "không gian đầu" mà GPT-3 có thể sử dụng để ghi lại ngữ cảnh của từng từ. Các ghi chú thông tin do các lớp trước tạo ra có thể được đọc và sửa đổi bởi các lớp sau, cho phép mô hình dần dần hiểu sâu hơn về toàn bộ văn bản.
Vì vậy, giả sử chúng ta thay đổi sơ đồ trên để mô tả mô hình ngôn ngữ 96 lớp để diễn giải một câu chuyện 1000 từ. Cấp 60 có thể bao gồm một vectơ cho John, với một vectơ được ký hiệu là "(Nhân vật chính, nam, đã kết hôn với Cheryl, anh họ của Donald, đến từ Minnesota, hiện đang ở Boise, đang cố gắng tìm chiếc ví bị mất của anh ấy)" trong ngoặc đơn. Một lần nữa, tất cả những dữ kiện này (và có thể nhiều hơn nữa) sẽ được mã hóa trong một danh sách gồm 12288 số tương ứng với từ John. Hoặc, một số thông tin trong câu chuyện đó có thể được mã hóa trong một vectơ 12288 chiều cho Cheryl, Donald, Boise, ví hoặc các từ khác.
Mục tiêu của việc này là để lớp thứ 96 và lớp cuối cùng của mạng xuất ra trạng thái ẩn chứa tất cả thông tin cần thiết để dự đoán từ tiếp theo.
Cơ chế chú ý
Bây giờ hãy nói về những gì xảy ra bên trong mỗi Transformer. Transformer có hai quá trình khi cập nhật trạng thái ẩn của từng từ trong đoạn đầu vào:
Trong bước chú ý, từ vựng "nhìn xung quanh" để tìm các từ khác có ngữ cảnh liên quan và chia sẻ thông tin với nhau.
Trong bước chuyển tiếp, mỗi từ "nghĩ" về thông tin thu thập được trong bước chú ý trước đó và cố gắng dự đoán từ tiếp theo.
Tất nhiên, chính mạng thực hiện các bước này chứ không phải từng từ riêng lẻ. Nhưng chúng tôi nói theo cách này để nhấn mạnh rằng Transformer sử dụng các từ làm đơn vị cơ bản của phân tích này, không phải toàn bộ câu hoặc đoạn văn. Cách tiếp cận này cho phép LLM tận dụng tối đa khả năng xử lý song song ồ ạt của các chip GPU hiện đại. Nó cũng giúp LLM mở rộng quy mô thành các đoạn văn dài chứa hàng nghìn từ. Hai khía cạnh này là những thách thức mà các mô hình ngôn ngữ ban đầu phải đối mặt.
Bạn có thể coi cơ chế chú ý như một dịch vụ khớp giữa các từ. Mỗi từ tạo một danh sách kiểm tra (được gọi là vectơ truy vấn) mô tả các đặc điểm của từ mà nó đang tìm kiếm. Mỗi từ cũng tạo ra một danh sách kiểm tra (được gọi là keyvector) mô tả các đặc điểm riêng của nó. Mạng thần kinh tìm từ phù hợp nhất bằng cách so sánh từng vectơ chính với từng vectơ truy vấn (bằng cách tính toán tích vô hướng). Sau khi tìm thấy kết quả phù hợp, nó sẽ chuyển thông tin liên quan từ từ tạo ra vectơ khóa sang từ tạo ra vectơ truy vấn.
Ví dụ, trong phần trước, chúng tôi đã trình bày một mô hình Transformer giả định cho thấy rằng "his" ám chỉ "John" trong một phần của câu "John muốn ngân hàng của anh ấy rút tiền mặt". Trong nội bộ, quy trình có thể diễn ra như sau: một vectơ truy vấn cho "anh ấy" có thể được biểu thị một cách hiệu quả là "Tôi đang tìm kiếm: danh từ mô tả đàn ông". Một vectơ chính cho "John" có thể được biểu thị một cách hiệu quả là "Tôi là một danh từ mô tả một người đàn ông". Mạng sẽ phát hiện ra rằng hai vectơ này khớp nhau và chuyển thông tin về vectơ "John" sang vectơ "anh ấy".
Mỗi lớp chú ý có một số "đầu chú ý", nghĩa là quá trình trao đổi thông tin này diễn ra nhiều lần (song song) trên mỗi lớp. Mỗi đầu chú ý tập trung vào một nhiệm vụ khác nhau:
• Một cái đầu chú ý có thể ghép đại từ với danh từ, như chúng ta đã thảo luận trước đó.
• Một tiêu đề chú ý khác có thể xử lý việc phân tích cú pháp nghĩa của các từ đa nghĩa như "ngân hàng".
• Đầu mối chú ý thứ ba có thể liên kết các cụm từ gồm hai từ như "Joe Biden".
Các đầu chú ý như vậy thường hoạt động tuần tự, với kết quả của hoạt động chú ý trong một lớp chú ý trở thành đầu vào cho một đầu chú ý trong lớp tiếp theo. Trên thực tế, mỗi nhiệm vụ mà chúng tôi vừa liệt kê có thể yêu cầu nhiều đầu óc chú ý chứ không chỉ một.
Phiên bản lớn nhất của GPT-3 có 96 lớp và mỗi lớp có 96 đầu chú ý, vì vậy mỗi khi dự đoán một từ mới, GPT-3 sẽ thực hiện 9216 thao tác chú ý.
Một ví dụ thực tế
Trong hai phần trên, chúng tôi đã trình bày các phiên bản lý tưởng hóa về cách thức hoạt động của các đầu chú ý. Bây giờ hãy xem nghiên cứu về hoạt động bên trong của các mô hình ngôn ngữ thực.
Năm ngoái, các nhà nghiên cứu tại Redwood Research đã nghiên cứu GPT-2, tiền thân của ChatGPT, cho đoạn văn "Khi Mary và John đi đến cửa hàng, John đã đưa đồ uống cho (khi Mary và John đến cửa hàng, John đã đưa đồ uống cho ) "Quá trình dự đoán từ tiếp theo.
GPT-2 dự đoán rằng từ tiếp theo là Mary. Các nhà nghiên cứu phát hiện ra rằng ba loại đầu óc chú ý đã góp phần vào dự đoán này:
• Ba đầu chú ý, được gọi là Name Mover Head, sao chép thông tin từ véc-tơ Mary sang véc-tơ đầu vào cuối cùng (véc-tơ cho từ đến). GPT-2 sử dụng thông tin trong vectơ ngoài cùng bên phải này để dự đoán từ tiếp theo.
• Làm thế nào để mạng lưới thần kinh quyết định rằng Mary là từ chính xác để sao chép? Đảo ngược quá trình tính toán của GPT-2, các nhà khoa học phát hiện ra một bộ 4 đầu chú ý mà họ gọi là đầu ức chế chủ thể (Subject Inhibition Head), đánh dấu véc tơ John thứ hai, ngăn không cho tên đầu di chuyển sao chép tên John.
• Làm thế nào để người đứng đầu đối tượng đàn áp biết rằng John không nên được sao chép? Nhóm đã ngoại suy xa hơn và phát hiện ra hai đầu chú ý mà họ gọi là Đầu mã thông báo trùng lặp. Họ đánh dấu véc-tơ John thứ hai là bản sao trùng lặp của véc-tơ John đầu tiên, điều này giúp đối tượng trấn áp đầu để quyết định rằng không nên sao chép John.
Nói tóm lại, chín chú ý này cho phép GPT-2 hiểu rằng "John đã đưa đồ uống cho John" không có ý nghĩa gì, và thay vào đó chọn "John đã đưa đồ uống cho Mary (John đưa đồ uống cho Mary)".
Ví dụ này cho thấy việc hiểu đầy đủ về LLM có thể khó khăn như thế nào. Một nhóm Redwood gồm năm nhà nghiên cứu đã xuất bản một bài báo dài 25 trang giải thích cách họ xác định và xác nhận những cái đầu chú ý này. Tuy nhiên, ngay cả với tất cả công việc này, chúng tôi vẫn còn một chặng đường dài để giải thích đầy đủ lý do tại sao GPT-2 quyết định dự đoán "Mary" là từ tiếp theo.
Ví dụ, làm thế nào để mô hình biết rằng từ tiếp theo phải là tên của ai đó chứ không phải một loại từ nào khác? Thật dễ dàng để tưởng tượng rằng trong những câu tương tự, Mary sẽ không phải là một người dự đoán tiếp theo tốt. Ví dụ, trong câu "khi Mary và John đến nhà hàng, John đã đưa chìa khóa của anh ấy cho (khi Mary và John đến nhà hàng, John đã đưa chìa khóa cho)", theo logic, từ tiếp theo phải là "người phục vụ ( đại diện cho nhân viên trông xe)".
Giả sử các nhà khoa học máy tính đã thực hiện đủ nghiên cứu, họ có thể tiết lộ và giải thích các bước khác trong quy trình lập luận của GPT-2. Cuối cùng, họ có thể hiểu đầy đủ cách GPT-2 quyết định rằng "Mary" là từ tiếp theo có nhiều khả năng nhất trong câu. Nhưng có thể mất nhiều tháng hoặc thậm chí nhiều năm nỗ lực để hiểu cách một từ được dự đoán.
Các mô hình ngôn ngữ đằng sau ChatGPT—GPT-3 và GPT-4—lớn hơn và phức tạp hơn GPT-2, đồng thời chúng có khả năng thực hiện các nhiệm vụ suy luận phức tạp hơn so với các câu đơn giản mà nhóm Redwood đã nghiên cứu. Do đó, công việc giải thích đầy đủ các hệ thống này sẽ là một dự án khổng lồ và không chắc con người sẽ hoàn thành nó trong một thời gian ngắn.
Bước chuyển tiếp
Sau khi đầu chú ý chuyển thông tin giữa các vectơ từ, mạng chuyển tiếp sẽ "nghĩ" về từng vectơ từ và cố gắng dự đoán từ tiếp theo. Ở giai đoạn này, không có thông tin nào được trao đổi giữa các từ và lớp chuyển tiếp nguồn cấp dữ liệu sẽ phân tích từng từ một cách độc lập. Tuy nhiên, các lớp chuyển tiếp nguồn cấp dữ liệu có quyền truy cập vào bất kỳ thông tin nào được sao chép trước đó bởi các đầu chú ý. Sau đây là cấu trúc lớp chuyển tiếp của phiên bản lớn nhất của GPT-3.
Lớp chuyển tiếp nguồn cấp dữ liệu mạnh mẽ vì số lượng kết nối lớn của nó. Chúng tôi vẽ mạng này bằng cách sử dụng ba nơ-ron làm lớp đầu ra và sáu nơ-ron làm lớp ẩn, nhưng lớp chuyển tiếp nguồn cấp dữ liệu của GPT-3 lớn hơn nhiều: 12288 nơ-ron trong lớp đầu ra (tương ứng với vectơ từ 12288 chiều của mô hình ) , lớp ẩn có 49152 nơ-ron.
Vì vậy, trong phiên bản lớn nhất của GPT-3, lớp ẩn có 49152 nơ-ron, mỗi nơ-ron có 12288 giá trị đầu vào (vì vậy mỗi nơ-ron có 12288 tham số trọng số) và cũng có 12288 nơ-ron đầu ra, mỗi nơ-ron có 49152 giá trị đầu vào (do đó có 49152 tham số trọng lượng trên mỗi nơ-ron). Điều này có nghĩa là mỗi lớp chuyển tiếp có 49152*12288+12288*49152=1,2 tỷ tham số trọng lượng. Và có 96 lớp chuyển tiếp, tổng cộng 1,2 tỷ*96=116 tỷ tham số! Con số này tương đương gần 2/3 khối lượng tham số của GPT-3 với 175 tỷ tham số.
Trong một bài báo năm 2020 (năm 2020), các nhà nghiên cứu từ Đại học Tel Aviv đã phát hiện ra rằng các lớp chuyển tiếp nguồn cấp dữ liệu hoạt động bằng cách khớp mẫu: mỗi nơ-ron trong lớp ẩn khớp với một mẫu cụ thể trong văn bản đầu vào. Dưới đây là phiên bản 16 lớp Một số nơ-ron trong GPT- 2 khớp với mẫu:
• Các tế bào thần kinh trong lớp 1 khớp với các chuỗi từ kết thúc bằng "người thay thế".
• Các tế bào thần kinh trong lớp 6 khớp với các chuỗi từ có liên quan đến quân sự và kết thúc bằng "căn cứ" hoặc "căn cứ".
• Các nơ-ron trong lớp 13 khớp với các chuỗi kết thúc bằng một khoảng thời gian, chẳng hạn như "từ 3 giờ chiều đến 7 giờ tối" hoặc "từ 7 giờ tối Thứ Sáu cho đến".
• Các nơ-ron trong lớp 16 đối sánh các chuỗi liên kết với chương trình truyền hình, chẳng hạn như "phiên bản ban ngày gốc của NBC, đã lưu trữ" hoặc "thời gian trễ đã tăng lượng người xem cho tập này lên 57 phần trăm".
Như bạn có thể thấy, trong các lớp sau lược đồ trở nên trừu tượng hơn. Các lớp đầu tiên có xu hướng khớp các từ cụ thể, trong khi các lớp sau khớp các cụm từ thuộc các danh mục ngữ nghĩa rộng hơn, chẳng hạn như chương trình truyền hình hoặc khoảng thời gian.
Điều này rất thú vị bởi vì, như đã đề cập trước đó, lớp chuyển tiếp nguồn cấp dữ liệu chỉ có thể kiểm tra một từ tại một thời điểm. Vì vậy, khi phân loại chuỗi "Bản phát hành ban ngày ban đầu của NBC, đã lưu trữ" là "liên quan đến TV", nó chỉ có quyền truy cập vào các vectơ cho từ "đã lưu trữ", chứ không phải các từ như NBC hoặc ban ngày. Có thể suy ra rằng lý do tại sao lớp chuyển tiếp nguồn cấp dữ liệu có thể đánh giá rằng "đã lưu trữ" là một phần của trình tự liên quan đến TV là do đầu chú ý trước đó đã chuyển thông tin theo ngữ cảnh vào vectơ "đã lưu trữ".
Khi một nơ-ron khớp với một trong các mẫu, nó sẽ thêm thông tin vào vectơ từ. Mặc dù thông tin này không phải lúc nào cũng dễ hiểu, nhưng trong nhiều trường hợp, bạn có thể coi nó như một dự đoán sơ bộ về từ tiếp theo.
Suy luận về mạng Feedforward Sử dụng Vector Operations
Nghiên cứu gần đây từ Đại học Brown (hiển thị một ví dụ hay về cách các lớp chuyển tiếp nguồn cấp dữ liệu có thể giúp dự đoán từ tiếp theo. Trước đây chúng ta đã thảo luận về nghiên cứu word2vec của Google cho thấy rằng lý luận tương tự có thể được thực hiện bằng cách sử dụng các phép toán vectơ. Ví dụ: Berlin - Đức + Pháp = Paris .
Các nhà nghiên cứu của Đại học Brown đã phát hiện ra rằng các lớp chuyển tiếp nguồn cấp dữ liệu đôi khi sử dụng phương pháp chính xác này để dự đoán từ tiếp theo. Ví dụ: họ đã nghiên cứu các câu trả lời của GPT-2 cho các lời nhắc sau: "Câu hỏi: Thủ đô của Pháp là gì? Câu trả lời: Paris. Câu hỏi: Thủ đô của Ba Lan là gì? Trả lời:"
Nhóm đã nghiên cứu một phiên bản GPT-2 với 24 lớp. Sau mỗi lớp, các nhà khoa học của Đại học Brown đã thăm dò mô hình, xem xét dự đoán tốt nhất của nó cho mã thông báo tiếp theo. Trong 15 lớp đầu tiên, khả năng đoán cao nhất là một từ có vẻ ngẫu nhiên. Giữa các lớp 16 và 19, mô hình bắt đầu dự đoán rằng từ tiếp theo là tiếng Ba Lan—không chính xác, nhưng tiến gần hơn. Sau đó, ở bậc 20, dự đoán có khả năng xảy ra cao nhất sẽ trở thành Warsaw—câu trả lời đúng và giữ nguyên cho bốn bậc cuối cùng.
Các nhà nghiên cứu tại Đại học Brown đã phát hiện ra rằng lớp chuyển tiếp thứ 20 chuyển đổi Ba Lan thành Warsaw bằng cách thêm một vectơ ánh xạ các vectơ quốc gia tới các thủ đô tương ứng của chúng. Khi thêm cùng một vectơ vào Trung Quốc, câu trả lời là Bắc Kinh.
Một lớp chuyển tiếp nguồn cấp dữ liệu trong cùng một mô hình sử dụng các phép toán véc tơ để chuyển đổi các từ viết thường thành các từ viết hoa và các từ ở thì hiện tại thành các từ tương đương ở thì quá khứ của chúng.
Lớp chú ý và lớp chuyển tiếp có các chức năng khác nhau
Cho đến nay, chúng ta đã thấy hai ví dụ thực tế về dự đoán từ GPT-2: phần chú ý giúp dự đoán rằng John sẽ cho Mary uống nước; lớp chuyển tiếp giúp dự đoán rằng Warsaw là thủ đô của Ba Lan.
Trong trường hợp đầu tiên, Mary xuất phát từ lời nhắc do người dùng cung cấp. Nhưng trong trường hợp thứ hai, Warsaw không xuất hiện trong lời nhắc. Thay vào đó, GPT-2 phải "nhớ" rằng Warsaw là thủ đô của Ba Lan và thông tin này được học từ dữ liệu huấn luyện.
Khi các nhà nghiên cứu của Đại học Brown vô hiệu hóa lớp chuyển tiếp chuyển đổi Ba Lan thành Warsaw, mô hình không còn dự đoán rằng từ tiếp theo là Warsaw. Nhưng thật thú vị, nếu sau đó họ thêm câu "Thủ đô của Ba Lan là Warsaw" vào đầu lời nhắc, GPT-2 đã có thể trả lời lại câu hỏi. Điều này có thể là do GPT-2 sử dụng cơ chế chú ý để trích xuất tên Warsaw khỏi gợi ý.
Sự phân công lao động này thể hiện rộng rãi hơn: cơ chế chú ý lấy thông tin từ các phần trước đó của tín hiệu, trong khi lớp chuyển tiếp cho phép mô hình ngôn ngữ "ghi nhớ" thông tin không xuất hiện trong tín hiệu.
Trên thực tế, lớp chuyển tiếp nguồn cấp dữ liệu có thể được coi là cơ sở dữ liệu thông tin mà mô hình đã học được từ dữ liệu huấn luyện. Các lớp chuyển tiếp nguồn cấp dữ liệu ban đầu có nhiều khả năng mã hóa các sự kiện đơn giản liên quan đến các từ cụ thể, chẳng hạn như "Trump thường đến sau Donald". Các lớp sau mã hóa các mối quan hệ phức tạp hơn như "thêm vectơ này để chuyển đổi một quốc gia thành thủ đô của nó.
Phương pháp đào tạo mô hình ngôn ngữ
Nhiều thuật toán học máy ban đầu yêu cầu các ví dụ đào tạo do con người dán nhãn. Ví dụ: dữ liệu đào tạo có thể là ảnh của chó hoặc mèo với nhãn giả (“chó” hoặc “mèo”). Nhu cầu về dữ liệu được dán nhãn khiến việc tạo bộ dữ liệu đủ lớn để huấn luyện các mô hình hiệu quả trở nên khó khăn và tốn kém.
Một cải tiến quan trọng của LLMs là chúng không yêu cầu dữ liệu được dán nhãn rõ ràng. Thay vào đó, họ học bằng cách cố gắng dự đoán từ tiếp theo trong một đoạn văn bản. Hầu hết mọi tài liệu bằng văn bản đều phù hợp để đào tạo các mô hình này -- từ các trang Wikipedia đến các bài báo cho đến mã máy tính.
Ví dụ: LLM có thể lấy đầu vào "Tôi thích cà phê của tôi với kem và (Tôi thích cà phê của tôi với kem và)" và cố gắng dự đoán "đường (đường)" là từ tiếp theo. Một mô hình ngôn ngữ mới được khởi tạo rất tệ trong việc này, bởi vì mỗi tham số trọng lượng của nó—phiên bản mạnh nhất của GPT-3 lên tới 175 tỷ tham số—ban đầu về cơ bản bắt đầu bằng một số ngẫu nhiên.
Nhưng khi mô hình thấy nhiều ví dụ hơn -- hàng trăm tỷ từ -- những trọng số đó dần dần điều chỉnh để đưa ra dự đoán tốt hơn.
Hãy sử dụng phép loại suy để minh họa quá trình này hoạt động như thế nào. Giả sử bạn đang tắm và bạn muốn nước ở nhiệt độ vừa phải: không quá nóng, không quá lạnh. Bạn chưa từng sử dụng vòi này bao giờ nên bạn tùy ý điều chỉnh hướng của tay cầm vòi và cảm nhận nhiệt độ của nước. Nếu trời quá nóng hoặc quá lạnh, bạn sẽ xoay tay cầm theo hướng ngược lại và bạn sẽ càng ít điều chỉnh tay cầm hơn khi càng gần đến nhiệt độ nước thích hợp.
Bây giờ, hãy thực hiện một vài thay đổi đối với phép loại suy này. Đầu tiên, hãy tưởng tượng rằng có 50.257 lần nhấn, mỗi lần nhấn tương ứng với một từ khác nhau, chẳng hạn như "the", "cat" hoặc "bank". Mục tiêu của bạn là chỉ để nước chảy ra từ vòi tương ứng với từ tiếp theo trong chuỗi.
Thứ hai, có một loạt các đường ống liên kết với nhau phía sau vòi và một loạt các van trên các đường ống đó. Vì vậy, nếu nước chảy ra từ vòi sai, bạn không thể điều chỉnh núm trên vòi. Bạn gửi một đội quân sóc thông minh để theo dõi mọi đường ống, điều chỉnh mọi van mà chúng tìm thấy trên đường đi.
Điều này trở nên phức tạp và vì cùng một đường ống thường cung cấp nhiều vòi, nên cần phải suy nghĩ cẩn thận về cách xác định van nào cần thắt chặt và nới lỏng cũng như mức độ bao nhiêu.
Rõ ràng, ví dụ này trở nên lố bịch khi hiểu theo nghĩa đen. Xây dựng một mạng lưới đường ống với 175 tỷ van là không thực tế và cũng không hữu ích. Nhưng nhờ Định luật Moore, máy tính có thể và thực sự hoạt động ở quy mô này.
Cho đến nay, tất cả các phần của LLM được thảo luận trong bài viết này—các nơ-ron trong lớp chuyển tiếp và các đầu chú ý truyền thông tin ngữ cảnh giữa các từ—được triển khai dưới dạng một loạt các hàm toán học đơn giản (chủ yếu là phép nhân ma trận), hành vi của chúng là được xác định bởi một tham số trọng lượng có thể điều chỉnh. Giống như con sóc trong câu chuyện của tôi điều khiển dòng nước bằng cách nới lỏng van, thuật toán đào tạo điều khiển luồng thông tin qua mạng nơ-ron bằng cách tăng hoặc giảm các tham số trọng số của mô hình ngôn ngữ.
Quá trình đào tạo được chia thành hai bước. Trước tiên, thực hiện "chuyển tiếp", bật nước và kiểm tra xem nước có đến từ đúng vòi không. Sau đó, nước bị tắt để "đi ngược lại", trong đó những con sóc chạy xuống từng đường ống, siết chặt hoặc nới lỏng các van. Trong các mạng nơ-ron kỹ thuật số, vai trò của con sóc được thực hiện bởi một thuật toán có tên là lan truyền ngược, thuật toán này sẽ "đi ngược" qua mạng, sử dụng phép tính để ước tính mức độ cần thay đổi của từng tham số trọng lượng.
Thực hiện điều này—truyền tới một ví dụ, sau đó truyền ngược lại để cải thiện hiệu suất của mạng trên ví dụ đó—đòi hỏi hàng chục tỷ phép toán. Và việc đào tạo một mô hình lớn như GPT-3 cần lặp lại quá trình này hàng tỷ lần-cho mỗi từ của mỗi dữ liệu đào tạo. OpenAI ước tính rằng việc đào tạo GPT-3 yêu cầu hơn 300 tỷ teraflop phép tính – điều mà sẽ cần hàng chục chip máy tính cao cấp để chạy trong nhiều tháng.
Hiệu suất tuyệt vời của GPT-3
Bạn có thể ngạc nhiên về hiệu quả của quá trình đào tạo. ChatGPT có thể thực hiện nhiều tác vụ phức tạp — viết bài, tạo phép loại suy và thậm chí viết mã máy tính. Vì vậy, làm thế nào để một cơ chế học tập đơn giản như vậy tạo ra một mô hình mạnh mẽ như vậy?
Một lý do là quy mô. Thật khó để nhấn mạnh quá nhiều ví dụ mà một mô hình như GPT-3 nhìn thấy. GPT-3 được đào tạo trên kho dữ liệu khoảng 500 tỷ từ. Để so sánh, một đứa trẻ trung bình gặp khoảng 100 triệu từ trước 10 tuổi.
Trong 5 năm qua, OpenAI đã liên tục tăng kích thước của các mô hình ngôn ngữ của mình. Trong một bài báo năm 2020 được lưu hành rộng rãi (báo cáo rằng độ chính xác của các mô hình ngôn ngữ của chúng có mối quan hệ quy luật lũy thừa với kích thước của mô hình, kích thước của tập dữ liệu và lượng tính toán được sử dụng để đào tạo, một số xu hướng thậm chí còn kéo dài hơn bảy trật tự độ lớn”.
Kích thước mô hình càng lớn thì nó càng thực hiện tốt các tác vụ liên quan đến ngôn ngữ. Nhưng chỉ khi họ tăng lượng dữ liệu huấn luyện theo một hệ số tương tự. Và để đào tạo các mô hình lớn hơn trên nhiều dữ liệu hơn, cần nhiều sức mạnh tính toán hơn.
Vào năm 2018, OpenAI đã phát hành mô hình lớn đầu tiên GPT-1. Nó sử dụng một vectơ từ 768 chiều, tổng cộng 12 lớp và tổng cộng 117 triệu tham số. Vài tháng sau, OpenAI đã phát hành GPT-2, phiên bản lớn nhất có vectơ từ 1600 chiều, 48 lớp và tổng cộng 1,5 tỷ tham số. Vào năm 2020, OpenAI đã phát hành GPT-3, có vectơ từ 12288 chiều, 96 lớp và tổng cộng 175 tỷ tham số.
Năm nay, OpenAI đã phát hành GPT-4. Công ty chưa công bố bất kỳ chi tiết kiến trúc nào, nhưng nhiều người trong ngành tin rằng GPT-4 lớn hơn nhiều so với GPT-3.
Mỗi mô hình không chỉ học được nhiều sự kiện hơn so với người tiền nhiệm nhỏ hơn của nó mà còn cho thấy hiệu suất tốt hơn trong các nhiệm vụ yêu cầu một số dạng suy luận trừu tượng.
Ví dụ, hãy xem xét câu chuyện sau: Một túi đầy bỏng ngô. Không có sô cô la trong túi. Tuy nhiên, nhãn trên túi ghi là "sô cô la" thay vì "bỏng ngô". Sam tìm thấy cái túi. Cô chưa bao giờ nhìn thấy chiếc túi trước đây. Cô không thể nhìn thấy những gì trong túi. Cô đọc nhãn.
Như bạn có thể đoán, Sam tin rằng chiếc túi chứa sô cô la và ngạc nhiên khi biết rằng nó chứa bỏng ngô.
Các nhà tâm lý học gọi nghiên cứu này về khả năng suy luận về trạng thái tinh thần của người khác là "Lý thuyết Tâm trí". Hầu hết mọi người đều có khả năng này từ khi bắt đầu học tiểu học. Các chuyên gia khác nhau về việc liệu thuyết tâm trí có áp dụng cho bất kỳ động vật phi nhân loại nào, chẳng hạn như tinh tinh hay không, nhưng sự đồng thuận chung là nó là trung tâm của nhận thức xã hội loài người.
Đầu năm nay, nhà tâm lý học Michal Kosinski của Đại học Stanford đã công bố một nghiên cứu (kiểm tra khả năng của LLM trong việc giải quyết lý thuyết về các nhiệm vụ trí óc). cô ấy tin rằng cái túi đã đầy", câu trả lời đúng là "sô cô la", nhưng một mô hình ngôn ngữ chưa trưởng thành có thể nói "bỏng ngô" hoặc gì đó tương tự.
GPT-1 và GPT-2 đã không vượt qua được thử nghiệm này. Nhưng phiên bản đầu tiên của GPT-3, phát hành vào năm 2020, đúng gần 40%, mức hiệu suất mà Kosinski so với một đứa trẻ ba tuổi. Phiên bản mới nhất, GPT-3, được phát hành vào tháng 11 năm ngoái, đã cải thiện độ chính xác của các câu hỏi trên lên khoảng 90%, tương đương với độ chính xác của một đứa trẻ bảy tuổi. GPT-4 đã trả lời đúng khoảng 95 phần trăm các câu hỏi lý thuyết về tâm trí.
Điều đáng chú ý là không phải tất cả các nhà nghiên cứu đều đồng ý rằng những kết quả này chứng minh lý thuyết về tâm trí: ví dụ: những thay đổi nhỏ đối với nhiệm vụ niềm tin sai lầm đã dẫn đến sự sụt giảm lớn về hiệu suất của GPT-3 (trong khi hiệu suất của GPT-3 đối với các nhiệm vụ khác đo lường lý thuyết Tâm trí thất thường hơn (như Sean viết trong đó, hiệu suất thành công có thể là do một yếu tố gây nhiễu trong nhiệm vụ—một "Hans thông minh", đề cập đến một con ngựa tên là Hans có vẻ như có thể hoàn thành một số nhiệm vụ trí óc đơn giản, nhưng thực ra chỉ dựa vào các tín hiệu vô thức do con người đưa ra)", nhưng nó xuất hiện trên mô hình ngôn ngữ thay vì con ngựa.
Tuy nhiên, GPT-3 tiếp cận hiệu suất của con người trong một số nhiệm vụ được thiết kế để đo lường lý thuyết về tâm trí, điều không thể tưởng tượng được chỉ vài năm trước và điều này phù hợp với thực tế là các mô hình lớn hơn thường hoạt động tốt hơn trong các nhiệm vụ đòi hỏi quan điểm lý luận nâng cao nhất quán .
Đây chỉ là một trong nhiều ví dụ mà các mô hình ngôn ngữ đã cho thấy khả năng suy luận nâng cao một cách tự phát. Vào tháng 4, các nhà nghiên cứu tại Microsoft đã xuất bản một bài báo (nói rằng GPT-4 đã sớm cho thấy những dấu hiệu đáng kinh ngạc của trí tuệ nhân tạo nói chung — khả năng suy nghĩ theo cách phức tạp, giống con người.
Ví dụ: một nhà nghiên cứu đã yêu cầu GPT-4 vẽ một con kỳ lân bằng ngôn ngữ lập trình đồ họa khó hiểu có tên là TiKZ. GPT-4 đã phản hồi bằng một vài dòng mã, sau đó các nhà nghiên cứu sẽ đưa vào phần mềm TiKZ. Các hình ảnh thu được, mặc dù thô sơ, cho thấy rõ ràng rằng GPT-4 có một số hiểu biết về hình dạng của một con kỳ lân.
Hiện tại, chúng tôi không có hiểu biết thực sự về cách các LLM đạt được những thành tích như vậy. Một số người cho rằng những ví dụ như thế này cho thấy mô hình đang bắt đầu thực sự hiểu ý nghĩa của các từ trong tập huấn luyện của nó. Những người khác nhấn mạnh rằng các mô hình ngôn ngữ chỉ là "những con vẹt ngẫu nhiên" (chỉ lặp lại các chuỗi từ ngày càng phức tạp mà không thực sự hiểu chúng.
Cuộc tranh luận này chỉ ra một cuộc tranh luận triết học sâu sắc có thể không được giải quyết. Tuy nhiên, chúng tôi cho rằng điều quan trọng là phải tập trung vào hiệu suất thực nghiệm của các mô hình như GPT-3. Nếu một mô hình ngôn ngữ luôn có thể nhận được câu trả lời chính xác cho một loại câu hỏi cụ thể và nhà nghiên cứu tự tin rằng có thể loại trừ các yếu tố gây nhiễu (ví dụ: bằng cách đảm bảo rằng mô hình ngôn ngữ không tiếp xúc với những câu hỏi đó trong quá trình đào tạo), thì không quan trọng nó hiểu ngôn ngữ như thế nào Chính xác giống như ở người, đây là một kết quả thú vị và quan trọng.
Một lý do khả dĩ khác khiến việc huấn luyện dự đoán bổ đề tiếp theo hoạt động tốt như vậy là bản thân ngôn ngữ có thể dự đoán được. Các quy tắc của ngôn ngữ thường (mặc dù không phải luôn luôn) được liên kết với các quy tắc của thế giới vật chất. Do đó, khi một mô hình ngôn ngữ học mối quan hệ giữa các từ, nó thường cũng ngầm học mối quan hệ tồn tại trên thế giới.
Hơn nữa, dự đoán có thể là nền tảng của trí tuệ sinh học cũng như trí tuệ nhân tạo. Theo các nhà triết học như Andy Clark, bộ não con người có thể được coi là một "cỗ máy dự đoán" có nhiệm vụ chính là đưa ra những dự đoán về môi trường của chúng ta và sau đó sử dụng những dự đoán đó để điều hướng thành công môi trường. Dự đoán là rất quan trọng đối với cả trí tuệ sinh học và trí tuệ nhân tạo. Theo trực giác, dự đoán tốt đi đôi với biểu diễn tốt — bản đồ chính xác có nhiều khả năng giúp mọi người điều hướng tốt hơn so với bản đồ không chính xác. Thế giới rộng lớn và phức tạp, và việc đưa ra dự đoán sẽ giúp các sinh vật điều hướng và thích nghi hiệu quả với sự phức tạp này.
Theo truyền thống, một thách thức lớn trong việc xây dựng các mô hình ngôn ngữ là tìm ra những cách hữu ích nhất để biểu diễn các từ khác nhau, đặc biệt là vì nghĩa của nhiều từ phụ thuộc rất nhiều vào ngữ cảnh. Phương pháp dự đoán từ tiếp theo cho phép các nhà nghiên cứu vượt qua câu hỏi lý thuyết hóc búa này bằng cách biến nó thành một vấn đề thực nghiệm.
Hóa ra các mô hình ngôn ngữ có thể học cách hoạt động của ngôn ngữ con người bằng cách tìm ra các dự đoán từ tiếp theo tốt nhất nếu chúng ta cung cấp đủ dữ liệu và sức mạnh tính toán. Nhược điểm là kết quả hoạt động bên trong của hệ thống vẫn chưa được con người hiểu đầy đủ.
Ghi chú:
Về mặt kỹ thuật, các đoạn từ của LLM trở thành bổ đề, nhưng chúng tôi sẽ bỏ qua chi tiết triển khai này để giữ cho bài viết này có độ dài vừa phải (tham khảo bài viết "Tiết lộ nguyên tắc làm việc của GPT Tokenizer").
Mạng feedforward còn được gọi là perceptron nhiều lớp. Các nhà khoa học máy tính đã nghiên cứu loại mạng thần kinh này từ những năm 1960.
Về mặt kỹ thuật, sau khi nơ-ron tính tổng trọng số của các đầu vào, nó sẽ chuyển kết quả cho hàm kích hoạt. Bài viết này sẽ bỏ qua chi tiết triển khai này, để có giải thích đầy đủ về cách hoạt động của nơ-ron, hãy xem:
Nếu bạn muốn tìm hiểu thêm về lan truyền ngược, hãy xem phần giải thích năm 2018 của Tim về cách thức hoạt động của mạng lưới thần kinh.
Trong thực tế, việc huấn luyện thường được thực hiện theo đợt để tính toán hiệu quả. Vì vậy, phần mềm có thể thực hiện chuyển tiếp trên 32000 mã thông báo trước khi lan truyền ngược.