Phát hiện đáng kinh ngạc: Các mô hình lớn mắc sai sót nghiêm trọng trong việc suy diễn kiến thức.
Vận dụng kiến thức một cách linh hoạt là chìa khóa của trí tuệ. Bộ não con người có thể xử lý kiến thức một cách nhanh chóng, chẳng hạn như trả lời nhanh "Có bao nhiêu từ trong"Suy nghĩ trong đêm yên tĩnh"". Vì vậy, các hoạt động tương tự có thể được thực hiện trên các mô hình lớn? Được biết, các mô hình lớn trước tiên có thể viết thầm "Suy nghĩ trong đêm yên tĩnh" thông qua Chuỗi suy nghĩ (CoT), sau đó trả lời các câu hỏi dựa trên nội dung viết, nhưng điều này sẽ khiến văn bản được tạo ra dài dòng. Ngược lại, con người có thể hoàn thành việc suy luận kiến thức đơn giản trong não mà không cần viết ra các bước trung gian. Vì vậy, liệu một mô hình ngôn ngữ rất lớn có thể tạo ra câu trả lời trực tiếp trong bộ não nhân tạo của nó mà không cần phải ghi lại các điểm kiến thức trước không?
**Câu trả lời hóa ra là không! Hình 1/2/3 hiển thị nhiều phản ví dụ về GPT4. Ngay cả việc phân loại cơ bản nhất (chẳng hạn như xác định ngày sinh tương đương của một người nổi tiếng) và so sánh (chẳng hạn như so sánh ngày sinh của hai tổng thống) cũng cần phải thông qua Chuỗi Tư duy. Tệ hơn nữa, các mô hình lớn gần như không thể trích xuất ngược kiến thức từ tập huấn luyện. **
Hình 1: GPT4 mắc lỗi trong việc phân loại/so sánh kiến thức, nhưng có thể có được câu trả lời đúng thông qua chuỗi tư duy
Hình 2: Ví dụ về lỗi tìm kiếm ngược kiến thức GPT4
*Hình 3: Mặc dù GPT4 có thể trả lời chính xác "Khi nào là sinh nhật của ai đó" và "Một số nào đó có phải là số chẵn không?", nhưng khi kết hợp cả hai, tỷ lệ chính xác chỉ là 50% nếu không có Chuỗi suy nghĩ (CoT). Khi so sánh ngày sinh của những người nổi tiếng từ năm 1900 đến năm 1910, màn trình diễn cũng gần như đoán mò. *
Nghiên cứu mới nhất “Vật lý mô hình ngôn ngữ Phần 3.2: Thao tác kiến thức” của Zhu Zeyuan (MetaAI) và Li Yuanzhi (MBZUAI) tập trung vào các vấn đề trên.
Địa chỉ giấy:
Trước tiên cho phép tôi hỏi một câu, đối với các vấn đề như Hình 1/2/3, có phải là do GPT4 không nhớ đủ chính xác ngày sinh nhật của mọi người (tỷ lệ nén không đủ và tổn thất huấn luyện không đủ thấp), hay là do không thể hiểu sâu hơn về tính chẵn lẻ thông qua việc tinh chỉnh? Có thể tinh chỉnh GPT4 để nó có thể kết hợp kiến thức hiện có trong mô hình nhằm tạo ra kiến thức mới như “sự ngang bằng ngày sinh”, từ đó trả lời trực tiếp các câu hỏi liên quan mà không cần dựa vào CoT? Vì chúng tôi không biết tập dữ liệu huấn luyện của GPT4 nên chúng tôi không thể tinh chỉnh nó. Vì vậy, tác giả đề xuất sử dụng tập huấn luyện điều khiển được để nghiên cứu sâu hơn về khả năng “suy diễn tri thức” của các mô hình ngôn ngữ.
Hình 4: Đối với các mô hình được đào tạo trước như GPT4, do tính chất không thể kiểm soát của dữ liệu Internet nên rất khó để xác định liệu có xảy ra tình huống B/C/D hay không
Trong “Vật lý mô hình ngôn ngữ Phần 3.1: Lưu trữ và truy xuất kiến thức”, tác giả đã tạo bộ dữ liệu chứa 100k tiểu sử. Mỗi tiểu sử bao gồm tên của một người và sáu thuộc tính: ngày sinh, nơi sinh, chuyên ngành đại học, tên trường đại học, nơi làm việc và đơn vị công việc. Ví dụ:
「Anya Briar Forger có nguồn gốc từ Princeton, NJ. Cô dành riêng việc học của mình cho Truyền thông. Cô đã có được kinh nghiệm làm việc ở Menlo Park, CA. Cô đã phát triển sự nghiệp của mình tại Meta Platforms. Cô ấy đến thế giới này vào ngày 2 tháng 10 năm 1996. Cô ấy theo đuổi khóa học nâng cao tại MIT.」
Các tác giả đảm bảo sự đa dạng của các mục tiểu sử để giúp mô hình tiếp cận kiến thức tốt hơn. Sau khi huấn luyện trước, mô hình có thể trả lời chính xác các câu hỏi khai thác kiến thức như “Khi nào là sinh nhật của Anya” thông qua tinh chỉnh (tỷ lệ chính xác gần 100%)
Tiếp theo, tác giả tiếp tục tinh chỉnh, cố gắng làm cho mô hình học các bài toán suy luận kiến thức như phân loại/so sánh/cộng, trừ kiến thức. Bài viết nhận thấy các mô hình ngôn ngữ tự nhiên có khả năng diễn giải kiến thức rất hạn chế và rất khó để tạo ra kiến thức mới thông qua việc tinh chỉnh, ngay cả khi chúng chỉ là những phép biến đổi/kết hợp đơn giản của những kiến thức đã được mô hình làm chủ. **
Hình 5: Nếu CoT không được sử dụng trong quá trình tinh chỉnh, việc cho phép mô hình phân loại/so sánh/trừ kiến thức sẽ yêu cầu số lượng mẫu lớn hoặc độ chính xác sẽ cực kỳ thấp - 100 chuyên ngành đã được sử dụng trong thử nghiệm
Như trong Hình 5, tác giả nhận thấy rằng mặc dù mô hình có thể trả lời chính xác ngày sinh của mọi người sau khi đào tạo trước (tỷ lệ chính xác gần 100%), nhưng cần phải tinh chỉnh để trả lời "Tháng sinh của xxx có phải là số chẵn không?" và đạt được Tỷ lệ chính xác 75% - đừng quên rằng đoán mù có tỷ lệ chính xác 50% - yêu cầu ít nhất 10.000 mẫu tinh chỉnh. Để so sánh, nếu mô hình có thể hoàn thành chính xác sự kết hợp kiến thức giữa "sinh nhật" và "chẵn lẻ", thì theo lý thuyết học máy truyền thống, mô hình chỉ cần học cách phân loại trong 12 tháng và thường khoảng 100 mẫu là đủ!
Tương tự, sau khi đào tạo trước, mô hình có thể trả lời chính xác chuyên ngành của mỗi người (tổng cộng 100 chuyên ngành khác nhau), nhưng ngay cả khi sử dụng 50.000 mẫu tinh chỉnh để so sánh “Cái nào tốt hơn, chuyên ngành của Anya hay chuyên ngành của Sabrina”, độ chính xác tỷ lệ chỉ là 53,9%, gần như là đoán mò.
Tuy nhiên, khi chúng tôi sử dụng tính năng tinh chỉnh CoT để cho mô hình học các câu như "Tháng sinh của Anya là tháng 10 nên là số chẵn", độ chính xác của mô hình trong việc đánh giá tính chẵn lẻ của tháng sinh trên bộ kiểm tra được cải thiện rất nhiều (xem "sử dụng thử nghiệm" trong cột Hình 5 CoT").
Tác giả cũng đã cố gắng kết hợp các phản hồi CoT và không CoT trong dữ liệu huấn luyện tinh chỉnh và nhận thấy rằng độ chính xác của mô hình khi không sử dụng CoT trên bộ kiểm tra vẫn rất thấp (xem cột "kiểm tra không có CoT" trong Hình 5). Điều này cho thấy ngay cả khi thêm đủ dữ liệu tinh chỉnh CoT, mô hình vẫn không thể học cách “nghĩ trong đầu” và trực tiếp báo cáo câu trả lời.
Những kết quả này cho thấy các mô hình ngôn ngữ thực hiện các phép toán tri thức đơn giản là vô cùng khó khăn! Mô hình trước tiên phải ghi lại các điểm kiến thức rồi thực hiện tính toán, nó không thể được vận hành trực tiếp trong não như con người, dù có tinh chỉnh đầy đủ cũng không giúp ích được gì. **
Thử thách tìm kiếm kiến thức ngược
Bài báo cũng nhận thấy các mô hình ngôn ngữ tự nhiên không thể tìm kiếm ngược lại các kiến thức đã học. Mặc dù nó có thể trả lời tất cả thông tin về một người nhưng nó không thể xác định tên người đó dựa trên thông tin này.
Đối với phân loại/so sánh kiến thức, tác giả đã tiến hành thử nghiệm trên GPT3.5/4 và nhận thấy rằng chúng hoạt động kém trong việc trích xuất kiến thức ngược (xem Hình 6). Tuy nhiên, vì chúng tôi không thể xác định tập huấn luyện của GPT3.5/4 nên điều này không chứng tỏ rằng tất cả các mô hình ngôn ngữ đều gặp phải vấn đề này.
*Hình 6: So sánh tìm kiếm kiến thức tiến/ngược của GPT3.5/4. Tác phẩm "đảo ngược lời nguyền" (arxiv 2309.12288) mà chúng tôi đã báo cáo vài ngày trước cũng đã quan sát thấy điều này trên các mô hình lớn hiện có. *
Tác giả đã sử dụng bộ dữ liệu tiểu sử nói trên để tiến hành thử nghiệm có kiểm soát chuyên sâu hơn về khả năng tìm kiếm kiến thức ngược của mô hình. Vì tên của tất cả các tiểu sử đều ở đầu đoạn văn nên tác giả đã thiết kế 10 bài toán trích xuất thông tin ngược như:
"Xin vui lòng cho tôi biết tên của một người sinh ngày 2 tháng 10 năm 1996 tại Princeton, NJ?"
"Xin vui lòng cho tôi biết tên của một người học Truyền thông tại MIT, sinh ngày 2 tháng 10 năm 1996 tại Princeton, NJ và làm việc tại Meta Platforms ở Menlo Park, CA?"
Hình 7: Thử nghiệm có kiểm soát trên tập dữ liệu tiểu sử người nổi tiếng
Tác giả xác minh rằng mặc dù mô hình đạt được khả năng nén kiến thức không mất dữ liệu và nâng cao kiến thức đầy đủ, đồng thời có thể trích xuất kiến thức này gần như chính xác 100% nhưng sau khi tinh chỉnh, mô hình vẫn không thể thực hiện tìm kiếm ngược kiến thức và độ chính xác gần như bằng 0 ( xem Hình 7). Tuy nhiên, một khi kiến thức ngược xuất hiện trực tiếp trong tập huấn luyện trước, độ chính xác của tìm kiếm ngược ngay lập tức tăng vọt.
Tóm lại, chỉ khi kiến thức nghịch đảo được đưa trực tiếp vào dữ liệu pretrain thì mô hình mới có thể trả lời câu hỏi nghịch đảo thông qua tinh chỉnh - nhưng điều này thực chất là gian lận, vì nếu kiến thức đã bị đảo ngược thì nó không còn là "Kiến thức ngược" Tìm kiếm". Nếu tập huấn luyện trước chỉ chứa kiến thức chuyển tiếp thì mô hình không thể làm chủ được khả năng trả lời câu hỏi ngược thông qua tinh chỉnh. Vì vậy, việc sử dụng các mô hình ngôn ngữ để lập chỉ mục tri thức (cơ sở dữ liệu tri thức) hiện nay dường như là không thể. **
Ngoài ra, một số người có thể cho rằng thất bại của việc “tìm kiếm kiến thức ngược” nói trên có thể là do tính chất một chiều của các mô hình ngôn ngữ tự hồi quy như GPT. Nhưng trên thực tế, các mô hình ngôn ngữ hai chiều như BERT hoạt động kém hơn trong việc trích xuất kiến thức và thậm chí thất bại trong việc trích xuất tiến. Bạn đọc quan tâm có thể tham khảo chi tiết bài viết.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Mô hình ngôn ngữ có những sai sót lớn và việc suy diễn kiến thức hóa ra là một vấn đề tồn tại từ lâu
Vận dụng kiến thức một cách linh hoạt là chìa khóa của trí tuệ. Bộ não con người có thể xử lý kiến thức một cách nhanh chóng, chẳng hạn như trả lời nhanh "Có bao nhiêu từ trong"Suy nghĩ trong đêm yên tĩnh"". Vì vậy, các hoạt động tương tự có thể được thực hiện trên các mô hình lớn? Được biết, các mô hình lớn trước tiên có thể viết thầm "Suy nghĩ trong đêm yên tĩnh" thông qua Chuỗi suy nghĩ (CoT), sau đó trả lời các câu hỏi dựa trên nội dung viết, nhưng điều này sẽ khiến văn bản được tạo ra dài dòng. Ngược lại, con người có thể hoàn thành việc suy luận kiến thức đơn giản trong não mà không cần viết ra các bước trung gian. Vì vậy, liệu một mô hình ngôn ngữ rất lớn có thể tạo ra câu trả lời trực tiếp trong bộ não nhân tạo của nó mà không cần phải ghi lại các điểm kiến thức trước không?
**Câu trả lời hóa ra là không! Hình 1/2/3 hiển thị nhiều phản ví dụ về GPT4. Ngay cả việc phân loại cơ bản nhất (chẳng hạn như xác định ngày sinh tương đương của một người nổi tiếng) và so sánh (chẳng hạn như so sánh ngày sinh của hai tổng thống) cũng cần phải thông qua Chuỗi Tư duy. Tệ hơn nữa, các mô hình lớn gần như không thể trích xuất ngược kiến thức từ tập huấn luyện. **
Nghiên cứu mới nhất “Vật lý mô hình ngôn ngữ Phần 3.2: Thao tác kiến thức” của Zhu Zeyuan (MetaAI) và Li Yuanzhi (MBZUAI) tập trung vào các vấn đề trên.
Trước tiên cho phép tôi hỏi một câu, đối với các vấn đề như Hình 1/2/3, có phải là do GPT4 không nhớ đủ chính xác ngày sinh nhật của mọi người (tỷ lệ nén không đủ và tổn thất huấn luyện không đủ thấp), hay là do không thể hiểu sâu hơn về tính chẵn lẻ thông qua việc tinh chỉnh? Có thể tinh chỉnh GPT4 để nó có thể kết hợp kiến thức hiện có trong mô hình nhằm tạo ra kiến thức mới như “sự ngang bằng ngày sinh”, từ đó trả lời trực tiếp các câu hỏi liên quan mà không cần dựa vào CoT? Vì chúng tôi không biết tập dữ liệu huấn luyện của GPT4 nên chúng tôi không thể tinh chỉnh nó. Vì vậy, tác giả đề xuất sử dụng tập huấn luyện điều khiển được để nghiên cứu sâu hơn về khả năng “suy diễn tri thức” của các mô hình ngôn ngữ.
Trong “Vật lý mô hình ngôn ngữ Phần 3.1: Lưu trữ và truy xuất kiến thức”, tác giả đã tạo bộ dữ liệu chứa 100k tiểu sử. Mỗi tiểu sử bao gồm tên của một người và sáu thuộc tính: ngày sinh, nơi sinh, chuyên ngành đại học, tên trường đại học, nơi làm việc và đơn vị công việc. Ví dụ:
「Anya Briar Forger có nguồn gốc từ Princeton, NJ. Cô dành riêng việc học của mình cho Truyền thông. Cô đã có được kinh nghiệm làm việc ở Menlo Park, CA. Cô đã phát triển sự nghiệp của mình tại Meta Platforms. Cô ấy đến thế giới này vào ngày 2 tháng 10 năm 1996. Cô ấy theo đuổi khóa học nâng cao tại MIT.」
Các tác giả đảm bảo sự đa dạng của các mục tiểu sử để giúp mô hình tiếp cận kiến thức tốt hơn. Sau khi huấn luyện trước, mô hình có thể trả lời chính xác các câu hỏi khai thác kiến thức như “Khi nào là sinh nhật của Anya” thông qua tinh chỉnh (tỷ lệ chính xác gần 100%)
Tiếp theo, tác giả tiếp tục tinh chỉnh, cố gắng làm cho mô hình học các bài toán suy luận kiến thức như phân loại/so sánh/cộng, trừ kiến thức. Bài viết nhận thấy các mô hình ngôn ngữ tự nhiên có khả năng diễn giải kiến thức rất hạn chế và rất khó để tạo ra kiến thức mới thông qua việc tinh chỉnh, ngay cả khi chúng chỉ là những phép biến đổi/kết hợp đơn giản của những kiến thức đã được mô hình làm chủ. **
Như trong Hình 5, tác giả nhận thấy rằng mặc dù mô hình có thể trả lời chính xác ngày sinh của mọi người sau khi đào tạo trước (tỷ lệ chính xác gần 100%), nhưng cần phải tinh chỉnh để trả lời "Tháng sinh của xxx có phải là số chẵn không?" và đạt được Tỷ lệ chính xác 75% - đừng quên rằng đoán mù có tỷ lệ chính xác 50% - yêu cầu ít nhất 10.000 mẫu tinh chỉnh. Để so sánh, nếu mô hình có thể hoàn thành chính xác sự kết hợp kiến thức giữa "sinh nhật" và "chẵn lẻ", thì theo lý thuyết học máy truyền thống, mô hình chỉ cần học cách phân loại trong 12 tháng và thường khoảng 100 mẫu là đủ!
Tương tự, sau khi đào tạo trước, mô hình có thể trả lời chính xác chuyên ngành của mỗi người (tổng cộng 100 chuyên ngành khác nhau), nhưng ngay cả khi sử dụng 50.000 mẫu tinh chỉnh để so sánh “Cái nào tốt hơn, chuyên ngành của Anya hay chuyên ngành của Sabrina”, độ chính xác tỷ lệ chỉ là 53,9%, gần như là đoán mò.
Tuy nhiên, khi chúng tôi sử dụng tính năng tinh chỉnh CoT để cho mô hình học các câu như "Tháng sinh của Anya là tháng 10 nên là số chẵn", độ chính xác của mô hình trong việc đánh giá tính chẵn lẻ của tháng sinh trên bộ kiểm tra được cải thiện rất nhiều (xem "sử dụng thử nghiệm" trong cột Hình 5 CoT").
Tác giả cũng đã cố gắng kết hợp các phản hồi CoT và không CoT trong dữ liệu huấn luyện tinh chỉnh và nhận thấy rằng độ chính xác của mô hình khi không sử dụng CoT trên bộ kiểm tra vẫn rất thấp (xem cột "kiểm tra không có CoT" trong Hình 5). Điều này cho thấy ngay cả khi thêm đủ dữ liệu tinh chỉnh CoT, mô hình vẫn không thể học cách “nghĩ trong đầu” và trực tiếp báo cáo câu trả lời.
Những kết quả này cho thấy các mô hình ngôn ngữ thực hiện các phép toán tri thức đơn giản là vô cùng khó khăn! Mô hình trước tiên phải ghi lại các điểm kiến thức rồi thực hiện tính toán, nó không thể được vận hành trực tiếp trong não như con người, dù có tinh chỉnh đầy đủ cũng không giúp ích được gì. **
Thử thách tìm kiếm kiến thức ngược
Bài báo cũng nhận thấy các mô hình ngôn ngữ tự nhiên không thể tìm kiếm ngược lại các kiến thức đã học. Mặc dù nó có thể trả lời tất cả thông tin về một người nhưng nó không thể xác định tên người đó dựa trên thông tin này.
Đối với phân loại/so sánh kiến thức, tác giả đã tiến hành thử nghiệm trên GPT3.5/4 và nhận thấy rằng chúng hoạt động kém trong việc trích xuất kiến thức ngược (xem Hình 6). Tuy nhiên, vì chúng tôi không thể xác định tập huấn luyện của GPT3.5/4 nên điều này không chứng tỏ rằng tất cả các mô hình ngôn ngữ đều gặp phải vấn đề này.
Tác giả đã sử dụng bộ dữ liệu tiểu sử nói trên để tiến hành thử nghiệm có kiểm soát chuyên sâu hơn về khả năng tìm kiếm kiến thức ngược của mô hình. Vì tên của tất cả các tiểu sử đều ở đầu đoạn văn nên tác giả đã thiết kế 10 bài toán trích xuất thông tin ngược như:
"Xin vui lòng cho tôi biết tên của một người sinh ngày 2 tháng 10 năm 1996 tại Princeton, NJ?"
"Xin vui lòng cho tôi biết tên của một người học Truyền thông tại MIT, sinh ngày 2 tháng 10 năm 1996 tại Princeton, NJ và làm việc tại Meta Platforms ở Menlo Park, CA?"
Tác giả xác minh rằng mặc dù mô hình đạt được khả năng nén kiến thức không mất dữ liệu và nâng cao kiến thức đầy đủ, đồng thời có thể trích xuất kiến thức này gần như chính xác 100% nhưng sau khi tinh chỉnh, mô hình vẫn không thể thực hiện tìm kiếm ngược kiến thức và độ chính xác gần như bằng 0 ( xem Hình 7). Tuy nhiên, một khi kiến thức ngược xuất hiện trực tiếp trong tập huấn luyện trước, độ chính xác của tìm kiếm ngược ngay lập tức tăng vọt.
Tóm lại, chỉ khi kiến thức nghịch đảo được đưa trực tiếp vào dữ liệu pretrain thì mô hình mới có thể trả lời câu hỏi nghịch đảo thông qua tinh chỉnh - nhưng điều này thực chất là gian lận, vì nếu kiến thức đã bị đảo ngược thì nó không còn là "Kiến thức ngược" Tìm kiếm". Nếu tập huấn luyện trước chỉ chứa kiến thức chuyển tiếp thì mô hình không thể làm chủ được khả năng trả lời câu hỏi ngược thông qua tinh chỉnh. Vì vậy, việc sử dụng các mô hình ngôn ngữ để lập chỉ mục tri thức (cơ sở dữ liệu tri thức) hiện nay dường như là không thể. **
Ngoài ra, một số người có thể cho rằng thất bại của việc “tìm kiếm kiến thức ngược” nói trên có thể là do tính chất một chiều của các mô hình ngôn ngữ tự hồi quy như GPT. Nhưng trên thực tế, các mô hình ngôn ngữ hai chiều như BERT hoạt động kém hơn trong việc trích xuất kiến thức và thậm chí thất bại trong việc trích xuất tiến. Bạn đọc quan tâm có thể tham khảo chi tiết bài viết.