Đọc thuộc lòng không có nghĩa là hiểu, phân tích sâu về việc lưu trữ, rút trích kiến thức đằng sau những mô hình lớn

2023-09-28 06:39:47

Nguồn: Trái tim của cỗ máy

Khi kích thước của mô hình tăng lên, mọi người bắt đầu khám phá xem các mô hình lớn có thể nắm vững một lượng lớn kiến thức như thế nào. Một quan điểm cho rằng điều này là do "nén không mất dữ liệu", tức là mô hình trải qua quá trình đào tạo chuyên sâu và ghi nhớ nhiều nội dung hơn để cải thiện độ chính xác của dự đoán. Nhưng liệu "nén không mất dữ liệu" có thực sự cho phép các mô hình lớn hiểu được kiến thức này? Nghiên cứu mới nhất "Vật lý mô hình ngôn ngữ Phần 3.1: Lưu trữ và truy xuất kiến thức" của Zhu Zeyuan (MetaAI) và Li Yuanzhi (MBZUAI) khám phá sâu vấn đề này.

Địa chỉ giấy:

Đối với con người có câu “đọc sách trăm lần, ý nghĩa tự nó sẽ hiện ra”. Tuy câu này không áp dụng cho tất cả các kiến thức nhưng đối với những kiến thức đơn giản, chỉ cần nhớ được những cuốn sách liên quan là chúng ta có thể dễ dàng trả lời những câu hỏi liên quan. Ví dụ, chỉ cần nhớ bài thơ cổ “Suy nghĩ đêm tĩnh lặng”, chúng ta có thể dễ dàng trả lời “Ánh trăng so với bài thơ nào?”; chỉ cần nhớ đoạn văn “Chu Shi Biao/Nền tảng sáng tạo” trong Bách khoa toàn thư Baidu, chúng ta có thể dễ dàng trả lời "Chu Shi Biao" Được tạo ra từ khi nào?". Vì vậy, các mô hình lớn hơn có thể làm được điều tương tự?

Hình 1: Một số ví dụ trích xuất tri thức bằng GPT-4 (hình bên trái là ChatGPT, hình bên phải là API)

Mặc dù GPT-4 có thể hiểu và lặp lại các đoạn văn liên quan đến câu hỏi nhưng tại sao nó lại không thể trả lời được những câu hỏi đơn giản như con người? Là do mô hình không đủ lớn, bộ nhớ không đủ hoặc việc tinh chỉnh sau khi huấn luyện chưa đủ? không! Bài báo chỉ ra rằng ngay cả khi một mô hình ngôn ngữ tự nhiên đủ lớn, được đào tạo đủ lâu và được tinh chỉnh đủ lâu thì nó vẫn có thể không trả lời được những câu hỏi mà con người cho là đơn giản. Lý do cơ bản cho điều này liên quan đến cách trình bày kiến thức trong dữ liệu huấn luyện trước. Cùng một kiến thức cần xuất hiện nhiều lần trong tập dữ liệu tiền huấn luyện và có đủ “đa dạng” để dễ dàng trích xuất hơn sau khi tinh chỉnh.

Để xác nhận điều này, hai tác giả đã tạo ra một tập dữ liệu chứa 100k tiểu sử, mỗi nhân vật có một mục tiểu sử chứa tên người và 6 thuộc tính cố định: ngày sinh, nơi sinh, chuyên ngành đại học, tên trường đại học, địa điểm làm việc, nhà tuyển dụng. Họ thiết kế 2 bộ dữ liệu BioS và BioR, mỗi câu BioS được chọn lọc từ 50 mẫu cố định và BioR được viết lại bằng LLaMA-30B để sát thực tế và đa dạng hơn. Kết quả của hai bộ dữ liệu là nhất quán. Lấy BioS làm ví dụ, một mục nhập mẫu được hiển thị bên dưới:

Anya Briar Forger sinh ngày 2 tháng 10 năm 1996. Cô trải qua những năm đầu đời ở Princeton, NJ. Cô nhận được sự cố vấn và hướng dẫn từ các giảng viên tại MIT. Cô đã hoàn thành chương trình học tập của mình với trọng tâm là Truyền thông. Cô ấy đã có một vai trò chuyên nghiệp tại Meta Platforms. Cô đã làm việc tại Menlo Park, CA.

Hình 2

Ngay cả khi một mô hình ngôn ngữ tự nhiên được đào tạo trước (pretrain) một cách hoàn hảo trên 100k cuốn tự truyện cá nhân, nó sẽ không thể trả lời chính xác câu hỏi “Anya học trường nào để học đại học” thông qua tinh chỉnh QA (finetuning). Như được hiển thị trong Hình 2, ngay cả khi 50 nghìn người được sử dụng làm dữ liệu đào tạo tinh chỉnh QA và thử các phương pháp tinh chỉnh khác nhau, bao gồm LoRA, độ chính xác của mô hình trên 50 nghìn người còn lại chỉ là 10%. Mặc dù mô hình 682M (lớn hơn 7000 lần so với số người) đã được sử dụng và đào tạo 1350 lần, thậm chí tác giả còn bổ sung thêm dữ liệu đào tạo trước NLP tiêu chuẩn như WikiBook nhưng tỷ lệ chính xác vẫn không được cải thiện. Có thể thấy, “với sức mạnh lớn lao, phép lạ” đã không xảy ra.

Do đó, các mô hình lớn không nhất thiết phải nắm bắt hoặc trích xuất kiến thức về “nén không mất dữ liệu”. Vậy GPT-4 làm chủ kiến thức như thế nào? Để nghiên cứu vấn đề này, hai tác giả đã thực hiện thay đổi tập pre-training - các tác giả gọi đó là nâng cao kiến thức:

Đa dạng - multiM: Tạo M mục tiểu sử cho mỗi người, sử dụng các ngôn ngữ tường thuật khác nhau nhưng vẫn giữ nguyên thông tin (có tổng cộng 100 cách tường thuật cho mỗi câu và mỗi câu của mỗi tiểu sử chọn một trong số đó)
Sắp xếp ngẫu nhiên – hoán vị: Sắp xếp ngẫu nhiên các câu tiểu sử
Full name – fullname: Thay toàn bộ đại từ, họ, tên trong tiểu sử bằng họ và tên

Các tác giả gọi tập dữ liệu ban đầu là bioS là đơn lẻ và thử nghiệm 15 tổ hợp nâng cao kiến thức. Ví dụ: bioS multi5+permute có nghĩa là mỗi người có 5 tiểu sử và trật tự từ bị xáo trộn. Đây là một ví dụ về bioS multi5+permute:

Anya Briar Forger có nguồn gốc từ Princeton, NJ. Cô dành riêng việc học của mình cho Truyền thông. Cô đã có được kinh nghiệm làm việc ở Menlo Park, CA. Cô đã phát triển sự nghiệp của mình tại Meta Platforms. Cô đến thế giới này vào ngày 2 tháng 10 năm 1996. Cô theo đuổi khóa học nâng cao tại MIT.

Đối với cả con người và mô hình lớn, hãy nhớ rằng bioS single và bioS multi5+permutate đều khó như nhau (chúng có cùng lượng thông tin và mỗi câu được chọn từ 50 mẫu). Vì vậy, nếu quá trình đào tạo trước được thực hiện trên tập dữ liệu nâng cao kiến thức mới này và sau đó QA được tinh chỉnh, liệu sẽ có hiệu suất mới nào không?

hình 3

Hình 3 cho thấy tỷ lệ chính xác QA của mô hình được đào tạo trước bioS đơn chỉ là 9,7%, trong khi tỷ lệ chính xác của mô hình được đào tạo trước bioS multi5+permute cao tới 96,6%. Sự cải thiện đáng kể này không liên quan gì đến việc tinh chỉnh mô hình, kích thước hoặc thời gian huấn luyện, mà liên quan đến cách trình bày kiến thức trong quá trình huấn luyện trước, tức là cách kiến thức được mô hình lớn “đọc lại”.

Nghiên cứu cũng cho thấy bằng cách chia tiểu sử thành những người nổi tiếng và nhóm thiểu số, miễn là tiểu sử của người nổi tiếng có sự nâng cao kiến thức, ngay cả khi nhóm thiểu số không làm như vậy thì độ chính xác của việc trích xuất kiến thức của mô hình đối với nhóm thiểu số sẽ được cải thiện rất nhiều - tất nhiên , tốt nhất Hiệu quả vẫn đòi hỏi phải nâng cao kiến thức về tất cả dữ liệu.

Hình 4: Đơn giản bằng cách tăng tính đa dạng của dữ liệu đào tạo cho những người nổi tiếng, độ chính xác của việc khai thác kiến thức cho các nhóm thiểu số sẽ tăng vọt

Vậy tại sao khả năng trả lời câu hỏi của mô hình lại thay đổi rất nhiều sau khi đọc các dữ liệu khác nhau? Tại sao việc đọc lại tiểu sử của những người nổi tiếng có thể nâng cao khả năng khai thác kiến thức của các nhóm thiểu số? Lý do là các mô hình áp dụng các phương pháp bộ nhớ khác nhau.

Tác giả đi sâu tìm hiểu nguyên lý kiến thức trí nhớ của mô hình thông qua hai lần thăm dò tuyến tính. Hãy xem xét một phương pháp gọi là P-probing.

Trong P-probe, chúng tôi nhập các mục tiểu sử vào mô hình được đào tạo trước và huấn luyện bộ phân loại tuyến tính để dự đoán sáu thuộc tính mục tiêu (chẳng hạn như trường đại học, chuyên ngành, v.v.). Chúng tôi muốn xem liệu mô hình có thể trích xuất thông tin này sớm hơn các thuộc tính hay không. Nếu trình phân loại hiển thị độ chính xác cao cho "đơn vị công việc" ngay sau tên của người đó, điều đó có nghĩa là mô hình đã trực tiếp học được "Chủ nhân của Anya là Meta". Nếu chỉ đạt được độ chính xác cao ở phần cuối của tiểu sử, có thể mô hình sử dụng phương pháp ghi nhớ có sai sót, chẳng hạn như "sinh nhật của ai đó là ngày 2 tháng 10 năm 1996, trường đại học là MIT, nên người tuyển dụng là Meta".

Thiết kế thử nghiệm cho đầu dò P như sau. Tìm các vị trí trong mỗi tiểu sử nơi 6 thuộc tính xuất hiện lần đầu tiên, sau đó huấn luyện bộ phân loại tuyến tính để dự đoán từng thuộc tính mục tiêu tại vị trí ngay trước các vị trí này. Điều này dẫn đến 36 nhiệm vụ phân loại.

*Hình 5: Kết quả kiểm tra thăm dò P cho thấy rằng việc nâng cao kiến thức của tập dữ liệu tiền đào tạo khiến kiến thức được lưu trữ ở các vị trí trước đó và một số thậm chí còn được lưu trữ trực tiếp trên tên của mọi người. Việc mô hình có thể trả lời các câu hỏi thông qua tinh chỉnh hay không có liên quan đến việc thông tin có được lưu trữ trực tiếp trên tên của người đó trong quá trình đào tạo trước hay không (so sánh Hình 3 và Hình 5). *

Kết quả kiểm tra P-probe cho thấy mô hình ngôn ngữ tự nhiên có thể ghi nhớ thông tin thông qua tên của mọi người để đạt được sự nén trong quá trình đào tạo trước và cũng có thể sử dụng các thông tin khác (chẳng hạn như "Đơn vị công việc của một người đã học tại MIT và có sinh nhật là ngày 2 tháng 10 năm 1996 là ...") ký ức. Mặc dù phương pháp ghi nhớ thứ hai là “không tự nhiên” đối với con người nhưng tỷ lệ nén của hai phương pháp này đối với mô hình là như nhau. Nếu mô hình sử dụng phương pháp thứ hai để ghi nhớ thông tin, nó sẽ không thể trả lời các câu hỏi thông qua việc tinh chỉnh sau khi đào tạo. Thông qua việc nâng cao kiến thức, người mẫu được huấn luyện trước sẽ dần dần có xu hướng học cách sử dụng phương pháp ghi nhớ đầu tiên.

Người ta có thể lập luận rằng thất bại trong việc “trích xuất tri thức” nói trên có thể là do tính chất một chiều của các mô hình ngôn ngữ tự hồi quy như GPT. Trên thực tế, các mô hình ngôn ngữ hai chiều như BERT thậm chí còn kém hơn trong việc trích xuất kiến thức, chỉ có thể lưu trữ kiến thức nhiều cụm từ như “Meta Platform” chứ không thể trích xuất được. Bạn đọc quan tâm có thể tham khảo Chương 6 của bài viết.

Nhìn chung, việc mô hình ngôn ngữ có trả lời được câu hỏi “trích xuất tri thức” không chỉ phụ thuộc vào “nén không mất dữ liệu” mà còn phụ thuộc vào “cách nén trong mô hình”. Bài viết nhấn mạnh cần nâng cao kiến thức về dữ liệu quan trọng nhưng hiếm trong quá trình đào tạo trước (chẳng hạn như sử dụng ChatGPT để viết lại nhiều lần). Nếu không có bước này, dù bạn có tinh chỉnh kỹ càng đến đâu, mặc dù mô hình được huấn luyện trước đã nén dữ liệu huấn luyện một cách không mất mát nhưng vẫn có thể không trích xuất được kiến thức đó!

Phần kết luận

Làm thế nào để hiểu mô hình ngôn ngữ tự nhiên hoạt động như thế nào? Hầu hết các nhà nghiên cứu đều suy đoán về khả năng của nó bằng cách nói chuyện với các mô hình như GPT-4. Tuy nhiên, tác giả loạt bài “Vật lý mô hình ngôn ngữ” đã đề xuất một phương pháp chính xác hơn để khám phá cơ chế bên trong của Transformer và giải thích khả năng xử lý các nhiệm vụ AI của nó thông qua dữ liệu huấn luyện được thiết kế cẩn thận và các thí nghiệm được kiểm soát.

Trong “Phần 3.1: Lưu trữ và trích xuất kiến thức”, tác giả đã kiểm tra chính xác phản ứng của mô hình với các dữ liệu khác nhau và tìm ra mối quan hệ chính xác giữa kiến thức, khả năng học tập của mô hình và dữ liệu đào tạo.

Họ cũng phát hành "Phần 3.2: Vận hành tri thức" để nghiên cứu sâu hơn về cách mô hình vận hành tri thức trong các tình huống cụ thể. Ví dụ: nếu mô hình lớn nhớ “Suy nghĩ đêm vắng”, có thể tinh chỉnh để suy ra câu cuối cùng của “Suy nghĩ đêm vắng” là “Cúi đầu nhớ quê hương”? Chúng tôi sẽ sớm mang đến cho bạn các báo cáo tiếp theo.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
1/3
1Simple Earn Annual Rate 24.4%
43k Phổ biến
2Gate Launchpad List IKA
46k Phổ biến
3ETH Trading Volume Surges
46k Phổ biến
4Gate ETH 10th Anniversary Celebration
22k Phổ biến
5Trump’s AI Strategy
18k Phổ biến

Ghim

sơ đồ trang web