Sao mô hình lớn chậm thế, hóa ra mình nghĩ nhiều quá: hướng đi mới là thuật toán tư duy giống con người

Nguồn hình ảnh: Được tạo bởi AI không giới hạn

Trực giác của con người là một khả năng thường bị các nhà nghiên cứu AI bỏ qua nhưng nó tinh tế đến mức ngay cả chính chúng ta cũng không hiểu hết về nó. Một nhóm nghiên cứu từ Virginia Tech và Microsoft đã đề xuất Thuật toán tư duy (AoT) trong một bài báo gần đây, kết hợp trực giác và tính trật tự của các phương pháp thuật toán để tiết kiệm đáng kể chi phí trong khi vẫn đảm bảo hiệu suất LLM.

Các mô hình ngôn ngữ quy mô lớn gần đây đang phát triển với tốc độ nhanh chóng, thể hiện khả năng vượt trội trong việc giải quyết các vấn đề chung, tạo mã và làm theo hướng dẫn.

Trong khi các mô hình ban đầu dựa vào chiến lược trả lời trực tiếp, nghiên cứu hiện tại đã chuyển sang con đường suy luận tuyến tính bằng cách phân tách vấn đề thành các nhiệm vụ phụ để khám phá giải pháp hoặc bằng cách sửa đổi bối cảnh để khai thác các cơ chế bên ngoài nhằm thay đổi việc tạo mã thông báo.

Tương tự như nhận thức của con người, các chiến lược LLM ban đầu dường như bắt chước 1 ngay lập tức (phản ứng nhanh), đặc trưng bởi việc ra quyết định bốc đồng. Ngược lại, các phương pháp mới hơn như Chuỗi suy nghĩ (CoT) và từ tối thiểu đến tối đa (L2M) phản ánh bản chất nội tâm của 2 (suy nghĩ chậm). Điều đáng chú ý là khả năng suy luận số học của LLM có thể được cải thiện bằng cách tích hợp các bước suy luận trung gian.

Tuy nhiên, nếu nhiệm vụ đòi hỏi phải lập kế hoạch sâu hơn và khám phá tinh thần rộng hơn thì những hạn chế của những phương pháp này sẽ trở nên rõ ràng. Mặc dù CoT tự nhất quán tích hợp (CoT-SC) có thể sử dụng nhiều đầu ra LLM để đạt được kết quả đồng thuận, việc thiếu đánh giá chi tiết có thể khiến mô hình đi sai hướng. Cây tư duy (ToT) nổi lên vào năm 2023 là một giải pháp đáng chú ý. Một LLM được sử dụng để tạo ra các ý tưởng và một LLM khác được sử dụng để đánh giá giá trị của những ý tưởng này, sau đó là chu trình "tạm dừng-đánh giá-tiếp tục". Quá trình lặp lại dựa trên tìm kiếm dạng cây này rõ ràng có hiệu quả, đặc biệt đối với các nhiệm vụ có thời gian tiếp tục dài. Các nhà nghiên cứu tin rằng sự phát triển này là việc sử dụng các công cụ bên ngoài để nâng cao LLM, tương tự như việc con người sử dụng các công cụ để vượt qua những hạn chế về trí nhớ làm việc của chính họ.

Mặt khác, phương pháp LLM nâng cao này không phải là không có thiếu sót. Một nhược điểm rõ ràng là số lượng truy vấn và yêu cầu tính toán có thể tăng vọt. Mỗi truy vấn tới API LLM trực tuyến như GPT-4 đều phát sinh chi phí tài chính đáng kể và tăng độ trễ, một hạn chế đặc biệt quan trọng đối với các ứng dụng thời gian thực. Độ trễ tích lũy của các truy vấn này có thể gây tổn hại đến hiệu quả tổng thể của kịch bản. Các tương tác liên tục, khôn ngoan về cơ sở hạ tầng có thể gây căng thẳng cho hệ thống, điều này có thể hạn chế băng thông và giảm tính khả dụng của mô hình. Ngoài ra, không thể bỏ qua tác động đến môi trường. Các truy vấn liên tục sẽ làm tăng mức tiêu thụ năng lượng của trung tâm dữ liệu vốn đã tiêu tốn nhiều năng lượng, đồng thời làm tăng thêm lượng khí thải carbon.

Dựa trên những cân nhắc này, mục tiêu tối ưu hóa của các nhà nghiên cứu là giảm đáng kể số lượng truy vấn được sử dụng bởi các phương pháp suy luận đa truy vấn hiện tại, đồng thời duy trì hiệu suất đủ để cho phép mô hình xử lý các nhiệm vụ đòi hỏi phải sử dụng thành thạo kiến thức thế giới, từ đó hướng dẫn mọi người. có trách nhiệm và thành thạo hơn.Sử dụng tài nguyên AI một cách hiệu quả.

Khi nghĩ về sự phát triển của LLM từ 1 lên 2, người ta có thể thấy một yếu tố quan trọng đang nổi lên: thuật toán. Các thuật toán được cấu trúc và cung cấp cách giúp mọi người khám phá các không gian vấn đề, phát triển chiến lược và xây dựng giải pháp. Mặc dù phần lớn tài liệu chính thống coi thuật toán là công cụ bên ngoài của LLM, nhưng khi xem xét khả năng tái tạo tổng quát vốn có của LLM, liệu chúng ta có thể hướng dẫn logic lặp này để nội hóa thuật toán thành LLM không?

Một nhóm nghiên cứu tại Virginia Tech và Microsoft đã tập hợp sự phức tạp trong lý luận của con người và độ chính xác về mặt phương pháp của các phương pháp thuật toán nhằm cố gắng nâng cao khả năng lý luận trong LLM bằng cách hợp nhất hai khía cạnh.

Nghiên cứu hiện tại nhấn mạnh rằng con người có bản năng rút ra những kinh nghiệm trong quá khứ khi giải quyết các vấn đề phức tạp để đảm bảo rằng họ suy nghĩ một cách tổng thể thay vì tập trung hạn hẹp vào một chi tiết. Phạm vi tạo LLM chỉ bị giới hạn bởi giới hạn mã thông báo của nó và dường như nó đã được định sẵn để vượt qua những trở ngại trong trí nhớ làm việc của con người.

Lấy cảm hứng từ quan sát này, các nhà nghiên cứu đã khám phá liệu LLM có thể cho phép khám phá các ý tưởng theo cấp bậc tương tự hay không, lọc ra các lựa chọn không khả thi bằng cách tham khảo các bước trung gian trước đó — tất cả đều nằm trong chu trình tạo ra LLM. Trong khi con người giỏi về trực giác và sự nhạy bén thì thuật toán lại giỏi khám phá có tổ chức và có hệ thống. Các công nghệ hiện tại như CoT có xu hướng né tránh tiềm năng tổng hợp này và tập trung quá nhiều vào độ chính xác hiện trường của LLM. Bằng cách khai thác khả năng đệ quy của LLM, các nhà nghiên cứu đã xây dựng một phương pháp kết hợp giữa thuật toán và con người. Điều này được thực hiện thông qua việc sử dụng các ví dụ thuật toán nắm bắt được bản chất của việc khám phá—từ các giải pháp ban đầu cho đến các giải pháp đã được chứng minh.

Dựa trên những quan sát này, các nhà nghiên cứu đã đề xuất Thuật toán suy nghĩ (AoT).

giấy:

Ở quy mô rộng hơn, cách tiếp cận mới này được kỳ vọng sẽ mở ra một mô hình mới về học tập theo ngữ cảnh. Thay vì sử dụng mô hình học có giám sát truyền thống gồm [câu hỏi, câu trả lời] hoặc [câu hỏi, các bước tiếp theo để có được câu trả lời], phương pháp mới này áp dụng mô hình mới [câu hỏi, quy trình tìm kiếm, câu trả lời]. Đương nhiên, khi chúng tôi yêu cầu LLM sử dụng thuật toán thông qua các hướng dẫn, chúng tôi thường mong đợi rằng LLM sẽ chỉ bắt chước tư duy lặp lại của thuật toán. Tuy nhiên, điều thú vị là LLM có khả năng đưa vào "trực giác" của riêng mình, thậm chí khiến việc tìm kiếm của nó hiệu quả hơn chính thuật toán.

Thuật toán tư duy

Các nhà nghiên cứu nói rằng cốt lõi của chiến lược nghiên cứu của họ là nhận ra những thiếu sót cốt lõi của mô hình học tập theo ngữ cảnh hiện tại. Mặc dù CoT có thể cải thiện tính nhất quán của các kết nối tinh thần nhưng đôi khi nó có thể sai sót và đưa ra các bước trung gian sai.

Để minh họa hiện tượng này, các nhà nghiên cứu đã thiết kế một thí nghiệm. Khi truy vấn text-davinci-003 bằng một tác vụ số học (chẳng hạn như 11 − 2 =), nhà nghiên cứu sẽ thêm nhiều phương trình ngữ cảnh vào phía trước để nhận được cùng một kết quả đầu ra (chẳng hạn như 15 − 5 = 10, 8 + 2 = 10 ).

Người ta nhận thấy độ chính xác giảm nhanh chóng, cho thấy rằng chỉ cần đưa ra lý luận chính xác trong ngữ cảnh có thể vô tình làm giảm khả năng số học cơ bản của LLM.

Để giảm bớt sự thiên vị này, việc làm cho các ví dụ trở nên đa dạng hơn có thể là một giải pháp khả thi, nhưng điều này có thể thay đổi một chút sự phân bổ đầu ra. Chỉ cần thêm một vài lần thử không thành công (chẳng hạn như tìm kiếm ngẫu nhiên) có thể vô tình khuyến khích mô hình thử lại mà không thực sự giải quyết được vấn đề. Hiểu bản chất thực sự của hành vi thuật toán (trong đó các tìm kiếm thất bại và các lần khôi phục tiếp theo là quan trọng, cũng như học hỏi từ những nỗ lực này), cách các nhà nghiên cứu kết hợp các ví dụ theo ngữ cảnh là tuân theo mô hình của các thuật toán tìm kiếm, đặc biệt là tìm kiếm theo chiều sâu (DFS) và Tìm kiếm theo chiều rộng đầu tiên (BFS). Hình 1 đưa ra một ví dụ.

Bài viết này tập trung vào một lớp lớn các nhiệm vụ tương tự như các bài toán tìm kiếm cây.

Loại nhiệm vụ này yêu cầu chia nhỏ vấn đề chính, xây dựng giải pháp khả thi cho từng bộ phận và quyết định áp dụng hoặc từ bỏ các lộ trình nhất định, với tùy chọn đánh giá lại các bộ phận có tiềm năng lớn hơn.

Thay vì đưa ra các truy vấn riêng biệt cho từng tập hợp con, các nhà nghiên cứu đã tận dụng khả năng lặp lại của LLM để giải quyết chúng trong quá trình quét tổng quát thống nhất. Bằng cách giới hạn bản thân chỉ ở một hoặc hai tương tác LLM, cách tiếp cận này có thể tích hợp một cách tự nhiên những hiểu biết sâu sắc từ các ứng viên theo ngữ cảnh trước đó và giải quyết các vấn đề phức tạp đòi hỏi phải khám phá sâu về miền giải pháp. Các nhà nghiên cứu cũng đã đưa ra những hiểu biết sâu sắc của riêng họ về mức độ lớn của những suy nghĩ này và loại ví dụ theo ngữ cảnh nào nên được cung cấp cho LLM để cải thiện hiệu quả của mã thông báo. Các thành phần chính của thuật toán tìm kiếm cây và cách trình bày của chúng trong khung mới được đưa ra dưới đây.

**1. Phân tách nó thành các bài toán con. **Với một bài toán, việc xây dựng cây tìm kiếm mô tả các đường suy luận khả thi đã là một nhiệm vụ khó khăn, ngay cả khi không nhìn vào khía cạnh giải quyết bài toán thực tế. Bất kỳ sự phân rã nào cũng phải xem xét không chỉ mối quan hệ qua lại giữa các nhiệm vụ con mà còn phải xem xét khả năng giải quyết từng vấn đề một cách dễ dàng.

Lấy phép cộng nhiều chữ số đơn giản làm ví dụ: Mặc dù việc máy tính chuyển đổi các giá trị số thành số nhị phân là hiệu quả nhưng con người thường thấy số thập phân trực quan hơn. Hơn nữa, ngay cả khi các bài toán con giống nhau thì phương pháp thực hiện có thể khác nhau. Trực giác có thể tìm ra lối tắt giữa các bước để đưa ra giải pháp và nếu không có trực giác thì có thể cần phải thực hiện các bước chi tiết hơn.

Để tạo chính xác (tức là các ví dụ về thuật toán theo ngữ cảnh), những chi tiết này rất quan trọng và xác định số lượng mã thông báo tối thiểu mà LLM yêu cầu để có hiệu suất đáng tin cậy. Điều này không chỉ đáp ứng các ràng buộc của LLM về bối cảnh mà còn quan trọng đối với khả năng của LLM, vì chúng tôi hy vọng rằng LLM có thể sử dụng số lượng mã thông báo tương tự để giải quyết các vấn đề liên quan đến bối cảnh của nó.

**2. Đề xuất giải pháp cho vấn đề phụ. **Một trong những phương pháp phổ biến hiện nay liên quan đến việc lấy mẫu trực tiếp xác suất đầu ra của mã thông báo LLM. Mặc dù phương pháp này có hiệu quả đối với các câu trả lời một lần (với một số hạn chế nhất định), nhưng nó cũng không thể giải quyết được một số tình huống, chẳng hạn như khi chuỗi mẫu cần được tích hợp vào phần tiếp theo hoặc được đánh giá trong phần tiếp theo. Để giảm thiểu các truy vấn mô hình, các nhà nghiên cứu đã sử dụng quy trình tạo giải pháp không ngừng nghỉ. Nghĩa là, trực tiếp và liên tục tạo ra lời giải cho các bài toán con chính mà không có bất kỳ sự tạm dừng nào trong quá trình tạo.

Có rất nhiều lợi ích cho phương pháp này. Đầu tiên, tất cả các giải pháp được tạo đều nằm trong cùng một ngữ cảnh được chia sẻ, loại bỏ nhu cầu tạo các truy vấn mô hình riêng biệt để đánh giá từng giải pháp. Thứ hai, mặc dù lúc đầu nó có vẻ phản trực giác, nhưng các mã thông báo riêng biệt hoặc xác suất nhóm mã thông báo có thể không phải lúc nào cũng dẫn đến những lựa chọn có ý nghĩa. Hình 4 đưa ra một sơ đồ đơn giản.

**3. Đo lường triển vọng của các vấn đề phụ. **Như đã đề cập ở trên, các kỹ thuật hiện tại dựa vào các tín hiệu bổ sung để xác định tiềm năng của các nút cây nhằm giúp đưa ra quyết định về hướng khám phá. Quan sát của chúng tôi cho thấy rằng LLM vốn có xu hướng ưu tiên các ứng viên có triển vọng nếu họ có thể được gói gọn trong các ví dụ theo ngữ cảnh. Điều này làm giảm nhu cầu về kỹ thuật phức tạp và cho phép tích hợp các phương pháp phỏng đoán phức tạp, cho dù chúng là phương pháp trực quan hay dựa trên kiến thức. Tương tự như vậy, không có sự ngắt kết nối trong cách tiếp cận mới, điều này cho phép đánh giá ngay lập tức tính khả thi của ứng viên trong cùng các kết quả được tạo ra.

**4. Quay lại nút tốt hơn. **Việc quyết định nút nào sẽ khám phá tiếp theo (bao gồm cả việc quay lại các nút trước đó) về cơ bản phụ thuộc vào thuật toán tìm kiếm cây đã chọn. Mặc dù nghiên cứu trước đây đã sử dụng các phương pháp bên ngoài như cơ chế mã hóa cho quá trình tìm kiếm, nhưng điều này sẽ hạn chế sức hấp dẫn rộng hơn của nó và yêu cầu tùy chỉnh bổ sung. Thiết kế mới được đề xuất trong bài viết này chủ yếu áp dụng phương pháp DFS được bổ sung bằng cách cắt tỉa. Mục tiêu là duy trì sự gần gũi giữa các nút con có cùng nút cha, từ đó khuyến khích LLM ưu tiên các tính năng cục bộ hơn các tính năng từ xa. Ngoài ra, các nhà nghiên cứu cũng đề xuất các chỉ số hiệu suất của phương pháp AoT dựa trên BFS. Các nhà nghiên cứu nói rằng nhu cầu về các cơ chế tùy chỉnh bổ sung có thể được loại bỏ bằng cách tận dụng khả năng vốn có của mô hình để thu thập thông tin chuyên sâu từ các ví dụ theo ngữ cảnh.

cuộc thí nghiệm

Các nhà nghiên cứu đã tiến hành thử nghiệm trên các trò chơi ô chữ mini 24 điểm và 5x5, và kết quả cho thấy tính ưu việt của phương pháp AoT - hiệu suất của nó là do một phương pháp duy nhất (chẳng hạn như phương pháp tiêu chuẩn, CoT, CoT-SC), và nó cũng có thể so sánh với việc sử dụng các phương pháp cơ chế bên ngoài (chẳng hạn như ToT).

Rõ ràng trong Bảng 1 rằng phương pháp thiết kế tiêu chuẩn kết hợp CoT/CoT-SC rõ ràng tụt hậu so với phương pháp tìm kiếm cây được sử dụng thông qua LLM.

Bảng 3 nêu bật tính hiệu quả của AoT trong nhiệm vụ điền từ nhỏ, với tỷ lệ điền từ thành công vượt xa các phương pháp trước đó bằng cách sử dụng nhiều kỹ thuật khác nhau.

Tuy nhiên, nó còn tệ hơn ToT. Một quan sát quan trọng là khối lượng truy vấn được ToT sử dụng rất lớn, vượt quá AoT hơn một trăm lần. Một yếu tố khác khiến AoT thua kém ToT là khả năng quay lui vốn có trong các ví dụ về thuật toán chưa được kích hoạt đầy đủ. Nếu khả năng này có thể được mở khóa hoàn toàn, nó sẽ dẫn đến giai đoạn tạo dài hơn đáng kể. Ngược lại, ToT có ưu điểm là sử dụng bộ nhớ ngoài để quay lui.

bàn luận

AoT có thể vượt qua DFS mà nó mô phỏng không?

Như được hiển thị trong Hình 5, AoT sử dụng ít nút hơn so với phiên bản DFS. DFS áp dụng chiến lược thống nhất khi chọn cây con để khám phá sau đó, trong khi LLM của AoT tích hợp các phương pháp phỏng đoán vốn có của nó. Sự khuếch đại thuật toán cơ bản này phản ánh ưu điểm của khả năng suy luận đệ quy của LLM.

Việc lựa chọn thuật toán ảnh hưởng như thế nào đến hiệu suất của AoT?

Bảng 5 đưa ra kết quả thử nghiệm và có thể thấy rằng cả ba biến thể AoT đều hoạt động tốt hơn CoT truy vấn đơn.

Kết quả này được mong đợi, vì bất kể thuật toán là gì, nó đều tìm kiếm và xem lại các lỗi tiềm ẩn - thông qua các lần thử ngẫu nhiên trong biến thể tìm kiếm ngẫu nhiên hoặc thông qua quay lui trong cấu hình DFS hoặc BFS. Điều đáng chú ý là cả hai phiên bản tìm kiếm có cấu trúc, AoT (DFS) và AoT (BFS), đều hiệu quả hơn AoT (Ngẫu nhiên), điều này nêu bật những ưu điểm của hiểu biết sâu sắc về thuật toán trong khám phá giải pháp. Tuy nhiên, AoT (BFS) tụt hậu so với AoT (DFS). Bằng cách phân tích sâu hơn các lỗi của AoT (BFS), các nhà nghiên cứu nhận thấy rằng so với AoT (DFS), AoT (BFS) khó xác định các hoạt động tối ưu hơn.

Vậy số bước tìm kiếm trong ví dụ về thuật toán điều chỉnh hành vi của AoT như thế nào?

Hình 6 cho thấy tác động của tổng số bước tìm kiếm. Trong số đó, AoT (Dài) và AoT (Ngắn) lần lượt là phiên bản dài hơn và ngắn hơn của kết quả được tạo ra so với AoT ban đầu.

Kết quả cho thấy số bước tìm kiếm tạo ra sự thiên vị ngầm về tốc độ tìm kiếm của LLM. Điều quan trọng cần lưu ý là ngay cả khi thực hiện sai bước, điều quan trọng là phải nhấn mạnh việc khám phá các hướng đi có tiềm năng.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)