Công nghệ mới nhất của Google: thông qua công cụ tìm kiếm, nâng cao đáng kể độ chính xác của các mô hình như ChatGPT

Nguồn gốc: Cộng đồng mở AIGC

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Do sự xuất hiện của Transformer, khả năng của các mô hình ngôn ngữ lớn như ChatGPT để xử lý các tác vụ ngôn ngữ tự nhiên đã được cải thiện rất nhiều. Tuy nhiên, nội dung được tạo ra chứa rất nhiều thông tin không chính xác hoặc lỗi thời và không có hệ thống đánh giá thực tế để xác minh tính xác thực của nội dung.

Để đánh giá toàn diện khả năng thích ứng của các mô hình ngôn ngữ lớn với những thay đổi trên thế giới và tính xác thực của nội dung, nhóm nghiên cứu AI của Google đã xuất bản một bài báo có tên "Nâng cao độ chính xác của các mô hình ngôn ngữ lớn thông qua kiến thức công cụ tìm kiếm". Một phương pháp FRESH được đề xuất để cải thiện độ chính xác của các mô hình ngôn ngữ lớn như ChatGPT và Bard bằng cách thu thập thông tin thời gian thực từ các công cụ tìm kiếm.

Các nhà nghiên cứu đã xây dựng một bộ tiêu chuẩn câu hỏi và câu trả lời mới FRESHQA, chứa 600 câu hỏi thực thuộc nhiều loại khác nhau và tần suất trả lời được chia thành bốn loại: "không bao giờ thay đổi", "thay đổi chậm", "thay đổi thường xuyên" và "tiền đề sai" **.

Đồng thời, hai phương pháp đánh giá, chế độ nghiêm ngặt, yêu cầu tất cả thông tin trong câu trả lời phải chính xác và cập nhật, và chế độ thoải mái, cũng được thiết kế, chỉ đánh giá tính đúng đắn của các câu trả lời chính.

Kết quả thử nghiệm cho thấy FRESH cải thiện đáng kể độ chính xác của các mô hình ngôn ngữ lớn trên FRESHQA. **Ví dụ: GPT-4 chính xác hơn 47% so với GPT-4 ban đầu với sự trợ giúp của chế độ nghiêm ngặt của FRESH **.

Ngoài ra, phương pháp hợp nhất các công cụ tìm kiếm này linh hoạt hơn so với việc mở rộng trực tiếp các tham số của mô hình và có thể cung cấp nguồn kiến thức bên ngoài năng động cho các mô hình hiện có. Kết quả thí nghiệm cũng cho thấy FRESH có thể cải thiện đáng kể độ chính xác của các mô hình ngôn ngữ lớn về các vấn đề đòi hỏi kiến thức thời gian thực.

Địa chỉ giấy:

Địa chỉ mã nguồn mở: Mô hình ngôn ngữ lớn S / FreshQA (trong đường ống, sẽ sớm là mã nguồn mở)

Từ nội dung bài báo của Google, phương pháp của FRESH chủ yếu bao gồm 5 module.

**Xây dựng bộ điểm chuẩn FRESHQA **

Để đánh giá toàn diện khả năng thích ứng của các mô hình ngôn ngữ lớn với thế giới đang thay đổi, trước tiên các nhà nghiên cứu đã xây dựng bộ điểm chuẩn FRESHQA, chứa 600 câu hỏi miền mở thực sự, có thể được chia thành bốn loại theo tần suất thay đổi câu trả lời: "không bao giờ thay đổi", "thay đổi chậm", "thay đổi thường xuyên" và "tiền đề sai".

  1. Không bao giờ thay đổi: Câu trả lời cho những câu hỏi về cơ bản sẽ không thay đổi.

  2. Thay đổi chậm: Câu trả lời cho câu hỏi thay đổi vài năm một lần.

  3. Thay đổi thường xuyên: Câu trả lời cho các câu hỏi có thể thay đổi hàng năm hoặc ít hơn.

  4. Tiền đề không chính xác: Một vấn đề có chứa tiền đề không chính xác.

Các câu hỏi bao gồm nhiều chủ đề khác nhau và có mức độ khó khác nhau. Tính năng chính của FRESHQA là câu trả lời có thể thay đổi theo thời gian, vì vậy mô hình cần phải nhạy cảm với những thay đổi trên thế giới.

** Chế độ nghiêm ngặt so với Đánh giá chế độ thư giãn **

Các nhà nghiên cứu đã đề xuất hai chế độ đánh giá: chế độ nghiêm ngặt, yêu cầu tất cả thông tin trong câu trả lời phải chính xác và cập nhật, và chế độ thoải mái, chỉ đánh giá tính chính xác của các câu trả lời chính.

Điều này cung cấp một cách toàn diện và sắc thái hơn để đo lường bản chất thực tế của các mô hình ngôn ngữ.

Đánh giá các mô hình ngôn ngữ lớn khác nhau dựa trên FRESHQA

Trên FRESHQA, các nhà nghiên cứu đã so sánh các mô hình ngôn ngữ lớn bao gồm các thông số khác nhau, bao gồm GPT-3, GPT-4, ChatGPT và các thông số khác. Đánh giá được thực hiện ở cả chế độ nghiêm ngặt (yêu cầu không có lỗi) và chế độ cho phép (chỉ đánh giá câu trả lời chính).

Người ta thấy rằng tất cả các mô hình hoạt động kém đối với các vấn đề đòi hỏi kiến thức thời gian thực, đặc biệt là các vấn đề với những thay đổi thường xuyên và cơ sở không chính xác. Điều này cho thấy mô hình ngôn ngữ lớn hiện nay có những hạn chế trong khả năng thích ứng với một thế giới đang thay đổi.

** Truy xuất thông tin liên quan từ các công cụ tìm kiếm **

Để cải thiện bản chất thực tế của mô hình ngôn ngữ lớn, ý tưởng cốt lõi của FRESH là lấy thông tin thời gian thực về vấn đề từ công cụ tìm kiếm.

Cụ thể, đưa ra một câu hỏi, FRESH sẽ truy vấn công cụ tìm kiếm của Google dưới dạng từ khóa để nhận được nhiều loại kết quả tìm kiếm bao gồm hộp trả lời, kết quả trang web, "người dùng khác cũng đã hỏi", v.v.

Truy xuất thông tin thông qua tích hợp đào tạo thưa thớt

FRESH sử dụng học tập ít bắn để tích hợp bằng chứng được truy xuất vào dấu nhắc đầu vào của mô hình ngôn ngữ lớn ở định dạng thống nhất và cung cấp một số minh họa về cách tổng hợp bằng chứng để đi đến câu trả lời đúng.

Điều này có thể dạy các mô hình ngôn ngữ lớn hiểu nhiệm vụ và tích hợp thông tin từ các nguồn khác nhau để đưa ra câu trả lời cập nhật và chính xác.

Google cho biết FRESH có ý nghĩa rất lớn trong việc cải thiện khả năng thích ứng năng động của các mô hình ngôn ngữ lớn, đây cũng là một hướng đi quan trọng cho việc nghiên cứu công nghệ trong tương lai của các mô hình ngôn ngữ lớn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)