Nghiên cứu: Liệu sự không chắc chắn trong việc ra quyết định của con người có phải là chìa khóa để cải thiện AI?

Question

Viết bởi Kevin DickinsonNguồn: FreeThink![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aff8056e9c-dd1a6f-69ad2a) *Nguồn hình ảnh: được tạo bởi công cụ AI không giới hạn*> Nhiều mô hình AI cho rằng con người luôn chắc chắn về quyết định của mình. Điều này có thể gây ra những hậu quả đáng tiếc.Đối với nhiều người trong chúng ta, công nghệ mang lại cách giải quyết sự không chắc chắn. Nếu chúng ta không thể nhớ lại một sự kiện hoặc không hiểu điều gì đó, chúng ta có thể chỉ cần tìm kiếm nó và nhận được câu trả lời. Hội nghị Hòa bình Paris kết thúc vào năm nào? Google nó… 1920. Chạy 10 km là bao nhiêu km? 6,2 dặm. Ai đóng vai chính cùng với người đoạt giải Oscar Brendan Fraser trong bộ phim điện ảnh đầu tay của anh ấy, The Encino Man? Sean Astin và Paulie Shore.Điều thú vị là điều ngược lại đang ngày càng xảy ra - máy tính đang dựa vào con người để kiểm tra công việc của họ. Các hệ thống AI “con người trong vòng lặp” dựa vào sự can thiệp của con người để đảm bảo AI không đọc sai thông tin và đưa ra những dự đoán không chính xác. Tình huống này thường nghiêm trọng hơn những tình tiết nổi bật trong phim.Ví dụ: bác sĩ X quang sẽ xem xét chẩn đoán X-quang của AI để xác định xem nó có bỏ sót vết gãy hay tổn thương hay không. Sau đó, con người có thể sửa bất kỳ lỗi nào và đảm bảo bệnh nhân được điều trị thích hợp. Đó là một mối quan hệ hợp tác tuyệt vời, nhưng có một vấn đề nhỏ: Con người hiếm khi chắc chắn 100% về kết luận của mình.Cùng một bác sĩ X quang có thể nhìn thấy một vùng mô xương có màu khác trên phim X-quang và tự hỏi: "Đây có phải là một tổn thương hay một sự bất thường trong chính tia X? Nếu đó là một tổn thương, nguyên nhân là gì và nó lành tính hay ác tính?" ?" Ngay cả những chuyên gia được đào tạo bài bản - và có lẽ đặc biệt là các chuyên gia - cũng thường kết hợp loại sự không chắc chắn này vào các quan sát và quyết định của họ. Nếu họ nghĩ có 10% khả năng sẽ có một chẩn đoán khác, họ có thể thảo luận với bệnh nhân và lên kế hoạch phù hợp.Mặc dù điều này có vẻ tự nhiên đối với chúng ta, nhưng hệ thống vòng lặp con người-máy không lý luận theo cách này. Họ coi sự can thiệp của con người là nhị phân: hoặc con người biết những gì họ biết hoặc không. Đổi lại, điều này có thể hạn chế khả năng của hệ thống AI trong việc giảm nguy cơ lỗi của con người trong quan hệ đối tác.Vì vậy, liệu các hệ thống này có thể hiểu rõ hơn về các sắc thái trong việc ra quyết định của con người, từ đó cải thiện khả năng của chúng và hiệu suất của chính chúng ta không? Một nhóm các nhà nghiên cứu từ Đại học Cambridge đã đưa câu hỏi này vào thử nghiệm trong một bài nghiên cứu mới.## **bạn có chắc không? **Trong thử nghiệm đầu tiên, các nhà nghiên cứu đã sử dụng các mô hình dựa trên khái niệm - mô hình học máy giúp cải thiện dự đoán thông qua phản hồi của con người - trên hai bộ dữ liệu. Tập dữ liệu đầu tiên, được gọi là "CheXpert", phân loại phim X-quang ngực. Một tập dữ liệu khác, được gọi là UMNIST, tính tổng các số trong mẫu chữ viết tay. Giống như hầu hết các mô hình dựa trên khái niệm, cả hai mô hình đều chưa được đào tạo trước đây về độ không chắc chắn, vì vậy các nhà nghiên cứu muốn xem họ sẽ xử lý sự không chắc chắn như thế nào.Katherine Collins, tác giả chính của nghiên cứu và là sinh viên sau đại học về kỹ thuật tại Đại học Cambridge, cho biết: "Nhiều nhà phát triển đang nỗ lực giải quyết sự không chắc chắn trong các mô hình, nhưng có ít công việc giải quyết sự không chắc chắn từ góc độ con người". hãy xem điều gì xảy ra khi mọi người bày tỏ sự không chắc chắn, điều này đặc biệt quan trọng trong những môi trường quan trọng về an toàn."Câu trả lời là: không tốt lắm. Các nhà nghiên cứu nhận thấy rằng hiệu suất của mô hình đã giảm ngay cả khi độ không chắc chắn trong mô phỏng ở mức thấp và tiếp tục giảm khi độ không chắc chắn tăng lên. Điều này cho thấy rằng các mô hình này, mặc dù chính xác khi tiếp xúc với một can thiệp hoàn toàn xác định, nhưng “không khái quát hóa các bối cảnh mà người dùng can thiệp không chắc chắn về bản chất của các khái niệm nhất định”.Trong thử nghiệm tiếp theo, các nhà nghiên cứu đã sử dụng bộ dữ liệu phân loại hình ảnh loài chim và giới thiệu những người tham gia thực sự là con người. Những người tham gia được yêu cầu xác định các đặc điểm cụ thể của các loài chim trong ảnh. Con chim có nhiều màu, một màu, có đốm hay có sọc? Đuôi của nó có hình cái nĩa, hình tròn, hình quạt hay hình vuông? vân vân.Tuy nhiên, hình ảnh không phải lúc nào cũng thể hiện tốt nhất các loài chim. Con chim trong ảnh có thể là hình bóng trên nền sáng, hoặc lông đuôi của nó có thể bị cành cây che khuất. Vì vậy, các nhà nghiên cứu đã cho người tham gia khả năng sử dụng "nhãn mềm" - những khái niệm không phải là/hoặc mà thay vào đó cho phép con người gắn nhãn mức độ tin cậy trong khoảng từ 0 đến 100 (0 là không biết và 100 là hoàn toàn chắc chắn). .Ví dụ: nếu đối tượng thấy rất tin tưởng rằng hình dạng cánh chim rộng, họ có thể di chuyển thanh trượt đến 80. Nhưng nếu họ không chắc đôi cánh là tròn hay nhọn, họ có thể di chuyển thanh trượt ít hơn (tương ứng là 20 và 10).Các nhà nghiên cứu phát hiện ra rằng khi máy móc được thay thế bởi con người, hiệu suất sẽ giảm sút. Tuy nhiên, họ cũng nhận thấy rằng việc đào tạo mô hình về sự không chắc chắn có thể giảm bớt một số sai lầm mà những người tham gia là con người mắc phải. Tuy nhiên, những mô hình này không hoàn hảo. Đôi khi sự không chắc chắn của con người lại có ích nhưng đôi khi lại làm tổn hại đến hiệu suất của mô hình.Matthew Barker, đồng tác giả của nghiên cứu cho biết: “Chúng tôi cần những công cụ tốt hơn để hiệu chỉnh lại các mô hình này để những người sử dụng chúng có khả năng lên tiếng khi họ không chắc chắn”. “Theo một cách nào đó, công trình này đặt ra nhiều câu hỏi hơn là câu trả lời, nhưng mặc dù con người có thể mắc sai lầm khi gặp phải sự không chắc chắn, chúng ta có thể cải thiện độ tin cậy của các hệ thống lặp lại con người-máy này bằng cách tính đến hành vi của con người ở mức độ và độ tin cậy”.Các nhà nghiên cứu từ Đại học Princeton, Viện Alan Turing và Google DeepMind cũng tham gia cùng nhóm Cambridge trong nghiên cứu. Họ đã trình bày bài báo của mình tại Hội nghị AAI/ACM năm 2023 về Trí tuệ nhân tạo, Đạo đức và Xã hội ở Montreal. Bài báo hiện được đăng dưới dạng bản in sẵn trên arXiv.## **Hướng tới một tương lai không chắc chắn**Các nhà nghiên cứu hy vọng bài báo của họ một ngày nào đó sẽ giúp phát triển các hệ thống vòng lặp giữa con người và máy móc có tính đến sự không chắc chắn, từ đó giảm nguy cơ xảy ra lỗi trí tuệ nhân tạo và con người. Tuy nhiên, nghiên cứu này chỉ là bước đầu tiên hướng tới mục tiêu này.Nó cũng tiết lộ một số thách thức cho nghiên cứu trong tương lai. Những thách thức này bao gồm: làm thế nào để phát triển các mô hình AI và chiến lược can thiệp có tính đến các lỗi dự đoán phổ biến của con người (chẳng hạn như sự thiên vị quá tự tin); tạo ra các giao diện giúp con người đo lường sự không chắc chắn của họ; và đào tạo các mô hình AI để xử lý các loại Sự không chắc chắn khác nhau, chẳng hạn như là sự khác biệt giữa việc đặt câu hỏi về kiến thức của chính bạn và các hiệu ứng ngẫu nhiên sẽ diễn ra như thế nào.Nếu những vấn đề này có thể được giải quyết, sự không chắc chắn của con người có thể hỗ trợ tốt hơn cho phần “con người” trong “vòng lặp con người-máy” và do đó giúp cải thiện hiệu suất của các mô hình này.Collins nói thêm: “Như một số đồng nghiệp của chúng tôi đã nói, sự không chắc chắn là một dạng minh bạch và điều đó thực sự quan trọng”. "Chúng tôi cần tìm ra khi nào nên tin tưởng các mô hình, khi nào nên tin tưởng con người và tại sao. Trong một số ứng dụng, chúng tôi tập trung vào xác suất hơn là khả năng xảy ra."