Mô hình lớn thực sự được trang bị hệ thống lái tự động và AI sẽ giải thích cách nó lái!

2023-09-17 03:13:13

Nguồn: Xinzhiyuan

LINGO-1 do Wayve ra mắt mang lại trải nghiệm lái xe tự động thú vị! Lái chiếc xe này như thế nào, nó tự giải thích, một mô hình ngôn ngữ rộng lớn, nó không còn là hộp đen nữa.

Kể từ khi được phát minh, điều đáng lo ngại nhất về xe tự lái là con người không thể biết được điều gì đang diễn ra trong đầu nó.

Bắt đầu từ hôm nay, nó thực sự có thể “nói ra” suy nghĩ của mình?

Gần đây, Wayve đã ra mắt LINGO-1, một mô hình tương tác lái xe tự động lớn dựa trên các mô hình lớn hành động ngôn ngữ trực quan (VLAM), tích hợp sâu các mô hình ngôn ngữ lớn và lái xe tự động.

Cụ thể, LINGO-1 đã đào tạo một mô hình ngôn ngữ video, có thể nói là khá cá nhân hóa - nó có thể bình luận về cảnh đang diễn ra trước mặt!

-Bạn đang làm gì vậy? -Tôi đang băng qua đường một cách cẩn thận vì điều kiện đường sá hiện tại rất phức tạp. -Tiếp theo bạn định làm gì? -Tôi sẽ rẽ trái. -Những rủi ro tiềm ẩn trong kịch bản hiện tại là gì? - đèn giao thông, người đi xe đạp, người đi bộ băng qua đường

Nó sẽ giải thích rõ ràng mọi nghi ngờ của bạn về hệ thống lái xe thông minh.

Hỏi: Tại sao nó lại dừng lại? Trả lời: Vì bây giờ đang là đèn đỏ.

Sau khi được đào tạo về nhiều loại dữ liệu hình ảnh và ngôn ngữ, LINGO-1 không chỉ có thể thực hiện các nhiệm vụ trả lời câu hỏi trực quan (VQA) như nhận thức, phản thực tế, lập kế hoạch, lý luận và sự chú ý mà còn mô tả hành vi lái xe và lý luận.

Nói cách khác, chúng ta có thể hiểu được các yếu tố ảnh hưởng đến quyết định lái xe bằng cách đặt câu hỏi cho LINGO-1.

Cư dân mạng than thở: "Hộp đen đầu cuối đã được mở theo cách này. Đây đơn giản là một phép màu trong thời đại GPT. Hệ thống lái tự động đã có một bước tiến lớn so với việc tương tác với thế giới vật lý thực."

Có thể hình dung rằng khi chúng ta vượt qua các ranh giới của trí tuệ nhân tạo hiện thân, mô hình tầm nhìn-lời nói-hành động sẽ có tác động rất lớn, bởi vì ngôn ngữ cung cấp một mô hình mới để nâng cao cách chúng ta diễn giải và đào tạo các mô hình xe tự lái.

Một lời khen đến từ xe tự lái?

Tính năng độc đáo của LINGO-1 là việc giới thiệu chuyên gia về con người để đào tạo dữ liệu bình luận bằng lời nói về các cảnh lái xe, cho phép mô hình kết nối nhận thức về môi trường, ra quyết định hành động và diễn giải cảnh giống con người.

Bằng cách này, nó có thể diễn giải các quyết định và hành động của hệ thống lái tự động thông qua tương tác ngôn ngữ tự nhiên.

Jim Fan, nhà khoa học AI cao cấp tại NVIDIA, hào hứng nhận xét: Đây là tác phẩm thú vị nhất trong lĩnh vực lái xe tự động mà tôi đọc gần đây!

Trước đây, lái xe số tự động là “nhận thức -> vận hành lái xe”, nhưng trong tương lai, lái xe số tự động đã bổ sung thêm bước lý luận là “nhận thức -> lý luận bằng lời nói -> hành động”.

Ưu điểm của bước suy luận rõ ràng mới này là gì? Jim Fan giải thích như sau——

Khả năng giải thích: Mô hình lái xe không còn là hộp đen bí ẩn.

Tình huống phản thực: Có thể tưởng tượng ra các tình huống không có trong dữ liệu huấn luyện và suy luận về cách xử lý chúng một cách chính xác.

Lập trình đuôi dài: Có rất nhiều kịch bản biên trong việc lái xe và không thể cung cấp phạm vi bao phủ dữ liệu tốt cho tất cả các kịch bản. Thay vì thu thập hàng nghìn ví dụ để "lập trình thần kinh" cho một trường hợp, các chuyên gia về con người có thể viết lời nhắc () để giải thích một số lượng nhỏ ví dụ, từ đó hướng dẫn hệ thống cách xử lý các tình huống cụ thể hoặc phức tạp.

Không chỉ vậy, LINGO-1 còn liên quan chặt chẽ đến một số nghiên cứu trong lĩnh vực trí tuệ nhân tạo trong game như MineDojo và Thought Cloning, đều là tác nhân AI.

Người trước có thể tìm hiểu mô hình phần thưởng liên kết văn bản đánh giá với pixel video Minecraft. Cái sau có thể nhận ra một bộ liên kết hoàn chỉnh của "pixel->ngôn ngữ->vòng lặp hành động".

LINGO-1——Trình tường thuật lái xe vòng lặp mở

Lời giải thích của riêng tôi

Mô hình đang chú ý đến điều gì? làm gì? Giờ đây, điều này không còn là điều bí ẩn nữa.

LINGO-1 sẽ giải thích rõ ràng cho bạn biết nó thực hiện từng bước như thế nào.

Ví dụ: nếu nó muốn vượt một chiếc xe đang đậu bên đường -

LINGO-1: Tôi đang vượt do giao thông chậm. LINGO-1: Tôi đang đi ngang qua một chiếc ô tô đang đỗ. LINGO-1: Tôi đang tăng tốc vì đường phía trước thông thoáng.

Khi đến gần chỗ ngựa vằn băng qua——

LINGO-1: Tôi đang giữ tốc độ, đường vẫn thông thoáng. LINGO-1: Phanh và giảm tốc độ ngay bây giờ. LINGO-1: Dừng lại ở ngã tư ngựa vằn. LINGO-1: Tôi đang tăng tốc từ nơi tôi dừng lại. LINGO-1: Tôi tăng tốc vì đường thông thoáng.

Khi rẽ trái ở ngã tư——

LINGO-1: Tôi đứng yên vì xe phía trước cũng dừng lại. LINGO-1: Tôi đang tăng tốc vì xe phía trước đã di chuyển đi. LINGO-1: Tôi đang phanh để dừng ở ngã tư. LINGO-1: Tôi đang tiến về phía trước vì làn đường thông thoáng. LINGO-1: Rẽ trái và đi theo lộ trình.

### Trả lời câu hỏi trực quan (VQA)

Ngoài việc giải thích chính nó, LINGO-1 còn có thể trả lời các câu hỏi của bạn, cho phép chúng tôi đánh giá khả năng hiểu và suy luận bối cảnh của nó.

Ví dụ bạn hỏi LINGO-1 thì ở ngã tư này bạn cần chú ý điều gì?

Nó có nội dung: "Tôi phải chú ý đến đèn phía trước, người đi xe đạp phía trước và người đi bộ băng qua đường."

Hỏi LINGO-1, thời tiết bây giờ thế nào? Nó sẽ có tác động gì đến việc lái xe?

Nó sẽ nói: "Hôm nay trời mưa và tôi cần phải cực kỳ cẩn thận khi lái xe vì mặt đường trơn trượt và tầm nhìn bị giảm trong những ngày mưa".

LINGO-1, làm thế nào để bạn đi cạnh xe đạp một cách an toàn?

Nó sẽ nói: "Tôi phải giữ khoảng cách với người đi xe đạp và dừng lại khi cần thiết. Đó là một mối nguy hiểm tiềm ẩn. Ngoài ra, tôi phải chú ý đến những chiếc ô tô đậu bên đường".

### Key: Tập dữ liệu bình luận thúc đẩy

Chìa khóa để phát triển LINGO-1 là tạo ra một bộ dữ liệu đa dạng và có thể mở rộng. Tập dữ liệu này chứa lời bình luận của những người lái xe chuyên nghiệp khi lái xe trên khắp Vương quốc Anh, bao gồm hình ảnh, ngôn ngữ và dữ liệu hành động.

Điều này làm chúng ta nhớ đến cảnh chúng ta đang học lái xe từ các thầy cô ở trường dạy lái xe - thỉnh thoảng họ sẽ đưa ra những nhận xét và giải thích như sau để giải thích tại sao họ lại hành xử như vậy khi lái xe, để học sinh rút ra suy luận .

Xe/đèn giao thông phía trước đã chuyển màu, vui lòng giảm tốc độ - Đã đến lúc chuyển làn - Bạn có thể tăng tốc độ, chú ý không vượt quá tốc độ tối đa cho phép - Chú ý! Các phương tiện khác đã vào đường/dừng ở giao lộ - Chú ý vòng xuyến và biển báo nhường đường phía trước - Phía trước có xe đang đỗ/đèn giao thông/trường học - Xe tiếp theo đang chuyển làn/vượt xe đang đỗ - Người đi xe đạp/người đi bộ đang chờ ở lối vào vạch kẻ đường cho người đi bộ

Khi các câu trên, hình ảnh giác quan và hành động điều khiển cơ bản được đồng bộ hóa kịp thời, các nhà nghiên cứu sẽ có được bộ dữ liệu hành động-ngôn ngữ-hình ảnh phong phú có thể được sử dụng để đào tạo mô hình cho nhiều nhiệm vụ khác nhau.

Mô hình hành động-ngôn ngữ-hình ảnh (VLAM)

Sau sự nổi lên của LLM, nhiều mô hình ngôn ngữ hình ảnh (VLM) kết hợp khả năng suy luận của LLM với hình ảnh và video.

Wayve tiếp tục ra mắt Mô hình Hành động-Ngôn ngữ-Tầm nhìn (VLAM), bao gồm ba loại thông tin-hình ảnh, dữ liệu điều khiển và ngôn ngữ.

Trước đây, ngôn ngữ tự nhiên hiếm khi được sử dụng trong đào tạo robot (đặc biệt là trong lĩnh vực lái xe tự động).

Nếu ngôn ngữ tự nhiên được thêm vào, nó sẽ cho phép chúng ta diễn giải và đào tạo các mô hình lái xe cơ bản một cách hiệu quả hơn. Mô hình mới này sẽ có tác động rất lớn.

Bằng cách sử dụng ngôn ngữ để giải thích các yếu tố nhân quả khác nhau trong các tình huống lái xe, tốc độ huấn luyện của mô hình có thể được tăng tốc và mở rộng sang các tình huống mới.

Và vì chúng ta có thể đặt các câu hỏi cho mô hình nên chúng ta có thể biết mô hình hiểu những gì cũng như khả năng suy luận và đưa ra quyết định của nó tốt đến mức nào.

Hệ thống lái xe tự động không còn là một hộp đen bí ẩn nữa, thỉnh thoảng chúng ta có thể hỏi nó khi lái xe: Bạn đang nghĩ gì vậy?

Điều này chắc chắn sẽ làm tăng niềm tin của công chúng vào xe tự hành.

Ngoài ra, mặc dù chỉ có một số lượng nhỏ mẫu đào tạo nhưng khả năng học nhanh của ngôn ngữ tự nhiên cho phép mô hình học các nhiệm vụ mới một cách nhanh chóng và hiệu quả cũng như thích ứng với các tình huống mới.

Ví dụ: miễn là chúng tôi sử dụng ngôn ngữ tự nhiên để nói với mô hình "hành vi này là sai", chúng tôi có thể sửa hành vi sai của hệ thống lái tự động.

Từ giờ trở đi, có lẽ chỉ cần ngôn ngữ tự nhiên để thiết lập mô hình cơ bản cho xe tự lái từ đầu đến cuối!

Độ chính xác 60%

Trong thời gian này, nhóm đã cải tiến kiến trúc mô hình và tập dữ liệu huấn luyện.

Nhìn vào hình không khó nhận thấy hiệu suất của LINGO-1 đã tăng gấp đôi so với lúc đầu.

Hiện nay, độ chính xác của LINGO-1 đã đạt tới 60% mức độ con người.

Rõ ràng, việc đưa ngôn ngữ tự nhiên vào sử dụng có thể cách mạng hóa công nghệ lái xe tự động về nhiều mặt.

Cải thiện khả năng diễn giải của các mô hình đầu cuối

Việc thiếu khả năng diễn giải của các mô hình học máy luôn là trọng tâm của nghiên cứu.

Bằng cách tạo giao diện tương tác dựa trên ngôn ngữ tự nhiên, người dùng có thể trực tiếp đặt câu hỏi và để AI trả lời, từ đó hiểu sâu hơn về sự hiểu biết của mô hình về bối cảnh và cách nó đưa ra quyết định.

Cuộc đối thoại độc đáo này giữa hành khách và xe tự lái có thể tăng tính minh bạch và giúp mọi người dễ hiểu cũng như tin tưởng hơn vào các hệ thống này.

Đồng thời, ngôn ngữ tự nhiên cũng nâng cao khả năng thích ứng và học hỏi từ phản hồi của con người của mô hình.

Giống như người hướng dẫn hướng dẫn học sinh ngồi sau tay lái, các hướng dẫn khắc phục và phản hồi của người dùng sẽ cải tiến quá trình hiểu và ra quyết định của mô hình theo thời gian.

Lập kế hoạch và lý luận tốt hơn, cải thiện hiệu suất lái xe

Có hai yếu tố chính ảnh hưởng đến hiệu suất lái xe tự động:

Khả năng của các mô hình ngôn ngữ trong việc diễn giải chính xác các tình huống chế độ nhập khác nhau
Sự thành thạo của mô hình trong việc chuyển đổi lý luận cấp trung thành lập kế hoạch cấp thấp hiệu quả

Về vấn đề này, nhóm đang cố gắng nâng cao mô hình lái xe vòng kín thông qua khả năng lập kế hoạch, lập luận và ngôn ngữ tự nhiên của LINGO.

Mô hình lái xe tự động vòng kín Wayve LINGO-1

Học hiệu quả các tình huống mới hoặc các tình huống dài

Thông thường, một bức tranh đáng giá ngàn lời nói.

Nhưng khi đào tạo một người mẫu, một đoạn văn bản có giá trị bằng cả ngàn bức ảnh.

Bây giờ, thay vì có hàng nghìn ví dụ về ô tô giảm tốc độ vì người đi bộ, chúng tôi chỉ cần một vài ví dụ cùng với một đoạn văn bản mô tả ngắn để dạy mô hình giảm tốc độ và tìm hiểu cách nó hành động trong tình huống này.

Bạn biết đấy, một trong những phần quan trọng nhất của lái xe tự động là lý luận nhân quả, cho phép hệ thống hiểu được mối quan hệ giữa các yếu tố và hành vi trong hiện trường.

VLAM hoạt động tốt cho phép hệ thống kết nối người đi bộ đang chờ ở lối sang đường có ngựa vằn với tín hiệu giao thông "Không được băng qua". Điều này cực kỳ có ý nghĩa trong các tình huống đầy thử thách với dữ liệu hạn chế.

Ngoài ra, LLM đã có lượng kiến thức lớn về hành vi của con người từ bộ dữ liệu Internet nên có thể hiểu các khái niệm như xác định đối tượng, quy định giao thông và hoạt động lái xe như giữa cây cối, cửa hàng, nhà ở, chó đuổi bóng, và xe buýt đậu trước trường học.

Thông qua việc mã hóa thông tin đồ họa rộng hơn của VLAM, việc lái xe tự động sẽ trở nên tiên tiến và an toàn hơn.

Hạn chế

Tất nhiên LINGO-1 cũng có những hạn chế nhất định.

Sự khái quát

LINGO-1 được đào tạo về trải nghiệm lái xe ở trung tâm Luân Đôn và văn bản trên quy mô Internet.

Mặc dù tôi đã học về các nền văn hóa lái xe từ khắp nơi trên thế giới, nhưng điều tôi giỏi nhất hiện nay là giải thích luật giao thông của Anh.

Nó cũng đòi hỏi phải học hỏi kinh nghiệm lái xe ở các nước khác.

Ảo giác

Ảo giác là một vấn đề nổi tiếng trong các mô hình ngôn ngữ lớn và LINGO-1 cũng không ngoại lệ.

Tuy nhiên, so với LLM thông thường, LINGO-1 có ưu điểm: vì dựa trên tầm nhìn, ngôn ngữ và hành động nên có nhiều nguồn giám sát hơn và có thể hiểu thế giới tốt hơn.

Bối cảnh

Học sâu video là một thách thức vì dữ liệu video thường có cường độ lớn hơn các tập dữ liệu hình ảnh hoặc văn bản.

Các mô hình ngôn ngữ đa phương thức dựa trên video đặc biệt yêu cầu độ dài ngữ cảnh dài để có thể nhúng nhiều khung hình video để giải quyết các tình huống lái xe động phức tạp.

Lý luận vòng kín

Hiện tại, Wayve đang nghiên cứu khả năng diễn giải mô hình, nhưng cuối cùng, khả năng suy luận LLM của họ sẽ có thể tác động thực sự đến việc lái xe của con người.

Các nhà nghiên cứu đang phát triển kiến trúc vòng kín có thể chạy LINGO-1 trên các phương tiện tự lái trong tương lai.

Thảo luận của cư dân mạng

Cư dân mạng cũng thấy điều này rất thú vị.

“Thật thú vị, tôi nghĩ mô hình ngôn ngữ diễn giải các dự đoán về lái, phanh và ga của mô hình điều khiển lái xe bằng lời nói, thay vì ảnh hưởng đến chính việc lái xe, vì ngôn ngữ tự nhiên sẽ mất đi độ chính xác cần thiết.”

“Với cách tiếp cận này, chúng tôi đang tiến rất gần đến AGI.”

"Bạn có thể coi nó như việc thêm ngôn ngữ vào mô hình thế giới. Tôi không hiểu tại sao nó chưa bao giờ được thử trước đây, bởi vì ý tưởng đào tạo một đặc vụ để giao tiếp dường như là điều mà mọi người đều có thể nghĩ ra."

"Sự chuyển đổi từ hành động nhận thức thuần túy sang việc bổ sung lý luận bằng văn bản này là một yếu tố thay đổi cuộc chơi! Theo tôi, đây là phần còn thiếu của việc lái xe tự động vì nó khiến khả năng diễn giải trở nên khả thi theo cách phi kỹ thuật."

Hiện tại, việc tích hợp đào tạo robot và ngôn ngữ tự nhiên vẫn đang ở giai đoạn đầu.

LINGO-1 đã chính thức thực hiện một bước quan trọng trong việc sử dụng ngôn ngữ tự nhiên để nâng cao khả năng học tập và diễn giải các mô hình lái xe cơ bản.

Hãy tưởng tượng, trong tương lai, chúng ta chỉ cần sử dụng những lời nhắc bằng văn bản đơn giản để yêu cầu AI cho biết tình trạng đường sá phía trước hoặc để AI tìm hiểu quy định giao thông của các khu vực khác nhau. Cảnh tượng này thật thú vị!

Vì vậy, ngôn ngữ tự nhiên có tiềm năng lớn trong việc phát triển những chiếc xe tự lái an toàn hơn và đáng tin cậy hơn.

Người giới thiệu:

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
1/3
1Simple Earn Annual Rate 24.4%
12k Phổ biến
2Gate Launchpad List IKA
22k Phổ biến
3ETH Trading Volume Surges
17k Phổ biến
4Gate ETH 10th Anniversary Celebration
24k Phổ biến
5Trump’s AI Strategy
19k Phổ biến

Ghim

sơ đồ trang web