Zhang Yaqin, học giả của Học viện Kỹ thuật: Các mô hình lớn trước khi đào tạo và tạo ra sẽ mang lại những thay đổi mới trong mô hình của công nghệ lái xe tự trị
Sự xuất hiện của các mô hình lớn được đại diện bởi GPT đã tạo ra một bước nhảy vọt khác trong công nghệ trí tuệ nhân tạo và công nghệ AI đang trải qua quá trình thay đổi mô hình kỹ thuật từ phân biệt đối xử sang phát sinh. Với sự ra đời của các công nghệ mô hình lớn như thế hệ, đào tạo trước và đa phương thức, nó cũng cung cấp khả năng cho công nghệ lái xe tự động trưởng thành và không người lái.
Từ Viện Nghiên cứu Công nghiệp Thông minh Thanh Hoa (AIR), tổ chức nghiên cứu trí tuệ nhân tạo hàng đầu thế giới và công ty công nghệ AI lái xe tự động hàng đầu trong nước, Milli Zhixing có nhận định nhất quán đáng ngạc nhiên về xu hướng kỹ thuật và ứng dụng của các mô hình lớn. Đồng thời, hai bên cũng đã tiến hành thăm dò chuyên sâu theo hướng tối ưu hóa ra quyết định dựa trên dữ liệu, cùng nhau thúc đẩy hợp tác toàn diện và đa cấp ngành-đại học-nghiên cứu, đẩy nhanh ứng dụng công nghệ AI trong lĩnh vực lái xe tự hành.
Vào ngày 11 tháng 10 năm 2023, Zhang Yaqin, học giả của Học viện Kỹ thuật Trung Quốc, giáo sư Đại học Thanh Hoa và chủ tịch Viện Nghiên cứu Công nghiệp Thông minh Thanh Hoa (AIR), đã tham dự HAOMO AI DAY lần thứ 9 do Milli Zhixing tổ chức, và có bài phát biểu quan trọng mang tên "Tiến bộ mới của lái xe thông minh - Mô hình lớn, Al thế hệ và Lái xe thông minh", chia sẻ những suy nghĩ mới nhất của mình về việc áp dụng các mô hình lớn AI vào công nghệ lái xe tự động. và giới thiệu những thành tựu mới nhất của Tsinghua AIR trong việc xây dựng nền tảng mô hình cơ bản Real2Sim2Real và nền tảng mô phỏng lái xe tự động.
Sau đây là toàn văn bài phát biểu của Viện sĩ Zhang Yaqin:
Thời tiết đẹp như vậy, một nơi đẹp như vậy, tôi rất vui khi được tham gia HAOMO AI DAY, và cũng cảm ơn Chủ tịch Zhang Kai và Weihao vì lời mời.
Hôm nay là HAOMO AI DAY lần thứ chín, trước hết, tôi xin chúc mừng Momo về những thành tựu to lớn mà anh ấy đã đạt được trong vòng chưa đầy 4 năm, đặc biệt là việc rèn giũa con đường riêng của mình. Tôi có ấn tượng rằng Momo là người đầu tiên phát hành mô hình lớn DriveGPT trong lái xe tự động, và nó nhanh chóng chuyển sang quy mô, và nó đã có thể trở thành người dẫn đầu trong lĩnh vực lái xe tự trị trong một thời gian ngắn như vậy.
Hôm nay tôi muốn nói về tiến bộ mới trong lái xe thông minh, tôi đã sử dụng cùng một chủ đề trong những năm qua, nhưng mỗi lần tôi sẽ thấy rằng nội dung hoàn toàn khác nhau, đặc biệt là sau khi AI tạo ra gần đây, đã có một sự thúc đẩy lớn của lái xe tự trị.
Chúng ta đã nói về "bốn hiện đại hóa" mới - mạng, trí thông minh, chia sẻ và điện khí hóa, trong đó quan trọng nhất là hai hiện đại hóa - điện khí hóa và trí thông minh. Điện khí hóa có thể được hiểu là năng lượng mới, và bây giờ Trung Quốc đã là thị trường năng lượng mới năng động nhất và lớn nhất thế giới, cho dù đó là quy mô người dùng hay quy mô xuất khẩu là đầu tiên của thế giới, đó là nửa đầu của ô tô mới. Điều quan trọng nhất trong nửa sau là lái xe thông minh, và điểm nóng và đỉnh cao của cạnh tranh toàn cầu trong 5-10 năm tới là lái xe tự động. Trí tuệ nhân tạo là động lực công nghệ cốt lõi của lái xe tự động, và kể từ khi thành lập, HAOMO AI DAY đã là công cụ công nghệ của công ty, vì vậy HAOMO AI DAY rất quan trọng.
Tại sao rất nhiều công ty làm lái xe thông minh? Bao gồm các nhà sản xuất ô tô truyền thống, lực lượng mới, doanh nghiệp công nghệ cao đang tham gia vào thị trường lái xe tự trị? Trên thực tế, có rất nhiều thách thức về kỹ thuật, trước hết, từ góc độ của AI, lái xe tự động rất phức tạp, đòi hỏi nhiều sức mạnh tính toán, thuật toán mới, là vấn đề trường dọc AI thách thức nhất, thứ hai, lái xe tự động cũng là giao điểm của trí thông minh tập trung, trí thông minh cạnh và trí thông minh tự trị hiện đang thấy. Trong video thử nghiệm vừa rồi, bạn có thể thấy rằng lái xe tự động phải đối mặt với rất nhiều kịch bản và thay đổi phức tạp, và thực sự có rất nhiều thách thức.
Tuy nhiên, tôi nghĩ rằng lái xe tự trị là hoàn toàn có thể đạt được, và có một số vấn đề chính, một số trong đó là các yếu tố thị trường, và một số trong đó là các lực lượng phi thị trường. Các yếu tố thị trường bao gồm: Công nghệ có khả thi không? Người dùng có nhu cầu thực sự không? Sinh thái công nghiệp và mô hình kinh doanh. Các yếu tố phi thị trường cũng rất quan trọng, đòi hỏi những đột phá công nghệ trong ngành, cũng như sự hỗ trợ của ngành công nghiệp chính phủ, và những đột phá trong chính sách và quy định.
Về mặt công nghệ, lúc đầu, nhiều người đã nói về việc lái xe không người lái có khả thi hay không, đặc biệt là liệu nó có khả thi trên L4 hay không? Tôi nghĩ rằng nó khả thi ngay từ đầu. Gần đây, tôi đã thấy một số dữ liệu rằng không người lái an toàn hơn khoảng 10 lần so với lái xe có người lái, và năm ngoái tôi đã nói về 3 lần, và năm nay nó đã đạt 10 lần. Điều này cho thấy bước đột phá về công nghệ đã được hoàn thành. Trong lộ trình thương mại hóa, hiện tại có nhiều cách khác nhau, một số đang sử dụng trí thông minh xe đạp, một số là phối hợp đường bộ, và có những tuyến đường dần dần, nhảy vọt, mã nguồn mở, tuyến đường đóng, các công ty khác nhau đang khám phá các lộ trình khác nhau, không nói cái nào là hoàn toàn chính xác, ngành công nghiệp đang thử lái xe tự động theo những cách khác nhau. Tôi biết rằng Momo đã chọn một trong những tiến bộ, và tôi nghĩ rằng tất cả đều tốt, và mọi người khám phá nó theo những cách khác nhau.
Đã có rất nhiều đột phá mới trong AI gần đây. Chúng ta thấy các thuật toán mới, khuôn khổ mới, đặc biệt là tiền đào tạo, đa phương thức, học tập đa giám sát và các mô hình lớn trở thành xu hướng. Trước Transformer, ResNeT từng là một khung thuật toán thị giác được sử dụng rất rộng rãi, và lý do tại sao tôi đề cập cụ thể đến ResNeT, thuật toán này thực sự được thực hiện bởi các nhà khoa học trẻ Trung Quốc ở Trung Quốc, vì vậy các nhà khoa học Trung Quốc đã có những đóng góp rất lớn cho trí tuệ nhân tạo. Tôi đã nghe rất nhiều tuyên bố rằng cốt lõi của AI chủ yếu đến từ châu Âu, và lý thuyết cơ bản xuất phát từ đó, nhưng các nhà khoa học Trung Quốc cũng đã có rất nhiều đóng góp trong lĩnh vực trí tuệ nhân tạo.
Điều quan trọng là các mô hình lớn phải vượt qua các giới hạn kỹ thuật. Trong sáu hoặc bảy mươi năm qua, đã có ba lý thuyết chính: Định luật Moore, kiến trúc của von Neumann, ba định luật của Shannon, và bây giờ cả ba lý thuyết đang bị phá vỡ. Nếu không có đột phá, mô hình lớn là không thể đạt được, đòi hỏi một phương pháp cảm biến mới, một phương pháp nhận thức mới, một bước đột phá trong kiến trúc máy tính mới, bao gồm một khung chip mới, v.v., và bây giờ mạng thần kinh tích chập Transformer và CNN chính thống cũng khác. Hiện tại, ngành công nghệ kỹ thuật số chủ yếu dựa trên điện toán dựa trên tấm silicon và có thể có khoa học sinh học, điện toán quang học và điện toán lượng tử trong tương lai.
Hiện tại, điều rất quan trọng là các mô hình lớn mang lại AI tạo ra và trong quá khứ, AI đã nói về phân loại, nghĩa là AI phân biệt đối xử. Giờ đây, bạn có thể tạo ra đầy đủ các ý tưởng nội dung mới, ý tưởng dữ liệu và rất nhiều ý tưởng mới cho các cảnh. Bây giờ hãy để tôi nói một chút về công việc của tôi trong lĩnh vực này.
Các mô hình lớn đi theo một hướng mới. Đầu tiên là đa phương thức, không chỉ ngôn ngữ tự nhiên, hình ảnh, video, mà còn cảm nhận tín hiệu, lidar và các tín hiệu nhận thức vật lý và cảm giác sinh học khác phát ra từ tất cả các phương tiện. Các bạn thấy mô hình GPT-4 đa phương thức, chức năng của nó rất mạnh, nhưng hiệu quả rất thấp, thấp hơn khoảng ít nhất 1000 lần so với hiệu quả tính toán và ra quyết định của bộ não con người, do đó vẫn cần các thuật toán mới, tôi nghĩ sẽ có những thuật toán mới trong 5 năm tới. Thứ hai là trí thông minh tự động, có thể tự động hoàn thành các nhiệm vụ, bao gồm cả điện toán biên, làm thế nào để đặt các mô hình lớn rất phức tạp trên rìa của điện thoại di động, ô tô, robot và trí thông minh thể hiện và thế giới vật lý với nhau, tôi nghĩ lái xe tự động là cảnh thông minh thể hiện quan trọng nhất. Tương lai là giai đoạn của trí thông minh não-máy tính, và mô hình lớn sẽ phải đối mặt với cách sử dụng thế giới sinh học, thế giới sự sống và cách kết nối tốt hơn giữa con người và bộ não.
Các kiến trúc công nghệ mới sẽ sử dụng các mô hình lớn, giống như hệ điều hành AI mới, sẽ có nhiều mô hình dọc, bao gồm cả lái xe tự động hoặc các mô hình dọc khác như khoa học đời sống.
Tôi sẽ nói ngắn gọn về Viện nghiên cứu công nghiệp thông minh Thanh Hoa (AIR), là viện nghiên cứu công nghiệp trí tuệ nhân tạo mà tôi thành lập sau khi nghỉ hưu từ Baidu, đã phát triển nhanh chóng trong 3 năm, và tôi cũng may mắn tìm thấy một nhóm các nhà khoa học và CTO doanh nghiệp có nền tảng công nghiệp sâu sắc và thành tích học tập sâu sắc. Bây giờ có khoảng 300 nghiên cứu sinh và sinh viên sau tiến sĩ, và lái xe tự trị là một trong những hướng, khoảng 100 người.
Mỗi lần tôi nói về AIR Research, tôi nghĩ về 25 năm trước khi tôi trở về Trung Quốc để thành lập Microsoft Research Asia. Tháng tới sẽ kỷ niệm 25 năm thành lập Microsoft Research Asia, bản thân nó đã khá thành công. Mô hình lớn mà tôi vừa nói đến được phát triển tại Microsoft Research, hy vọng sẽ xây dựng một viện nghiên cứu cho ngành công nghiệp Trung Quốc.
Khi chúng tôi tham gia vào các nghiên cứu khác nhau, chúng tôi hy vọng sẽ có một khuôn khổ lớn, chẳng hạn như lái xe thông minh, trước tiên chúng tôi phải xác định một số tuyến đường kỹ thuật. Trước hết, tôi nghĩ nhận thức đa phương thức là rất quan trọng, và dữ liệu đa quy mô, đa chiều từ bản gốc là rất quan trọng. Bởi để làm lái xe không người lái, lái xe thông minh, ưu điểm của robot trước hết là đòi hỏi nhiều dữ liệu hơn, lợi thế dữ liệu này vẫn chưa thể loại bỏ, vì vậy tôi không đồng ý với Musk nói rằng chỉ sử dụng camera, chúng ta cần sử dụng nhiều nguồn dữ liệu hơn. Thứ hai, nhiều xe tự lái giờ đây sẽ sử dụng rất nhiều bản đồ độ nét cao, nhưng chúng tôi tin rằng tương lai là bản đồ ánh sáng và không thể hoàn toàn phụ thuộc vào bản đồ.
Lái xe tự động để đạt đến giai đoạn an toàn và đáng tin cậy cuối cùng phải đạt được từ đầu đến cuối, điều này cũng rất khó, có các yếu tố kỹ thuật chi tiết hơn, bao gồm AI phát sinh, học tăng cường, mô hình ngôn ngữ lớn, chúng tôi có hai nền tảng: nền tảng mô hình lớn dữ liệu, nền tảng mô phỏng .
AIR cũng đã đề xuất mô hình lái xe tự động cơ bản của riêng mình. Đầu tiên, mô hình đề xuất cách thu thập dữ liệu khác nhau, bao gồm dữ liệu trong thế giới thực và dữ liệu mô phỏng. Dữ liệu được làm sạch thông qua một đường ống được kiểm soát, và sau đó đi qua hai mô hình lớn: mô hình nhận thức, mô hình ra quyết định, bao gồm đưa ra quyết định ở một số vị trí quan trọng trong đám mây và ở cuối xe, một số mô-đun dựa trên thông tin, một số là thống kê và một số là mô-đun dựa trên quy tắc.
Tôi đặc biệt lấy ra "học tăng cường" trong đó, bởi vì học tăng cường tôi đã sử dụng từ Baidu, nhưng nó rất khó sử dụng. Bởi vì an toàn lái xe tự động là rất quan trọng, nó khá khó sử dụng, nhưng tôi nghĩ đây là cách duy nhất chúng ta thực sự có thể đạt được độ an toàn cao hơn, học tăng cường có thể học những điều mới, và bây giờ phương pháp khái quát hóa phụ thuộc vào học tăng cường để học, và đã có nhiều phát triển mới gần đây. Làm thế nào để sử dụng học tăng cường trong rất nhiều mô phỏng và ra quyết định, và sử dụng nó trong hành vi lái xe thực tế. Mô hình bên trái là dữ liệu lớn dọc, cách sử dụng học tăng cường để điều chỉnh mô hình.
Ngoài ra, làm thế nào AI tạo ra có thể được sử dụng trong mô phỏng và ra quyết định? Có một ví dụ nhỏ ở đây, cả mô hình lớn và deep learning đều có vấn đề về tính minh bạch, vì vậy chúng tôi cũng đã thực hiện nghiên cứu này, tại sao tôi lại đưa ra quyết định này? Rẽ trái, phải, phanh, cho tôi biết những gì tôi thấy và tại sao tôi đưa ra quyết định này, và nó có thể hướng dẫn cách đưa ra quyết định. Điều này là để sử dụng dữ liệu thực, dữ liệu mô phỏng, mô hình dọc và mô hình lớn để tạo ra các cảnh chiều sâu ngữ nghĩa, bao gồm thông tin giao thông và người đi bộ.
Thứ hai là sự hợp nhất của bộ não con người và máy móc, chúng ta phải nghiên cứu cách mọi người lái xe. Đôi khi mọi người đưa ra quyết định tốt, đôi khi họ không, và thu thập thông tin này thông qua các cảm biến. Một mặt, trong một thời gian dài, con người và máy móc phải lái xe cùng nhau, và những người không người lái phải từ từ hiểu được lái xe của con người. Mặt khác, mô hình được sử dụng trong thuật toán để cải thiện hiệu quả của thuật toán.
Cuối cùng, chúng tôi rất vui mừng được hợp tác kỹ thuật sâu sắc với Milli về cách áp dụng học tăng cường vào việc ra quyết định nhận thức. Hiện nay, học tăng cường có nhiều vấn đề, online hay offline, trong đó có bài toán định nghĩa hàm, sự mơ hồ về chính sách, vì vậy chúng tôi đã thực hiện rất nhiều nghiên cứu như vậy. Trong khoảng một năm qua, rất nhiều bài báo đã được xuất bản tại Hội nghị hàng đầu quốc tế, và cũng có bằng sáng chế, và điều quan trọng nhất là nó đã bắt đầu được sử dụng trong ô tô và chiếc xe vừa thấy hậu cần đã bắt đầu sử dụng các thuật toán này.
Tóm lại, nếu bạn nhìn vào các giai đoạn khác nhau của lái xe thông minh và lái xe tự động, lúc đầu, nó được điều khiển nhiều hơn bởi lidar và phần cứng, và nhiều hơn nữa dựa trên các quy tắc nhân tạo. 2.0 được điều khiển bởi phần mềm và thuật toán, và giai đoạn này có nhiều cảm biến hơn, cũng dựa vào học máy và các quy tắc. Bây giờ đến kỷ nguyên 3.0, nó được điều khiển bởi các mô hình lớn và ở giai đoạn này, có nhiều cảm biến sử dụng thuật toán đầu cuối và học tăng cường cũng sẽ được sử dụng, có thể đạt được lái xe tự động trong thế giới thực ở mức độ lớn hơn.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Zhang Yaqin, học giả của Học viện Kỹ thuật: Các mô hình lớn trước khi đào tạo và tạo ra sẽ mang lại những thay đổi mới trong mô hình của công nghệ lái xe tự trị
Sự xuất hiện của các mô hình lớn được đại diện bởi GPT đã tạo ra một bước nhảy vọt khác trong công nghệ trí tuệ nhân tạo và công nghệ AI đang trải qua quá trình thay đổi mô hình kỹ thuật từ phân biệt đối xử sang phát sinh. Với sự ra đời của các công nghệ mô hình lớn như thế hệ, đào tạo trước và đa phương thức, nó cũng cung cấp khả năng cho công nghệ lái xe tự động trưởng thành và không người lái.
Từ Viện Nghiên cứu Công nghiệp Thông minh Thanh Hoa (AIR), tổ chức nghiên cứu trí tuệ nhân tạo hàng đầu thế giới và công ty công nghệ AI lái xe tự động hàng đầu trong nước, Milli Zhixing có nhận định nhất quán đáng ngạc nhiên về xu hướng kỹ thuật và ứng dụng của các mô hình lớn. Đồng thời, hai bên cũng đã tiến hành thăm dò chuyên sâu theo hướng tối ưu hóa ra quyết định dựa trên dữ liệu, cùng nhau thúc đẩy hợp tác toàn diện và đa cấp ngành-đại học-nghiên cứu, đẩy nhanh ứng dụng công nghệ AI trong lĩnh vực lái xe tự hành.
Sau đây là toàn văn bài phát biểu của Viện sĩ Zhang Yaqin:
Thời tiết đẹp như vậy, một nơi đẹp như vậy, tôi rất vui khi được tham gia HAOMO AI DAY, và cũng cảm ơn Chủ tịch Zhang Kai và Weihao vì lời mời.
Hôm nay là HAOMO AI DAY lần thứ chín, trước hết, tôi xin chúc mừng Momo về những thành tựu to lớn mà anh ấy đã đạt được trong vòng chưa đầy 4 năm, đặc biệt là việc rèn giũa con đường riêng của mình. Tôi có ấn tượng rằng Momo là người đầu tiên phát hành mô hình lớn DriveGPT trong lái xe tự động, và nó nhanh chóng chuyển sang quy mô, và nó đã có thể trở thành người dẫn đầu trong lĩnh vực lái xe tự trị trong một thời gian ngắn như vậy.
Hôm nay tôi muốn nói về tiến bộ mới trong lái xe thông minh, tôi đã sử dụng cùng một chủ đề trong những năm qua, nhưng mỗi lần tôi sẽ thấy rằng nội dung hoàn toàn khác nhau, đặc biệt là sau khi AI tạo ra gần đây, đã có một sự thúc đẩy lớn của lái xe tự trị.
Chúng ta đã nói về "bốn hiện đại hóa" mới - mạng, trí thông minh, chia sẻ và điện khí hóa, trong đó quan trọng nhất là hai hiện đại hóa - điện khí hóa và trí thông minh. Điện khí hóa có thể được hiểu là năng lượng mới, và bây giờ Trung Quốc đã là thị trường năng lượng mới năng động nhất và lớn nhất thế giới, cho dù đó là quy mô người dùng hay quy mô xuất khẩu là đầu tiên của thế giới, đó là nửa đầu của ô tô mới. Điều quan trọng nhất trong nửa sau là lái xe thông minh, và điểm nóng và đỉnh cao của cạnh tranh toàn cầu trong 5-10 năm tới là lái xe tự động. Trí tuệ nhân tạo là động lực công nghệ cốt lõi của lái xe tự động, và kể từ khi thành lập, HAOMO AI DAY đã là công cụ công nghệ của công ty, vì vậy HAOMO AI DAY rất quan trọng.
Tại sao rất nhiều công ty làm lái xe thông minh? Bao gồm các nhà sản xuất ô tô truyền thống, lực lượng mới, doanh nghiệp công nghệ cao đang tham gia vào thị trường lái xe tự trị? Trên thực tế, có rất nhiều thách thức về kỹ thuật, trước hết, từ góc độ của AI, lái xe tự động rất phức tạp, đòi hỏi nhiều sức mạnh tính toán, thuật toán mới, là vấn đề trường dọc AI thách thức nhất, thứ hai, lái xe tự động cũng là giao điểm của trí thông minh tập trung, trí thông minh cạnh và trí thông minh tự trị hiện đang thấy. Trong video thử nghiệm vừa rồi, bạn có thể thấy rằng lái xe tự động phải đối mặt với rất nhiều kịch bản và thay đổi phức tạp, và thực sự có rất nhiều thách thức.
Tuy nhiên, tôi nghĩ rằng lái xe tự trị là hoàn toàn có thể đạt được, và có một số vấn đề chính, một số trong đó là các yếu tố thị trường, và một số trong đó là các lực lượng phi thị trường. Các yếu tố thị trường bao gồm: Công nghệ có khả thi không? Người dùng có nhu cầu thực sự không? Sinh thái công nghiệp và mô hình kinh doanh. Các yếu tố phi thị trường cũng rất quan trọng, đòi hỏi những đột phá công nghệ trong ngành, cũng như sự hỗ trợ của ngành công nghiệp chính phủ, và những đột phá trong chính sách và quy định.
Về mặt công nghệ, lúc đầu, nhiều người đã nói về việc lái xe không người lái có khả thi hay không, đặc biệt là liệu nó có khả thi trên L4 hay không? Tôi nghĩ rằng nó khả thi ngay từ đầu. Gần đây, tôi đã thấy một số dữ liệu rằng không người lái an toàn hơn khoảng 10 lần so với lái xe có người lái, và năm ngoái tôi đã nói về 3 lần, và năm nay nó đã đạt 10 lần. Điều này cho thấy bước đột phá về công nghệ đã được hoàn thành. Trong lộ trình thương mại hóa, hiện tại có nhiều cách khác nhau, một số đang sử dụng trí thông minh xe đạp, một số là phối hợp đường bộ, và có những tuyến đường dần dần, nhảy vọt, mã nguồn mở, tuyến đường đóng, các công ty khác nhau đang khám phá các lộ trình khác nhau, không nói cái nào là hoàn toàn chính xác, ngành công nghiệp đang thử lái xe tự động theo những cách khác nhau. Tôi biết rằng Momo đã chọn một trong những tiến bộ, và tôi nghĩ rằng tất cả đều tốt, và mọi người khám phá nó theo những cách khác nhau.
Điều quan trọng là các mô hình lớn phải vượt qua các giới hạn kỹ thuật. Trong sáu hoặc bảy mươi năm qua, đã có ba lý thuyết chính: Định luật Moore, kiến trúc của von Neumann, ba định luật của Shannon, và bây giờ cả ba lý thuyết đang bị phá vỡ. Nếu không có đột phá, mô hình lớn là không thể đạt được, đòi hỏi một phương pháp cảm biến mới, một phương pháp nhận thức mới, một bước đột phá trong kiến trúc máy tính mới, bao gồm một khung chip mới, v.v., và bây giờ mạng thần kinh tích chập Transformer và CNN chính thống cũng khác. Hiện tại, ngành công nghệ kỹ thuật số chủ yếu dựa trên điện toán dựa trên tấm silicon và có thể có khoa học sinh học, điện toán quang học và điện toán lượng tử trong tương lai.
Hiện tại, điều rất quan trọng là các mô hình lớn mang lại AI tạo ra và trong quá khứ, AI đã nói về phân loại, nghĩa là AI phân biệt đối xử. Giờ đây, bạn có thể tạo ra đầy đủ các ý tưởng nội dung mới, ý tưởng dữ liệu và rất nhiều ý tưởng mới cho các cảnh. Bây giờ hãy để tôi nói một chút về công việc của tôi trong lĩnh vực này.
Các mô hình lớn đi theo một hướng mới. Đầu tiên là đa phương thức, không chỉ ngôn ngữ tự nhiên, hình ảnh, video, mà còn cảm nhận tín hiệu, lidar và các tín hiệu nhận thức vật lý và cảm giác sinh học khác phát ra từ tất cả các phương tiện. Các bạn thấy mô hình GPT-4 đa phương thức, chức năng của nó rất mạnh, nhưng hiệu quả rất thấp, thấp hơn khoảng ít nhất 1000 lần so với hiệu quả tính toán và ra quyết định của bộ não con người, do đó vẫn cần các thuật toán mới, tôi nghĩ sẽ có những thuật toán mới trong 5 năm tới. Thứ hai là trí thông minh tự động, có thể tự động hoàn thành các nhiệm vụ, bao gồm cả điện toán biên, làm thế nào để đặt các mô hình lớn rất phức tạp trên rìa của điện thoại di động, ô tô, robot và trí thông minh thể hiện và thế giới vật lý với nhau, tôi nghĩ lái xe tự động là cảnh thông minh thể hiện quan trọng nhất. Tương lai là giai đoạn của trí thông minh não-máy tính, và mô hình lớn sẽ phải đối mặt với cách sử dụng thế giới sinh học, thế giới sự sống và cách kết nối tốt hơn giữa con người và bộ não.
Các kiến trúc công nghệ mới sẽ sử dụng các mô hình lớn, giống như hệ điều hành AI mới, sẽ có nhiều mô hình dọc, bao gồm cả lái xe tự động hoặc các mô hình dọc khác như khoa học đời sống.
Tôi sẽ nói ngắn gọn về Viện nghiên cứu công nghiệp thông minh Thanh Hoa (AIR), là viện nghiên cứu công nghiệp trí tuệ nhân tạo mà tôi thành lập sau khi nghỉ hưu từ Baidu, đã phát triển nhanh chóng trong 3 năm, và tôi cũng may mắn tìm thấy một nhóm các nhà khoa học và CTO doanh nghiệp có nền tảng công nghiệp sâu sắc và thành tích học tập sâu sắc. Bây giờ có khoảng 300 nghiên cứu sinh và sinh viên sau tiến sĩ, và lái xe tự trị là một trong những hướng, khoảng 100 người.
Mỗi lần tôi nói về AIR Research, tôi nghĩ về 25 năm trước khi tôi trở về Trung Quốc để thành lập Microsoft Research Asia. Tháng tới sẽ kỷ niệm 25 năm thành lập Microsoft Research Asia, bản thân nó đã khá thành công. Mô hình lớn mà tôi vừa nói đến được phát triển tại Microsoft Research, hy vọng sẽ xây dựng một viện nghiên cứu cho ngành công nghiệp Trung Quốc.
Khi chúng tôi tham gia vào các nghiên cứu khác nhau, chúng tôi hy vọng sẽ có một khuôn khổ lớn, chẳng hạn như lái xe thông minh, trước tiên chúng tôi phải xác định một số tuyến đường kỹ thuật. Trước hết, tôi nghĩ nhận thức đa phương thức là rất quan trọng, và dữ liệu đa quy mô, đa chiều từ bản gốc là rất quan trọng. Bởi để làm lái xe không người lái, lái xe thông minh, ưu điểm của robot trước hết là đòi hỏi nhiều dữ liệu hơn, lợi thế dữ liệu này vẫn chưa thể loại bỏ, vì vậy tôi không đồng ý với Musk nói rằng chỉ sử dụng camera, chúng ta cần sử dụng nhiều nguồn dữ liệu hơn. Thứ hai, nhiều xe tự lái giờ đây sẽ sử dụng rất nhiều bản đồ độ nét cao, nhưng chúng tôi tin rằng tương lai là bản đồ ánh sáng và không thể hoàn toàn phụ thuộc vào bản đồ.
Lái xe tự động để đạt đến giai đoạn an toàn và đáng tin cậy cuối cùng phải đạt được từ đầu đến cuối, điều này cũng rất khó, có các yếu tố kỹ thuật chi tiết hơn, bao gồm AI phát sinh, học tăng cường, mô hình ngôn ngữ lớn, chúng tôi có hai nền tảng: nền tảng mô hình lớn dữ liệu, nền tảng mô phỏng .
AIR cũng đã đề xuất mô hình lái xe tự động cơ bản của riêng mình. Đầu tiên, mô hình đề xuất cách thu thập dữ liệu khác nhau, bao gồm dữ liệu trong thế giới thực và dữ liệu mô phỏng. Dữ liệu được làm sạch thông qua một đường ống được kiểm soát, và sau đó đi qua hai mô hình lớn: mô hình nhận thức, mô hình ra quyết định, bao gồm đưa ra quyết định ở một số vị trí quan trọng trong đám mây và ở cuối xe, một số mô-đun dựa trên thông tin, một số là thống kê và một số là mô-đun dựa trên quy tắc.
Tôi đặc biệt lấy ra "học tăng cường" trong đó, bởi vì học tăng cường tôi đã sử dụng từ Baidu, nhưng nó rất khó sử dụng. Bởi vì an toàn lái xe tự động là rất quan trọng, nó khá khó sử dụng, nhưng tôi nghĩ đây là cách duy nhất chúng ta thực sự có thể đạt được độ an toàn cao hơn, học tăng cường có thể học những điều mới, và bây giờ phương pháp khái quát hóa phụ thuộc vào học tăng cường để học, và đã có nhiều phát triển mới gần đây. Làm thế nào để sử dụng học tăng cường trong rất nhiều mô phỏng và ra quyết định, và sử dụng nó trong hành vi lái xe thực tế. Mô hình bên trái là dữ liệu lớn dọc, cách sử dụng học tăng cường để điều chỉnh mô hình.
Ngoài ra, làm thế nào AI tạo ra có thể được sử dụng trong mô phỏng và ra quyết định? Có một ví dụ nhỏ ở đây, cả mô hình lớn và deep learning đều có vấn đề về tính minh bạch, vì vậy chúng tôi cũng đã thực hiện nghiên cứu này, tại sao tôi lại đưa ra quyết định này? Rẽ trái, phải, phanh, cho tôi biết những gì tôi thấy và tại sao tôi đưa ra quyết định này, và nó có thể hướng dẫn cách đưa ra quyết định. Điều này là để sử dụng dữ liệu thực, dữ liệu mô phỏng, mô hình dọc và mô hình lớn để tạo ra các cảnh chiều sâu ngữ nghĩa, bao gồm thông tin giao thông và người đi bộ.
Thứ hai là sự hợp nhất của bộ não con người và máy móc, chúng ta phải nghiên cứu cách mọi người lái xe. Đôi khi mọi người đưa ra quyết định tốt, đôi khi họ không, và thu thập thông tin này thông qua các cảm biến. Một mặt, trong một thời gian dài, con người và máy móc phải lái xe cùng nhau, và những người không người lái phải từ từ hiểu được lái xe của con người. Mặt khác, mô hình được sử dụng trong thuật toán để cải thiện hiệu quả của thuật toán.
Cuối cùng, chúng tôi rất vui mừng được hợp tác kỹ thuật sâu sắc với Milli về cách áp dụng học tăng cường vào việc ra quyết định nhận thức. Hiện nay, học tăng cường có nhiều vấn đề, online hay offline, trong đó có bài toán định nghĩa hàm, sự mơ hồ về chính sách, vì vậy chúng tôi đã thực hiện rất nhiều nghiên cứu như vậy. Trong khoảng một năm qua, rất nhiều bài báo đã được xuất bản tại Hội nghị hàng đầu quốc tế, và cũng có bằng sáng chế, và điều quan trọng nhất là nó đã bắt đầu được sử dụng trong ô tô và chiếc xe vừa thấy hậu cần đã bắt đầu sử dụng các thuật toán này.
Tóm lại, nếu bạn nhìn vào các giai đoạn khác nhau của lái xe thông minh và lái xe tự động, lúc đầu, nó được điều khiển nhiều hơn bởi lidar và phần cứng, và nhiều hơn nữa dựa trên các quy tắc nhân tạo. 2.0 được điều khiển bởi phần mềm và thuật toán, và giai đoạn này có nhiều cảm biến hơn, cũng dựa vào học máy và các quy tắc. Bây giờ đến kỷ nguyên 3.0, nó được điều khiển bởi các mô hình lớn và ở giai đoạn này, có nhiều cảm biến sử dụng thuật toán đầu cuối và học tăng cường cũng sẽ được sử dụng, có thể đạt được lái xe tự động trong thế giới thực ở mức độ lớn hơn.