Vào ngày 19 tháng 7, Meta đã thông báo về việc phát hành chính thức mô hình ngôn ngữ lớn Llama2 trên trang web chính thức của mình. Đây là phiên bản mới nhất của mô hình ngôn ngữ lớn Meta và là mô hình ngôn ngữ lớn thương mại mã nguồn mở đầu tiên của Meta. Đồng thời, Microsoft Azure cũng thông báo rằng nó sẽ hợp tác chuyên sâu với Llama2.
Theo dữ liệu chính thức của Meta, Llama 2 đã cải thiện 40% dữ liệu huấn luyện so với thế hệ trước, bao gồm 3 phiên bản tham số 7 tỷ, 13 tỷ và 70 tỷ. Mô hình được đào tạo trước của Llama 2 đã được đào tạo trên 2 nghìn tỷ mã thông báo với độ dài ngữ cảnh gấp đôi Llama 1 và mô hình tinh chỉnh của nó đã được đào tạo trên hơn 1 triệu chú thích của con người.
Hiệu suất của nó được cho là tương đương với GPT-3.5 và nó còn được gọi là mô hình lớn mã nguồn mở tốt nhất. Sau khi tin tức được đưa ra, giới truyền thông và ngành thậm chí còn đưa ra kết luận rằng việc thương mại hóa nguồn mở Llama2 sẽ thay đổi cục diện cạnh tranh trong lĩnh vực mô hình lớn. Mức độ ảnh hưởng của vụ việc này lớn như thế nào? Loại tác động nào nó sẽ mang lại cho ngành công nghiệp? Chúng tôi đã mời hai người trong ngành trò chuyện. Một người là Zhou Songtao, phó tổng giám đốc Trung tâm Nghiên cứu và Phát triển Sản phẩm của Leo Group Digital Technology Co., Ltd.. người mẫu lớn chủ đạo trong và ngoài nước, người kia Đó là bà Jiao Juan, Chủ tịch Viện Nghiên cứu Vũ trụ Anxinyuan, người đã quan sát sâu sắc hệ sinh thái của ngành công nghệ trong và ngoài nước trong nhiều năm.
Sau đây là quan điểm chính của cả hai:
① Llama2 xem xét các thông số mô hình, mức tiêu thụ thời gian, mức tiêu thụ điện năng tính toán và các khía cạnh khác một cách toàn diện. So với GPT-3.5, nó rất tự tin.
② Trí tuệ nhân tạo sáng tạo sẽ mang lại những thay đổi chấn động cho toàn bộ hệ thống nguồn mở.
③ Trong tương lai, nguồn mở và nguồn đóng chắc chắn sẽ thay đổi lẫn nhau, và một mô hình trò chơi và cạnh tranh lẫn nhau sẽ được hình thành trong lĩnh vực này trong một thời gian khá dài.
④ Mã nguồn mở thương mại của Llama2 sẽ không nhất thiết giảm chi phí cho các doanh nhân sử dụng mô hình lớn, nhưng nó có thể khiến các nhà cung cấp dịch vụ mô hình lớn bắt đầu cuộc chiến giá cả, đây là tin tốt cho người dùng và doanh nhân.
⑤ Sự cạnh tranh của các đại gia nước ngoài trong lĩnh vực AI không còn đơn giản như sự phát triển của đường cong thứ 2. Sự cạnh tranh rất khốc liệt và dứt khoát, thậm chí còn có chút tính mạng, những nguyên nhân đằng sau rất đáng suy ngẫm.
Sau đây là nội dung hội thoại chọn lọc:
**Tencent Technology: Từ quan điểm của những người thực hành hoặc ứng dụng trong ngành, làm thế nào để đánh giá một mô hình lớn? **
Zhou Songtao: MMLU là khung đánh giá mô hình quy mô lớn được sử dụng rộng rãi nhất trên thế giới. Nó xem xét kiến thức và khả năng toàn diện của 57 ngành, từ nhân văn đến khoa học xã hội đến khoa học và kỹ thuật. Hầu hết các đánh giá của chúng tôi đều dựa trên khung này. Nhưng ngành của chúng tôi là ngành quảng cáo, dựa trên các thuộc tính của ngành quảng cáo, chúng tôi sẽ thêm một số hạng mục đánh giá khác.
Chúng tôi cũng đã nói tại cuộc họp quản lý của nhóm rằng trọng tâm của ngành quảng cáo không phải là sự sáng tạo mà là sự kiểm soát. Các kết quả được tạo phải nhất quán 100% với nhà quảng cáo, hiệu suất sản phẩm, giao diện, biểu trưng, v.v. Chỉ sau khi đạt được những giảm thiểu này, mới có chỗ cho sự khác biệt và trí tưởng tượng. Vì vậy, chúng tôi sẽ thực hiện một thử nghiệm riêng để kiểm soát ảo giác của mô hình lớn. Tuy nhiên, hầu hết các mô hình ngôn ngữ lớn và mô hình khuếch tán để tạo hình ảnh trên thị trường đều khó đáp ứng đầy đủ nhu cầu của các nhà quảng cáo. Sau khi mô hình lớn cho mục đích chung được phát hành, vẫn còn một chặng đường dài trước khi nó được thương mại hóa hoàn toàn.
Ngoài ra, điều quan trọng nhất mà chúng tôi xem xét là vấn đề chi phí: mô hình nguồn đóng có hệ thống báo giá trực tiếp và chúng tôi thường đo lường chi phí của hàng nghìn Mã thông báo. Đối với mô hình nguồn mở, có nhiều liên kết hơn cần được đo lường và tính toán, từ triển khai đến tinh chỉnh đến lý luận trực tuyến cuối cùng, lượng điện năng tính toán được tiêu thụ và chi phí phát triển và chi phí dữ liệu được đầu tư vào việc duy trì mã nguồn mở là bao nhiêu. mô hình nguồn
Phản hồi về chất lượng của mô hình lớn cộng với ước tính chi phí có thể tạo thành đánh giá về mô hình. Nói một cách đơn giản, Hiệu suất chi phí càng cao thì càng phổ biến.
Jiao Juan: Theo quan điểm của chúng tôi, điều quan trọng hơn là làm thế nào để xác định một số yêu cầu theo chiều dọc. Bởi vì trên phạm vi toàn cầu, bất kể là công ty công nghệ phần cứng hay công ty Internet, có thể không có quá nhiều công ty thực sự có khả năng xác định yêu cầu, cho nên đề xuất này có thể chuyển thành——**Có thể quy mô lớn Nếu không, chúng ta có thể làm việc với các đối tác sinh thái để khám phá một hướng danh mục dọc tốt hơn không. Tất nhiên, sẽ tốt hơn nếu một số công ty có thể tích lũy dữ liệu và tích lũy kinh nghiệm của riêng họ theo một hướng cụ thể. Đây là quan điểm của chúng tôi, từ góc độ áp dụng và xác định nhu cầu của các ngành được phân khúc theo chiều dọc.
**Công nghệ Tencent: Liệu Llama2 có thực sự vượt qua hoặc sánh ngang với GPT-3.5 về mặt hiệu suất không? **
Zhou Songtao: Mô hình lớn cho Llama2 vẫn đang được đánh giá và sẽ mất khoảng 2 tuần. Nhưng từ nghiên cứu của chúng tôi về bài báo và một số đánh giá đơn giản đã được thực hiện cho đến nay, chúng tôi có thể đưa ra một số so sánh chung.
Có một số khác biệt giữa giai đoạn tiền đào tạo và mô hình ban đầu của GPT và những thay đổi này chưa từng được thực hiện bởi các công ty mô hình khác trước đây. Đầu tiên là thay đổi cơ chế chú ý nhiều đầu của Transformer truyền thống thành cơ chế nhóm phân mảnh trong giai đoạn tiền huấn luyện. Nó hơi giống hoặc bắt chước công nghệ sharding mà chúng tôi đã sử dụng khi xử lý dữ liệu lớn và xử lý dữ liệu song song quy mô lớn. Nhóm một số lượng lớn các truy vấn (yêu cầu) theo yêu cầu của sự chú ý thành các nhóm và đặt mỗi nhóm vào một đơn vị đào tạo, để hiệu quả và tốc độ xử lý song song về mặt lý thuyết sẽ được cải thiện rất nhiều. Tôi nghĩ rằng phần này là một thay đổi mới do Meta thực hiện dựa trên kinh nghiệm xử lý song song quy mô lớn trước đây.
Dựa trên sự thay đổi này, tôi nghĩ rằng về mặt lý thuyết, chúng cao hơn nhiều lần so với các mô hình lớn hiện có về yêu cầu năng lượng tính toán và mức tiêu thụ thời gian. Tôi ước tính rằng Llama2 sẽ bắt đầu vào tháng 1 theo tuyên bố của họ, tính theo thời gian phát hành, nó phải ngắn hơn thời gian đào tạo trước của Llama1 vì nó có số lượng tham số lớn hơn Llama1. Theo cách này, chu kỳ có thể có của nhiều vòng đào tạo được nén lại. Điều này liên quan chặt chẽ đến GQA được đề cập trong bài báo. Tại thời điểm này, nó sẽ vượt qua GPT4.Mặc dù chúng tôi không biết con số cụ thể của GPT-4, nhưng theo suy đoán bên ngoài, GPT-4 cao hơn nhiều so với GPT-3 và GPT-3.5.
Đối với GQA, chúng tôi hiện cảm thấy rằng **phương pháp xử lý của GQA thực sự có thể cải thiện tốc độ đào tạo cho người dùng có đủ thẻ điện toán, đặc biệt là tài nguyên điện toán song song GPU. **Tuy nhiên, các thử nghiệm và đánh giá ngang hàng cho thấy rằng chức năng này có yêu cầu cao về quy mô của nhóm sức mạnh điện toán và phần cứng. Vì những lý do nổi tiếng, các nhà phát triển ở Trung Quốc đại lục có ít tài nguyên điện toán song song GPU quy mô lớn, vì vậy **GQA có thể có tác động tiêu cực đến chúng ta.Thật vô vị. **
Ngoài ra, điểm thứ hai là trong giai đoạn điều chỉnh, chúng tôi biết rằng hệ thống GPT đã thực hiện xử lý dữ liệu theo lớp trong quá trình chuẩn hóa, điều này giúp kết quả đào tạo dữ liệu rất chính xác, nhưng nó cũng tiêu tốn rất nhiều năng lượng tính toán. Nhưng Llama2 sử dụng một giải pháp khác, đó là thêm các hệ số trọng số trên cơ sở xử lý theo lớp, điều này rất hữu ích để nâng cao hiệu quả và duy trì độ chính xác, đồng thời cũng hữu ích trong việc tiết kiệm năng lượng tính toán. Hai điểm này là những tối ưu hóa được thực hiện trong giai đoạn tiền đào tạo. **
Ngoài ra, bài báo cũng đề cập rằng vị trí Nhúng của Llama1 là cố định và không thể sửa đổi. Nhưng trong Llama2, điều này có thể được điều chỉnh linh hoạt, đây cũng là một điểm sáng. Chúng tôi cũng rất quan tâm đến điều này và muốn biết nó có thể tạo ra hiệu quả thực tế như thế nào.
Ngoài những điều này, Llama2 rõ ràng đã tiếp thu một số kinh nghiệm kỹ thuật của dòng Llama1 và GPT, tức là trải nghiệm thành công trong giai đoạn RHLF đã được sử dụng lại và nó sẽ được cải thiện rất nhiều.
Cuối cùng là thông số tỷ lệ Những gì tôi đã thấy cho đến nay là những thông số mà nó đã tiết lộ trên trang web chính thức của mình. Có hơn 1 triệu tham số bao gồm phản hồi được tăng cường nhân tạo và phần tinh chỉnh đạt tới hơn 100.000. Nếu anh ta dám tiết lộ những tham số này, điều đó có nghĩa là Meta có đủ tự tin để xem xét toàn diện các tham số mô hình, mức tiêu thụ thời gian và mức tiêu thụ năng lượng tính toán.
**Công nghệ Tencent: Tại sao ngưỡng cho nguồn mở thương mại được đặt thành không quá 700 triệu người dùng hoạt động hàng tháng? **
Jiao Juan: Đùa thôi, tôi thấy quy định này “rất thoáng”——Meta đã chơi một con bài sáng, vì không thể ngăn cản người khác nghiên cứu, vậy thì bỏ qua. Về bản chất, đó là kết quả của các trò chơi nội bộ. Các chỉ số tài chính của Meta không được tốt lắm kể từ đầu năm 2021, vì vậy nó đang tìm kiếm đường cong tăng trưởng thứ hai. Vào tháng 10 năm 2021, Meta đổi tên thành Tất cả trong Metaverse, nhưng không thấy cải thiện đáng kể nào. Nó đã tung ra mô hình lớn hiện tại, có thể được tích hợp với phần cứng của chính nó. Nó tương đương với việc chơi một quân bài sáng. Nó yêu cầu phần cứng, phần mềm và hệ điều hành. Nó hy vọng có chỗ đứng riêng trong thời đại AI, nhưng đồng thời là nguồn mở, nó không muốn quá có lợi cho đối thủ. Như bạn có thể thấy, 700 triệu sản phẩm hoạt động hàng tháng bao gồm YouTube 2,5 tỷ, Apple 1,8 tỷ, Microsoft 1,4 tỷ, Samsung 1 tỷ, LinkedIn 900 triệu, Snapchat 750 triệu, v.v.
**Công nghệ Tencent: Sự khác biệt cơ bản giữa nguồn mở thương mại và giấy phép nghiên cứu là gì? Có thể có tác động gì đối với hệ sinh thái nguồn mở? **
Zhou Songtao: Sau khi mô hình ngôn ngữ lớn bùng nổ, vấn đề nguồn mở cũng trở nên rất phức tạp, mọi người đã thực hiện rất nhiều điều chỉnh đối với định nghĩa về nguồn mở và quy tắc này. Nó sẽ liên quan đến việc bạn tự mở nguồn thuật toán, nghiên cứu dữ liệu nguồn mở, v.v. Đối với việc đánh giá mã nguồn mở tổng thể của mô hình ngôn ngữ mới hoặc mô hình tổng quát: đầu tiên, nó phụ thuộc vào việc mã thuật toán của nó có phải là mã nguồn mở hay không và sau đó liệu tập số đào tạo của nó có phải là mã nguồn mở hay không. Thứ ba là dựa trên thuật toán mã nguồn mở, nếu tôi tinh chỉnh hoặc xử lý khác thì chính sách ủy quyền của bạn sẽ có những ràng buộc gì. Thứ tư là sử dụng kết quả suy luận từ mô hình của bạn, liệu bên mô hình có quyền kiểm soát hay không. Chúng tôi thường đánh giá từ những hướng này liệu "nguồn mở" của mô hình này có thực sự có giá trị ứng dụng đối với chúng tôi hay không.
Về nghiên cứu mã nguồn mở và mã nguồn mở thương mại, tôi nhớ ví dụ điển hình nhất là công ty Stability AI, tôi nhớ rằng hai tuần trước khi LLama2 được mã nguồn mở, phiên bản XL của StabilityAI cũng đã được phát hành, tức là chỉ có nghiên cứu mới được cấp phép. mã nguồn mở và quy định rõ ràng rằng các mô hình có thể được sử dụng. Ví dụ: nghiên cứu với dữ liệu, nếu bạn là nhà nghiên cứu hoặc thuộc một trường đại học nào đó, nhưng nếu bạn sử dụng mô hình này để thương mại hóa thì hoàn toàn bị cấm và bạn cần xin phép riêng để sử dụng nó.
Tôi nghĩ rằng việc ủy quyền mã nguồn mở của các mô hình lớn đã thay đổi rất nhiều so với logic mã nguồn mở ban đầu. hệ thống nguồn. **
**Công nghệ Tencent: Mã nguồn mở thương mại của Llama2 sẽ có tác động gì đối với bối cảnh cạnh tranh của các mô hình lớn? **
Jiao Juan: Trong cuộc cạnh tranh của những người khổng lồ ở nước ngoài, có một phong cách, đó là làm cho sản phẩm và dịch vụ của họ dễ nhận biết, vì vậy Meta được gọi là Metaverse và Apple phải được gọi là New Universe, nếu người khác đóng nguồn, tôi sẽ chiếm nguồn mở . Nguồn mở trong quá khứ có thể đã được thực hiện bởi những người đam mê công nghệ với cảm giác tự do và suy nghĩ tương đối đơn giản. Nhưng bây giờ một cơ quan kinh doanh lớn như vậy đang lãnh đạo vấn đề này, nó thiên về lợi ích thương mại hơn.
Zhou Songtao: Tôi nghĩ ba yếu tố trong bối cảnh cạnh tranh của hệ thống trí tuệ nhân tạo tổng quát—sức mạnh tính toán, thuật toán và mô hình—không thay đổi. Trên thực tế, mô hình chỉ chiếm một phần ba các yếu tố cạnh tranh, nếu thay đổi mô hình, nó chỉ có thể thay đổi một phần ba hoặc nhiều hơn một phần ba một chút, tôi ước tính rằng nó lạc quan hơn, và nó có thể đạt khoảng 45%. **
Mô hình trong và ngoài nước vẫn không giống nhau, và mô hình ở cấp độ thuật toán nước ngoài rõ ràng hơn. Dữ liệu nước ngoài về cơ bản được làm sạch và vector hóa, tập dữ liệu đào tạo đã đủ và lợi thế cạnh tranh về dữ liệu là không rõ ràng, trừ khi bạn có dữ liệu độc quyền cho một ngành nào đó. Sức mạnh điện toán không phải là nơi mà những gã khổng lồ nước ngoài có thể nới rộng khoảng cách, những gã khổng lồ thực sự có sức mạnh để tranh giành sức mạnh điện toán.
Trước hết, các công ty trong nước có các thuật toán cơ bản cốt lõi thực sự rất hạn chế, thứ hai, mức độ làm sạch và vector hóa dữ liệu trong nước thực sự không cao. Trong những ngày đầu, nếu một công ty đầu tư nhiều năng lượng vào xử lý dữ liệu có cấu trúc, thì điều đó thực sự có thể bù đắp cho việc thiếu sức mạnh tính toán và thuật toán. Thứ ba, quốc gia này thực sự thiếu sức mạnh tính toán trong ngắn hạn. Do đó, tác động của nguồn mở LLama2 đối với bối cảnh trong nước hiện không dễ đánh giá.
Bên cạnh đó, ở nước ngoài, Google là người tiên phong thực sự trong toàn bộ trí tuệ nhân tạo sáng tạo, và sau đó anh ta gần như bị biến thành một kẻ tử vì đạo. Đó là bởi vì toàn bộ tài liệu nguồn của trí tuệ nhân tạo chung là "Chú ý là tất cả những gì bạn cần", và sau đó bao gồm mô hình mã nguồn mở sớm nhất T5 thực sự là Google. Google đã từng tự hào về đám đông. Thật bất ngờ, một con ngựa đen, OpenAI, sau đó đã bị giết, GPT-1 và GPT-2 sớm nhất là nguồn mở và GPT-3 là nguồn đóng sau khi nó là nguồn mở. Khi OpenAI gia nhập thị trường, nguồn mở là xu hướng chủ đạo của toàn bộ trí tuệ nhân tạo tổng hợp.
OpenAI đã thành lập Microsoft vào thời điểm này và cũng sở hữu sức mạnh tính toán rất đắt đỏ, trở thành đối thủ cạnh tranh mạnh mẽ của Google. Bắt đầu từ năm 2022, thị trường trí tuệ nhân tạo tổng hợp sẽ bắt đầu bước vào hệ thống nguồn đóng. OpenAI đã làm chủ thuật toán, bổ sung sức mạnh tính toán và dữ liệu của Microsoft, đồng thời cung cấp nguồn đóng cho sản phẩm và sản phẩm đã trở thành một cú hích cấp độ hiện tượng, đồng thời cả Microsoft và OpenAI đều được hưởng lợi từ nó. Tôi nghĩ rằng khi Meta lần đầu tiên quyết định tham gia vào lĩnh vực này, người ta ước tính rằng nó đã nghiên cứu kỹ lịch sử phát triển ngay từ đầu, bây giờ OpenAI đã rút khỏi lĩnh vực nguồn mở sang nguồn đóng, thì tôi sẽ sử dụng phương pháp mã nguồn mở để đánh bại ma thuật của bạn một lần nữa.
Trước đó, Meta cũng chứng kiến sức sống của một số công ty nhỏ sau mã nguồn mở, đặc biệt là Stability AI, công ty này chưa có nền tảng sâu, công ty còn nhiều tranh cãi.
Tôi nhớ Llama1 đã công bố mã nguồn mở vào tháng 3. Lúc đó nó cũng nói là "vô tình mã nguồn mở", rồi Stability AI cũng nói tôi vô tình rò rỉ mã nên nó cũng là mã nguồn mở. Con đường tổng thể là Google đã đặt ra giai điệu của nguồn mở, sau đó OpenAI và Microsoft chuyển nó trở lại hệ thống nguồn đóng, rồi Meta và Stability AI lại đưa nó trở lại nguồn mở. Tôi nghĩ rằng trong tương lai, **Open nguồn Và nguồn đóng phải đu đưa lẫn nhau, và một mô hình trò chơi và cạnh tranh lẫn nhau sẽ được hình thành trong một thời gian dài trong lĩnh vực này. **
**Công nghệ Tencent: Meta mã nguồn mở Llama2 là phương sách cuối cùng hay một lựa chọn chiến lược tích cực? **
Jiao Juan: Đó phải là một lựa chọn chiến lược tích cực, bởi vì ba đối thủ cạnh tranh chính trong lĩnh vực AR là Meta, Microsoft và Google đã chiến đấu hơn mười năm. Meta nhanh chóng tung ra LLama2, ít nhất là nhanh hơn Google. Việc lựa chọn nguồn mở và nguồn đóng sẽ không loại bỏ được một số nhu cầu lợi ích thiết yếu, vì vậy tôi nghĩ việc thay đổi hoàn toàn mô hình cạnh tranh có thể không có ý nghĩa lắm. Thứ hai là tình hình trong nước đã khác nên cần quan sát lại mô hình cạnh tranh trong nước.
Cho dù đó là nguồn mở hay nguồn đóng, về cơ bản, đó là sự lựa chọn chiến lược giữa các công ty này trên khắp thế giới trước những cơ hội lớn mới. Khi nỗ lực bố trí mặt trận, tôi cũng hy vọng có thể chiếm được nội địa Bier càng nhiều càng tốt. Cuộc cạnh tranh của các đại gia nước ngoài không còn đơn giản như việc phát triển đường cong tăng trưởng thứ hai hay thứ N. Cuộc cạnh tranh rất khốc liệt và quyết đoán, thậm chí là một chút cứu mạng.
Tôi nghĩ đây là điều đáng để mọi người thảo luận nhất: Loại môi trường hay bối cảnh nào đằng sau hành động của họ, để họ phải làm điều này một cách dứt khoát như vậy, giống như một cuộc chạy đua vũ trang.
Gần đây cũng có một số điều đáng chú ý, công ty X-AI của Musk được thành lập, muốn hiểu lại thế giới vật chất thực, tất cả những người khổng lồ đều đang nhìn chằm chằm vào việc hiện thực hóa AGI. Bản đồ này ngày càng lớn hơn. Tuy nhiên, thế giới kinh doanh mới và bối cảnh kinh doanh mới luôn yêu cầu một số ứng dụng và sản phẩm phổ biến mới để thúc đẩy nó. Có thể khó đạt được điều này vào năm 2023. Chúng ta có thể đặt hy vọng vào năm 2024, có thể kính MR của Apple sẽ là một cơ hội mới.
**Tencent Technology: Chúng ta cũng thấy rằng hai gã khổng lồ nước ngoài khác là Musk và Apple đã không đưa ra những tuyên bố nổi bật về tiến độ của họ trong lĩnh vực mô hình cỡ lớn. Bạn nghĩ sao về điều này? **
Jiao Juan: Hiện tại họ chỉ đang giữ lại và điều chắc chắn là những gì họ tung ra chắc chắn sẽ không được gọi là mô hình lớn. Tôi nghĩ chúng ta có thể tập trung vào cấp độ tiếp theo, trí thông minh thể hiện. Theo hướng này, Musk ít lo lắng nhất. Lợi thế lớn nhất của Apple nằm ở sự kết hợp giữa phần mềm và phần cứng.
Zhou Songtao: Chúng tôi đã tự mình thử nghiệm sơ bộ và chip **M2 có thể cạnh tranh với thẻ của Nvidia về sức mạnh tính toán dấu phẩy động. ** Apple có thể tích hợp phần mềm và phần cứng, điều này thực sự vượt ra ngoài bối cảnh cạnh tranh hiện tại của các mô hình lớn.
Trí thông minh hiện thân, tôi nghĩ, có thể là một cột mốc mới trong sự phát triển của trí tuệ nhân tạo nói chung trong tương lai, bởi vì một khi bạn có khả năng suy luận mạnh mẽ, nó chắc chắn sẽ được mở rộng sang thế giới vật chất và là điểm cốt lõi để kiểm soát thế giới vật chất là nhúng nó vào cơ thể Hoặc nhúng vào các cảm biến trong thế giới vật chất, thì đây là một hệ thống trở thành hiện thân của trí thông minh. Như ông Zhou vừa nói, điều này đã biến thành một loạt công ty của Musk.
Khi chúng ta kết hợp phần mềm và phần cứng với nhau để xem xét toàn bộ trí tuệ nhân tạo nói chung, bạn sẽ thấy rằng bối cảnh cạnh tranh đã thay đổi một lần nữa, không còn Google, Meta và AI mở đang cạnh tranh nữa mà có thể có nhiều công ty phần cứng hơn tham gia TRONG.
**Công nghệ Tencent: Mã nguồn mở thương mại của Llama2, có thể giảm chi phí khởi động mô hình quy mô lớn không? **
Zhou Songtao: Tôi không chắc về điều này bây giờ, bởi vì mặc dù nó tiết kiệm chi phí thuê API, nhưng bạn sẽ thấy rằng đợt giảm giá lớn của OpenAI vào ngày 15 tháng 6 là gần 10%, vì vậy mô hình nguồn đóng cũng đang đấu tranh về giá chiến tranh. Ngược lại, nếu mô hình nguồn mở được sử dụng, chi phí phần cứng, chi phí điện toán và chi phí dữ liệu sẽ được yêu cầu là bao nhiêu? Chi phí ẩn rất khó ước tính. Nói một cách đơn giản từ nguồn mở của LLama2, tôi nghĩ nó không nhất thiết là một con đường tiết kiệm chi phí cho tinh thần kinh doanh.
Về chi phí suy luận, chúng tôi hiện đang đo lường và kết hợp các bài viết đánh giá của người thử nghiệm nước ngoài và nhận thấy rằng đối với một số loại nhiệm vụ suy luận cụ thể, chẳng hạn như phân loại hoặc quy trình langchain, hiệu quả suy luận và mức tiêu thụ thời gian của Llama2 bị giảm, nhưng đối với các loại khác của các tác vụ, **Nếu so với phiên bản chụp nhanh của GPT-3.5-turbo-0615, nó có thể không nhất thiết phải rẻ hơn (chỉ xét về mức tiêu thụ điện năng tính toán suy luận); **Phiên bản gốc hiện tại rất thông thạo và hiểu chính xác Tiếng Trung, nhưng biểu thức tiếng Trung gần như bằng 0, ** Vì vậy, các doanh nhân Trung Quốc muốn sử dụng đầy đủ Llama2 phải chi rất nhiều tiền để giải quyết việc tinh chỉnh hoặc hướng dẫn biểu thức tiếng Trung hoặc đợi cộng đồng mã nguồn mở cung cấp biểu thức tiếng Trung phiên bản... Chi phí này không hề thấp. **
Ngoài ra, nguồn mở thương mại của **Llama2 thực sự có thể khiến các nhà cung cấp dịch vụ quy mô lớn bắt đầu cuộc chiến giá cả, đây là tin tốt cho người dùng và doanh nhân. **
Jiao Juan: Thẳng thắn mà nói, tôi vẫn mong đợi một số mô hình công nghiệp hoặc mô hình dọc ở Trung Quốc. Cá nhân tôi đã chọn một vài công ty đầy triển vọng, được đặc trưng bởi hiệu suất vững chắc trong ngành này và kinh nghiệm tích lũy dữ liệu liên tục và xây dựng nền tảng. Ngoài ra, tôi nghĩ vòng này không phải là vấn đề vé đắt hay không, mà là bạn có đắt hay không, mọi người đều đang đối mặt với sự biến đổi.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Đằng sau mô hình mã nguồn mở thương mại Meta mạnh mẽ nhất: cuộc cạnh tranh cứu người khổng lồ, Musk và Apple tìm cách khác
Text: Guo Xiaojing, Tencent Technology
Vào ngày 19 tháng 7, Meta đã thông báo về việc phát hành chính thức mô hình ngôn ngữ lớn Llama2 trên trang web chính thức của mình. Đây là phiên bản mới nhất của mô hình ngôn ngữ lớn Meta và là mô hình ngôn ngữ lớn thương mại mã nguồn mở đầu tiên của Meta. Đồng thời, Microsoft Azure cũng thông báo rằng nó sẽ hợp tác chuyên sâu với Llama2.
Theo dữ liệu chính thức của Meta, Llama 2 đã cải thiện 40% dữ liệu huấn luyện so với thế hệ trước, bao gồm 3 phiên bản tham số 7 tỷ, 13 tỷ và 70 tỷ. Mô hình được đào tạo trước của Llama 2 đã được đào tạo trên 2 nghìn tỷ mã thông báo với độ dài ngữ cảnh gấp đôi Llama 1 và mô hình tinh chỉnh của nó đã được đào tạo trên hơn 1 triệu chú thích của con người.
Hiệu suất của nó được cho là tương đương với GPT-3.5 và nó còn được gọi là mô hình lớn mã nguồn mở tốt nhất. Sau khi tin tức được đưa ra, giới truyền thông và ngành thậm chí còn đưa ra kết luận rằng việc thương mại hóa nguồn mở Llama2 sẽ thay đổi cục diện cạnh tranh trong lĩnh vực mô hình lớn. Mức độ ảnh hưởng của vụ việc này lớn như thế nào? Loại tác động nào nó sẽ mang lại cho ngành công nghiệp? Chúng tôi đã mời hai người trong ngành trò chuyện. Một người là Zhou Songtao, phó tổng giám đốc Trung tâm Nghiên cứu và Phát triển Sản phẩm của Leo Group Digital Technology Co., Ltd.. người mẫu lớn chủ đạo trong và ngoài nước, người kia Đó là bà Jiao Juan, Chủ tịch Viện Nghiên cứu Vũ trụ Anxinyuan, người đã quan sát sâu sắc hệ sinh thái của ngành công nghệ trong và ngoài nước trong nhiều năm.
Sau đây là quan điểm chính của cả hai:
① Llama2 xem xét các thông số mô hình, mức tiêu thụ thời gian, mức tiêu thụ điện năng tính toán và các khía cạnh khác một cách toàn diện. So với GPT-3.5, nó rất tự tin.
② Trí tuệ nhân tạo sáng tạo sẽ mang lại những thay đổi chấn động cho toàn bộ hệ thống nguồn mở.
③ Trong tương lai, nguồn mở và nguồn đóng chắc chắn sẽ thay đổi lẫn nhau, và một mô hình trò chơi và cạnh tranh lẫn nhau sẽ được hình thành trong lĩnh vực này trong một thời gian khá dài.
④ Mã nguồn mở thương mại của Llama2 sẽ không nhất thiết giảm chi phí cho các doanh nhân sử dụng mô hình lớn, nhưng nó có thể khiến các nhà cung cấp dịch vụ mô hình lớn bắt đầu cuộc chiến giá cả, đây là tin tốt cho người dùng và doanh nhân.
⑤ Sự cạnh tranh của các đại gia nước ngoài trong lĩnh vực AI không còn đơn giản như sự phát triển của đường cong thứ 2. Sự cạnh tranh rất khốc liệt và dứt khoát, thậm chí còn có chút tính mạng, những nguyên nhân đằng sau rất đáng suy ngẫm.
Sau đây là nội dung hội thoại chọn lọc:
**Tencent Technology: Từ quan điểm của những người thực hành hoặc ứng dụng trong ngành, làm thế nào để đánh giá một mô hình lớn? **
Zhou Songtao: MMLU là khung đánh giá mô hình quy mô lớn được sử dụng rộng rãi nhất trên thế giới. Nó xem xét kiến thức và khả năng toàn diện của 57 ngành, từ nhân văn đến khoa học xã hội đến khoa học và kỹ thuật. Hầu hết các đánh giá của chúng tôi đều dựa trên khung này. Nhưng ngành của chúng tôi là ngành quảng cáo, dựa trên các thuộc tính của ngành quảng cáo, chúng tôi sẽ thêm một số hạng mục đánh giá khác.
Chúng tôi cũng đã nói tại cuộc họp quản lý của nhóm rằng trọng tâm của ngành quảng cáo không phải là sự sáng tạo mà là sự kiểm soát. Các kết quả được tạo phải nhất quán 100% với nhà quảng cáo, hiệu suất sản phẩm, giao diện, biểu trưng, v.v. Chỉ sau khi đạt được những giảm thiểu này, mới có chỗ cho sự khác biệt và trí tưởng tượng. Vì vậy, chúng tôi sẽ thực hiện một thử nghiệm riêng để kiểm soát ảo giác của mô hình lớn. Tuy nhiên, hầu hết các mô hình ngôn ngữ lớn và mô hình khuếch tán để tạo hình ảnh trên thị trường đều khó đáp ứng đầy đủ nhu cầu của các nhà quảng cáo. Sau khi mô hình lớn cho mục đích chung được phát hành, vẫn còn một chặng đường dài trước khi nó được thương mại hóa hoàn toàn.
Ngoài ra, điều quan trọng nhất mà chúng tôi xem xét là vấn đề chi phí: mô hình nguồn đóng có hệ thống báo giá trực tiếp và chúng tôi thường đo lường chi phí của hàng nghìn Mã thông báo. Đối với mô hình nguồn mở, có nhiều liên kết hơn cần được đo lường và tính toán, từ triển khai đến tinh chỉnh đến lý luận trực tuyến cuối cùng, lượng điện năng tính toán được tiêu thụ và chi phí phát triển và chi phí dữ liệu được đầu tư vào việc duy trì mã nguồn mở là bao nhiêu. mô hình nguồn
Phản hồi về chất lượng của mô hình lớn cộng với ước tính chi phí có thể tạo thành đánh giá về mô hình. Nói một cách đơn giản, Hiệu suất chi phí càng cao thì càng phổ biến.
Jiao Juan: Theo quan điểm của chúng tôi, điều quan trọng hơn là làm thế nào để xác định một số yêu cầu theo chiều dọc. Bởi vì trên phạm vi toàn cầu, bất kể là công ty công nghệ phần cứng hay công ty Internet, có thể không có quá nhiều công ty thực sự có khả năng xác định yêu cầu, cho nên đề xuất này có thể chuyển thành——**Có thể quy mô lớn Nếu không, chúng ta có thể làm việc với các đối tác sinh thái để khám phá một hướng danh mục dọc tốt hơn không. Tất nhiên, sẽ tốt hơn nếu một số công ty có thể tích lũy dữ liệu và tích lũy kinh nghiệm của riêng họ theo một hướng cụ thể. Đây là quan điểm của chúng tôi, từ góc độ áp dụng và xác định nhu cầu của các ngành được phân khúc theo chiều dọc.
**Công nghệ Tencent: Liệu Llama2 có thực sự vượt qua hoặc sánh ngang với GPT-3.5 về mặt hiệu suất không? **
Zhou Songtao: Mô hình lớn cho Llama2 vẫn đang được đánh giá và sẽ mất khoảng 2 tuần. Nhưng từ nghiên cứu của chúng tôi về bài báo và một số đánh giá đơn giản đã được thực hiện cho đến nay, chúng tôi có thể đưa ra một số so sánh chung.
Có một số khác biệt giữa giai đoạn tiền đào tạo và mô hình ban đầu của GPT và những thay đổi này chưa từng được thực hiện bởi các công ty mô hình khác trước đây. Đầu tiên là thay đổi cơ chế chú ý nhiều đầu của Transformer truyền thống thành cơ chế nhóm phân mảnh trong giai đoạn tiền huấn luyện. Nó hơi giống hoặc bắt chước công nghệ sharding mà chúng tôi đã sử dụng khi xử lý dữ liệu lớn và xử lý dữ liệu song song quy mô lớn. Nhóm một số lượng lớn các truy vấn (yêu cầu) theo yêu cầu của sự chú ý thành các nhóm và đặt mỗi nhóm vào một đơn vị đào tạo, để hiệu quả và tốc độ xử lý song song về mặt lý thuyết sẽ được cải thiện rất nhiều. Tôi nghĩ rằng phần này là một thay đổi mới do Meta thực hiện dựa trên kinh nghiệm xử lý song song quy mô lớn trước đây.
Dựa trên sự thay đổi này, tôi nghĩ rằng về mặt lý thuyết, chúng cao hơn nhiều lần so với các mô hình lớn hiện có về yêu cầu năng lượng tính toán và mức tiêu thụ thời gian. Tôi ước tính rằng Llama2 sẽ bắt đầu vào tháng 1 theo tuyên bố của họ, tính theo thời gian phát hành, nó phải ngắn hơn thời gian đào tạo trước của Llama1 vì nó có số lượng tham số lớn hơn Llama1. Theo cách này, chu kỳ có thể có của nhiều vòng đào tạo được nén lại. Điều này liên quan chặt chẽ đến GQA được đề cập trong bài báo. Tại thời điểm này, nó sẽ vượt qua GPT4.Mặc dù chúng tôi không biết con số cụ thể của GPT-4, nhưng theo suy đoán bên ngoài, GPT-4 cao hơn nhiều so với GPT-3 và GPT-3.5.
Đối với GQA, chúng tôi hiện cảm thấy rằng **phương pháp xử lý của GQA thực sự có thể cải thiện tốc độ đào tạo cho người dùng có đủ thẻ điện toán, đặc biệt là tài nguyên điện toán song song GPU. **Tuy nhiên, các thử nghiệm và đánh giá ngang hàng cho thấy rằng chức năng này có yêu cầu cao về quy mô của nhóm sức mạnh điện toán và phần cứng. Vì những lý do nổi tiếng, các nhà phát triển ở Trung Quốc đại lục có ít tài nguyên điện toán song song GPU quy mô lớn, vì vậy **GQA có thể có tác động tiêu cực đến chúng ta.Thật vô vị. **
Ngoài ra, bài báo cũng đề cập rằng vị trí Nhúng của Llama1 là cố định và không thể sửa đổi. Nhưng trong Llama2, điều này có thể được điều chỉnh linh hoạt, đây cũng là một điểm sáng. Chúng tôi cũng rất quan tâm đến điều này và muốn biết nó có thể tạo ra hiệu quả thực tế như thế nào.
Ngoài những điều này, Llama2 rõ ràng đã tiếp thu một số kinh nghiệm kỹ thuật của dòng Llama1 và GPT, tức là trải nghiệm thành công trong giai đoạn RHLF đã được sử dụng lại và nó sẽ được cải thiện rất nhiều.
Cuối cùng là thông số tỷ lệ Những gì tôi đã thấy cho đến nay là những thông số mà nó đã tiết lộ trên trang web chính thức của mình. Có hơn 1 triệu tham số bao gồm phản hồi được tăng cường nhân tạo và phần tinh chỉnh đạt tới hơn 100.000. Nếu anh ta dám tiết lộ những tham số này, điều đó có nghĩa là Meta có đủ tự tin để xem xét toàn diện các tham số mô hình, mức tiêu thụ thời gian và mức tiêu thụ năng lượng tính toán.
Jiao Juan: Đùa thôi, tôi thấy quy định này “rất thoáng”——Meta đã chơi một con bài sáng, vì không thể ngăn cản người khác nghiên cứu, vậy thì bỏ qua. Về bản chất, đó là kết quả của các trò chơi nội bộ. Các chỉ số tài chính của Meta không được tốt lắm kể từ đầu năm 2021, vì vậy nó đang tìm kiếm đường cong tăng trưởng thứ hai. Vào tháng 10 năm 2021, Meta đổi tên thành Tất cả trong Metaverse, nhưng không thấy cải thiện đáng kể nào. Nó đã tung ra mô hình lớn hiện tại, có thể được tích hợp với phần cứng của chính nó. Nó tương đương với việc chơi một quân bài sáng. Nó yêu cầu phần cứng, phần mềm và hệ điều hành. Nó hy vọng có chỗ đứng riêng trong thời đại AI, nhưng đồng thời là nguồn mở, nó không muốn quá có lợi cho đối thủ. Như bạn có thể thấy, 700 triệu sản phẩm hoạt động hàng tháng bao gồm YouTube 2,5 tỷ, Apple 1,8 tỷ, Microsoft 1,4 tỷ, Samsung 1 tỷ, LinkedIn 900 triệu, Snapchat 750 triệu, v.v.
**Công nghệ Tencent: Sự khác biệt cơ bản giữa nguồn mở thương mại và giấy phép nghiên cứu là gì? Có thể có tác động gì đối với hệ sinh thái nguồn mở? **
Zhou Songtao: Sau khi mô hình ngôn ngữ lớn bùng nổ, vấn đề nguồn mở cũng trở nên rất phức tạp, mọi người đã thực hiện rất nhiều điều chỉnh đối với định nghĩa về nguồn mở và quy tắc này. Nó sẽ liên quan đến việc bạn tự mở nguồn thuật toán, nghiên cứu dữ liệu nguồn mở, v.v. Đối với việc đánh giá mã nguồn mở tổng thể của mô hình ngôn ngữ mới hoặc mô hình tổng quát: đầu tiên, nó phụ thuộc vào việc mã thuật toán của nó có phải là mã nguồn mở hay không và sau đó liệu tập số đào tạo của nó có phải là mã nguồn mở hay không. Thứ ba là dựa trên thuật toán mã nguồn mở, nếu tôi tinh chỉnh hoặc xử lý khác thì chính sách ủy quyền của bạn sẽ có những ràng buộc gì. Thứ tư là sử dụng kết quả suy luận từ mô hình của bạn, liệu bên mô hình có quyền kiểm soát hay không. Chúng tôi thường đánh giá từ những hướng này liệu "nguồn mở" của mô hình này có thực sự có giá trị ứng dụng đối với chúng tôi hay không.
Về nghiên cứu mã nguồn mở và mã nguồn mở thương mại, tôi nhớ ví dụ điển hình nhất là công ty Stability AI, tôi nhớ rằng hai tuần trước khi LLama2 được mã nguồn mở, phiên bản XL của StabilityAI cũng đã được phát hành, tức là chỉ có nghiên cứu mới được cấp phép. mã nguồn mở và quy định rõ ràng rằng các mô hình có thể được sử dụng. Ví dụ: nghiên cứu với dữ liệu, nếu bạn là nhà nghiên cứu hoặc thuộc một trường đại học nào đó, nhưng nếu bạn sử dụng mô hình này để thương mại hóa thì hoàn toàn bị cấm và bạn cần xin phép riêng để sử dụng nó.
Tôi nghĩ rằng việc ủy quyền mã nguồn mở của các mô hình lớn đã thay đổi rất nhiều so với logic mã nguồn mở ban đầu. hệ thống nguồn. **
**Công nghệ Tencent: Mã nguồn mở thương mại của Llama2 sẽ có tác động gì đối với bối cảnh cạnh tranh của các mô hình lớn? **
Jiao Juan: Trong cuộc cạnh tranh của những người khổng lồ ở nước ngoài, có một phong cách, đó là làm cho sản phẩm và dịch vụ của họ dễ nhận biết, vì vậy Meta được gọi là Metaverse và Apple phải được gọi là New Universe, nếu người khác đóng nguồn, tôi sẽ chiếm nguồn mở . Nguồn mở trong quá khứ có thể đã được thực hiện bởi những người đam mê công nghệ với cảm giác tự do và suy nghĩ tương đối đơn giản. Nhưng bây giờ một cơ quan kinh doanh lớn như vậy đang lãnh đạo vấn đề này, nó thiên về lợi ích thương mại hơn.
Zhou Songtao: Tôi nghĩ ba yếu tố trong bối cảnh cạnh tranh của hệ thống trí tuệ nhân tạo tổng quát—sức mạnh tính toán, thuật toán và mô hình—không thay đổi. Trên thực tế, mô hình chỉ chiếm một phần ba các yếu tố cạnh tranh, nếu thay đổi mô hình, nó chỉ có thể thay đổi một phần ba hoặc nhiều hơn một phần ba một chút, tôi ước tính rằng nó lạc quan hơn, và nó có thể đạt khoảng 45%. **
Mô hình trong và ngoài nước vẫn không giống nhau, và mô hình ở cấp độ thuật toán nước ngoài rõ ràng hơn. Dữ liệu nước ngoài về cơ bản được làm sạch và vector hóa, tập dữ liệu đào tạo đã đủ và lợi thế cạnh tranh về dữ liệu là không rõ ràng, trừ khi bạn có dữ liệu độc quyền cho một ngành nào đó. Sức mạnh điện toán không phải là nơi mà những gã khổng lồ nước ngoài có thể nới rộng khoảng cách, những gã khổng lồ thực sự có sức mạnh để tranh giành sức mạnh điện toán.
Trước hết, các công ty trong nước có các thuật toán cơ bản cốt lõi thực sự rất hạn chế, thứ hai, mức độ làm sạch và vector hóa dữ liệu trong nước thực sự không cao. Trong những ngày đầu, nếu một công ty đầu tư nhiều năng lượng vào xử lý dữ liệu có cấu trúc, thì điều đó thực sự có thể bù đắp cho việc thiếu sức mạnh tính toán và thuật toán. Thứ ba, quốc gia này thực sự thiếu sức mạnh tính toán trong ngắn hạn. Do đó, tác động của nguồn mở LLama2 đối với bối cảnh trong nước hiện không dễ đánh giá.
Bên cạnh đó, ở nước ngoài, Google là người tiên phong thực sự trong toàn bộ trí tuệ nhân tạo sáng tạo, và sau đó anh ta gần như bị biến thành một kẻ tử vì đạo. Đó là bởi vì toàn bộ tài liệu nguồn của trí tuệ nhân tạo chung là "Chú ý là tất cả những gì bạn cần", và sau đó bao gồm mô hình mã nguồn mở sớm nhất T5 thực sự là Google. Google đã từng tự hào về đám đông. Thật bất ngờ, một con ngựa đen, OpenAI, sau đó đã bị giết, GPT-1 và GPT-2 sớm nhất là nguồn mở và GPT-3 là nguồn đóng sau khi nó là nguồn mở. Khi OpenAI gia nhập thị trường, nguồn mở là xu hướng chủ đạo của toàn bộ trí tuệ nhân tạo tổng hợp.
OpenAI đã thành lập Microsoft vào thời điểm này và cũng sở hữu sức mạnh tính toán rất đắt đỏ, trở thành đối thủ cạnh tranh mạnh mẽ của Google. Bắt đầu từ năm 2022, thị trường trí tuệ nhân tạo tổng hợp sẽ bắt đầu bước vào hệ thống nguồn đóng. OpenAI đã làm chủ thuật toán, bổ sung sức mạnh tính toán và dữ liệu của Microsoft, đồng thời cung cấp nguồn đóng cho sản phẩm và sản phẩm đã trở thành một cú hích cấp độ hiện tượng, đồng thời cả Microsoft và OpenAI đều được hưởng lợi từ nó. Tôi nghĩ rằng khi Meta lần đầu tiên quyết định tham gia vào lĩnh vực này, người ta ước tính rằng nó đã nghiên cứu kỹ lịch sử phát triển ngay từ đầu, bây giờ OpenAI đã rút khỏi lĩnh vực nguồn mở sang nguồn đóng, thì tôi sẽ sử dụng phương pháp mã nguồn mở để đánh bại ma thuật của bạn một lần nữa.
Trước đó, Meta cũng chứng kiến sức sống của một số công ty nhỏ sau mã nguồn mở, đặc biệt là Stability AI, công ty này chưa có nền tảng sâu, công ty còn nhiều tranh cãi.
Tôi nhớ Llama1 đã công bố mã nguồn mở vào tháng 3. Lúc đó nó cũng nói là "vô tình mã nguồn mở", rồi Stability AI cũng nói tôi vô tình rò rỉ mã nên nó cũng là mã nguồn mở. Con đường tổng thể là Google đã đặt ra giai điệu của nguồn mở, sau đó OpenAI và Microsoft chuyển nó trở lại hệ thống nguồn đóng, rồi Meta và Stability AI lại đưa nó trở lại nguồn mở. Tôi nghĩ rằng trong tương lai, **Open nguồn Và nguồn đóng phải đu đưa lẫn nhau, và một mô hình trò chơi và cạnh tranh lẫn nhau sẽ được hình thành trong một thời gian dài trong lĩnh vực này. **
**Công nghệ Tencent: Meta mã nguồn mở Llama2 là phương sách cuối cùng hay một lựa chọn chiến lược tích cực? **
Jiao Juan: Đó phải là một lựa chọn chiến lược tích cực, bởi vì ba đối thủ cạnh tranh chính trong lĩnh vực AR là Meta, Microsoft và Google đã chiến đấu hơn mười năm. Meta nhanh chóng tung ra LLama2, ít nhất là nhanh hơn Google. Việc lựa chọn nguồn mở và nguồn đóng sẽ không loại bỏ được một số nhu cầu lợi ích thiết yếu, vì vậy tôi nghĩ việc thay đổi hoàn toàn mô hình cạnh tranh có thể không có ý nghĩa lắm. Thứ hai là tình hình trong nước đã khác nên cần quan sát lại mô hình cạnh tranh trong nước.
Cho dù đó là nguồn mở hay nguồn đóng, về cơ bản, đó là sự lựa chọn chiến lược giữa các công ty này trên khắp thế giới trước những cơ hội lớn mới. Khi nỗ lực bố trí mặt trận, tôi cũng hy vọng có thể chiếm được nội địa Bier càng nhiều càng tốt. Cuộc cạnh tranh của các đại gia nước ngoài không còn đơn giản như việc phát triển đường cong tăng trưởng thứ hai hay thứ N. Cuộc cạnh tranh rất khốc liệt và quyết đoán, thậm chí là một chút cứu mạng.
Tôi nghĩ đây là điều đáng để mọi người thảo luận nhất: Loại môi trường hay bối cảnh nào đằng sau hành động của họ, để họ phải làm điều này một cách dứt khoát như vậy, giống như một cuộc chạy đua vũ trang.
Gần đây cũng có một số điều đáng chú ý, công ty X-AI của Musk được thành lập, muốn hiểu lại thế giới vật chất thực, tất cả những người khổng lồ đều đang nhìn chằm chằm vào việc hiện thực hóa AGI. Bản đồ này ngày càng lớn hơn. Tuy nhiên, thế giới kinh doanh mới và bối cảnh kinh doanh mới luôn yêu cầu một số ứng dụng và sản phẩm phổ biến mới để thúc đẩy nó. Có thể khó đạt được điều này vào năm 2023. Chúng ta có thể đặt hy vọng vào năm 2024, có thể kính MR của Apple sẽ là một cơ hội mới.
**Tencent Technology: Chúng ta cũng thấy rằng hai gã khổng lồ nước ngoài khác là Musk và Apple đã không đưa ra những tuyên bố nổi bật về tiến độ của họ trong lĩnh vực mô hình cỡ lớn. Bạn nghĩ sao về điều này? **
Jiao Juan: Hiện tại họ chỉ đang giữ lại và điều chắc chắn là những gì họ tung ra chắc chắn sẽ không được gọi là mô hình lớn. Tôi nghĩ chúng ta có thể tập trung vào cấp độ tiếp theo, trí thông minh thể hiện. Theo hướng này, Musk ít lo lắng nhất. Lợi thế lớn nhất của Apple nằm ở sự kết hợp giữa phần mềm và phần cứng.
Zhou Songtao: Chúng tôi đã tự mình thử nghiệm sơ bộ và chip **M2 có thể cạnh tranh với thẻ của Nvidia về sức mạnh tính toán dấu phẩy động. ** Apple có thể tích hợp phần mềm và phần cứng, điều này thực sự vượt ra ngoài bối cảnh cạnh tranh hiện tại của các mô hình lớn.
Trí thông minh hiện thân, tôi nghĩ, có thể là một cột mốc mới trong sự phát triển của trí tuệ nhân tạo nói chung trong tương lai, bởi vì một khi bạn có khả năng suy luận mạnh mẽ, nó chắc chắn sẽ được mở rộng sang thế giới vật chất và là điểm cốt lõi để kiểm soát thế giới vật chất là nhúng nó vào cơ thể Hoặc nhúng vào các cảm biến trong thế giới vật chất, thì đây là một hệ thống trở thành hiện thân của trí thông minh. Như ông Zhou vừa nói, điều này đã biến thành một loạt công ty của Musk.
Khi chúng ta kết hợp phần mềm và phần cứng với nhau để xem xét toàn bộ trí tuệ nhân tạo nói chung, bạn sẽ thấy rằng bối cảnh cạnh tranh đã thay đổi một lần nữa, không còn Google, Meta và AI mở đang cạnh tranh nữa mà có thể có nhiều công ty phần cứng hơn tham gia TRONG.
**Công nghệ Tencent: Mã nguồn mở thương mại của Llama2, có thể giảm chi phí khởi động mô hình quy mô lớn không? **
Zhou Songtao: Tôi không chắc về điều này bây giờ, bởi vì mặc dù nó tiết kiệm chi phí thuê API, nhưng bạn sẽ thấy rằng đợt giảm giá lớn của OpenAI vào ngày 15 tháng 6 là gần 10%, vì vậy mô hình nguồn đóng cũng đang đấu tranh về giá chiến tranh. Ngược lại, nếu mô hình nguồn mở được sử dụng, chi phí phần cứng, chi phí điện toán và chi phí dữ liệu sẽ được yêu cầu là bao nhiêu? Chi phí ẩn rất khó ước tính. Nói một cách đơn giản từ nguồn mở của LLama2, tôi nghĩ nó không nhất thiết là một con đường tiết kiệm chi phí cho tinh thần kinh doanh.
Về chi phí suy luận, chúng tôi hiện đang đo lường và kết hợp các bài viết đánh giá của người thử nghiệm nước ngoài và nhận thấy rằng đối với một số loại nhiệm vụ suy luận cụ thể, chẳng hạn như phân loại hoặc quy trình langchain, hiệu quả suy luận và mức tiêu thụ thời gian của Llama2 bị giảm, nhưng đối với các loại khác của các tác vụ, **Nếu so với phiên bản chụp nhanh của GPT-3.5-turbo-0615, nó có thể không nhất thiết phải rẻ hơn (chỉ xét về mức tiêu thụ điện năng tính toán suy luận); **Phiên bản gốc hiện tại rất thông thạo và hiểu chính xác Tiếng Trung, nhưng biểu thức tiếng Trung gần như bằng 0, ** Vì vậy, các doanh nhân Trung Quốc muốn sử dụng đầy đủ Llama2 phải chi rất nhiều tiền để giải quyết việc tinh chỉnh hoặc hướng dẫn biểu thức tiếng Trung hoặc đợi cộng đồng mã nguồn mở cung cấp biểu thức tiếng Trung phiên bản... Chi phí này không hề thấp. **
Ngoài ra, nguồn mở thương mại của **Llama2 thực sự có thể khiến các nhà cung cấp dịch vụ quy mô lớn bắt đầu cuộc chiến giá cả, đây là tin tốt cho người dùng và doanh nhân. **
Jiao Juan: Thẳng thắn mà nói, tôi vẫn mong đợi một số mô hình công nghiệp hoặc mô hình dọc ở Trung Quốc. Cá nhân tôi đã chọn một vài công ty đầy triển vọng, được đặc trưng bởi hiệu suất vững chắc trong ngành này và kinh nghiệm tích lũy dữ liệu liên tục và xây dựng nền tảng. Ngoài ra, tôi nghĩ vòng này không phải là vấn đề vé đắt hay không, mà là bạn có đắt hay không, mọi người đều đang đối mặt với sự biến đổi.