Với dữ liệu lớn, thông số lớn và sức mạnh tính toán lớn, một số khả năng nhất định của các mô hình lớn sẽ "nổi lên", được lan truyền rộng rãi trong giới công nghệ.
Ý tưởng chính của việc tạo ra một mô hình lớn là: đừng dễ dàng nói rằng mô hình "không hoạt động", nếu "nó chưa hoạt động", thì hãy làm cho nó lớn hơn.
Do đó, trong vòng chưa đầy một năm, quy mô thông số của mô hình lớn đã tăng gấp 100 lần, và bây giờ nó đã vượt quá mức nghìn tỷ, mức tiêu thụ tài nguyên rất lớn, và nó cũng mang lại chi phí lưu trữ ngày càng cao, chi phí suy luận, chi phí vận hành và bảo trì, và chi phí hạ cánh. và chi phí xã hội.
Hiện tại, mô hình lớn vẫn đang ở buổi bình minh của thương mại hóa, và vẫn còn nhiều ẩn số và không chắc chắn về cách thu hồi khoản đầu tư vào mô hình lớn, và mô hình lớn ngày càng lớn hơn và trở thành một doanh nghiệp cực kỳ đốt tiền, được hỗ trợ bởi Open AI của Microsoft, sẽ lỗ khoảng 540 triệu đô la vào năm 2022.
Chi phí ngày càng mở rộng là hóa đơn tiền thật, và "rơm rạ" đè nặng lên các doanh nghiệp mô hình lớn. Giám đốc điều hành của Anthropic, Dario Amodei, gần đây đã dự đoán rằng mô hình của họ sẽ có giá 10 tỷ đô la trong hai năm tới.
Ngoài bản thân các doanh nghiệp, xã hội cũng đang phải gánh chịu những chi phí tiềm ẩn của các mô hình lớn. Google đã báo cáo rằng đào tạo PaLM tiêu thụ khoảng 3,4 kWh điện trong khoảng hai tháng, tương đương với tổng mức tiêu thụ năng lượng hàng năm của 300 hộ gia đình. Gánh nặng và chi phí tiêu thụ năng lượng cao đối với môi trường do mô hình lớn mang lại cuối cùng được trả bởi toàn xã hội.
Rõ ràng, cả về mặt thương mại và môi trường, quy mô của mô hình cạnh tranh là không bền vững.
Thời đại mù quáng tìm kiếm sự vĩ đại đã qua.
Câu hỏi đặt ra là, làm thế nào để "giảm gánh nặng" cho mô hình lớn?
Trên thực tế, các nhà sản xuất đứng đầu của các mô hình lớn nói chung đã tích cực thực hiện chiến dịch "giảm béo chi phí".
Ví dụ, Microsoft đã công bố tại Microsoft Build 2020 rằng siêu máy tính AI cung cấp năng lượng cho GPT-3 có thể làm cho các mô hình AI hiệu quả hơn 16 lần so với các nền tảng khác và đào tạo nhanh hơn có thể giảm thời gian và chi phí rủi ro.
Các mô hình lớn trong nước cũng không ngoại lệ.
Ngay từ phiên bản 2.0, mô hình lớn Pangu đã cố gắng áp dụng kiến trúc thưa thớt + dày đặc để giảm chi phí đào tạo. Một tháng sau khi ra mắt, Wenxin Yiyan cũng đã cải thiện hiệu suất suy luận của mô hình lớn gần 10 lần thông qua các phương tiện kỹ thuật và chi phí suy luận đã giảm xuống còn một phần mười chi phí ban đầu.
Để tránh trở nên cồng kềnh và nặng nề, bắt buộc phải trở thành một công cụ mà mọi người đều có thể sử dụng, và "phong trào giảm béo chi phí" của các mô hình lớn. Thế nào? Bài viết này sẽ nói về vấn đề này.
** Một miếng không thể làm cho một người đàn ông béo**
Chi phí nào của các mô hình lớn có thể được tối ưu hóa, chi phí nào không thể giảm và chi phí nào cần được đầu tư thêm? Trước khi bạn tìm ra điều này, trước tiên bạn phải biết làm thế nào để có được chất béo. Để đảm bảo hiệu suất và trải nghiệm người dùng (sức khỏe) của mô hình lớn, việc "giảm chi phí" có thể được thực hiện một cách hợp lý và chính xác.
Nói một cách đơn giản, ba yếu tố của AI - dữ liệu, sức mạnh tính toán và thuật toán - vẫn là những yếu tố quan trọng nhất trong việc xác định chi phí của các mô hình lớn.
Hãy bắt đầu với dữ liệu. ** Rác vào, rác ra, vẫn áp dụng trong thời đại của các mô hình lớn.
Chất lượng của dữ liệu quyết định trực tiếp khả năng của mô hình lớn. OpenAI đã tuyển dụng một số tiến sĩ để xử lý dữ liệu chuyên nghiệp trong các ngành công nghiệp khác nhau và đã thuê một số công ty chú thích dữ liệu như công ty kỳ lân Scale AI để cung cấp cho GPT-3 các bộ dữ liệu quy mô lớn. Đồng thời, mô hình thuật toán sẽ tiếp tục được nâng cấp lặp đi lặp lại và nhu cầu về khối lượng dữ liệu sẽ tiếp tục trong một thời gian ngắn với sự gia tăng sử dụng và tối ưu hóa hiệu suất.
Một trong những lý do chính cho chi phí cao của các mô hình lớn của Trung Quốc là vẫn còn khoảng cách giữa số lượng và chất lượng dữ liệu Trung Quốc và tiếng Anh, và nhiều dữ liệu tiếng Trung Quốc cần được thu thập và xử lý để đào tạo các mô hình lớn của Trung Quốc. Mặt khác, cấu trúc ngữ pháp tiếng Anh đơn giản hơn tiếng Trung, sự phức tạp và đa dạng của các văn bản tiếng Trung, một số từ tiếng Trung có thể diễn đạt nhiều nghĩa, ngữ cảnh phong phú và nhiều sự mơ hồ và khó khăn trong việc hiểu ngữ cảnh, điều này cũng làm tăng độ khó đào tạo của các mô hình Trung Quốc, và đòi hỏi các nguồn lực bổ sung để hỗ trợ đào tạo các mô hình lớn của Trung Quốc.
Hãy nói về sức mạnh tính toán. **
Tài nguyên cần được tính toán và lưu trữ trong suốt quá trình đào tạo, vận hành, dịch vụ và lặp lại các mô hình lớn.
Việc đào tạo các mô hình lớn tập trung vào "thẩm mỹ bạo lực" và các tham số càng lớn, càng có nhiều tài nguyên máy tính được sử dụng để đào tạo. GPT-3 sử dụng một siêu máy tính chứa 10.000 GPU và 285.000 lõi xử lý. Wenxin 4.0 trong nước cũng được đào tạo trong cụm Vanka dựa trên nền tảng mái chèo.
Và đó không phải là tất cả. Các mô hình lớn được tiếp xúc với các dịch vụ sau khi triển khai và khi mức sử dụng tăng lên, ngày càng có nhiều nhiệm vụ suy luận cần phải được hoàn thành. Quá trình suy luận "suy nghĩ" và "đầu ra" trong 24 giờ cũng sẽ tiếp tục tiêu tốn tài nguyên máy tính, giống như bộ não con người cần tiêu thụ glycogen khi xử lý một số lượng lớn các nhiệm vụ phức tạp, và rất dễ cảm thấy đói và phải ăn một bữa ăn lớn để bổ sung năng lượng. Do đó, chi phí suy luận của các mô hình lớn cũng rất cao.
Suy luận của GPT-3 sau khi triển khai 175B đòi hỏi ít nhất năm GPU A100 và các mô hình lớn mở cửa cho toàn xã hội ở Trung Quốc, chẳng hạn như Wenxin Yiyan, được cho là có chi phí suy luận gấp 8-10 lần so với thế hệ trước.
Cuối cùng, hãy nói về thuật toán. **
Để giảm sự phụ thuộc rất lớn của các mô hình lớn vào tài nguyên máy tính, một giải pháp chính là tối ưu hóa mô hình, trên cơ sở hiệu suất không thay đổi, với tốc độ suy luận nhanh hơn, độ trễ nhỏ hơn và yêu cầu tài nguyên thấp hơn, tương đương với tỷ lệ đầu vào-đầu ra ROI cao hơn và chi phí đơn vị của tài nguyên tính toán cần thiết cho đào tạo và suy luận thấp hơn.
Có nhiều lao động như có trí thông minh, và không thể tạo ra một mô hình lớn thực sự có thể chơi mà không có tài năng. Phát triển thuật toán, thử nghiệm, lặp lại, sản xuất hóa, v.v., tất cả đều đòi hỏi một số lượng lớn tài năng kỹ thuật. Chi phí nhân công có cao hay không phụ thuộc vào mô hình kinh doanh của mô hình lớn có mạnh mẽ hay không.
Đội ngũ tài năng với trình độ học vấn đầy đủ khá cạnh tranh trong giai đoạn nghiên cứu và phát triển. Câu hỏi đặt ra là, làm thế nào để bạn kiếm tiền? Các lệnh gọi API hoặc phí sử dụng, mã thông báo nhỏ hơn một xu và lợi tức đầu tư có thể còn xa; Đăng ký trả phí (phiên bản chuyên nghiệp), mô hình lớn đầu có hiệu ứng siphon, mọi người sẽ chọn OpenAI hoặc BATH và các nhà sản xuất lớn khác, liệu mô hình lớn của riêng họ có thể được người dùng chấp nhận và sẵn sàng trả tiền hay không, vẫn chưa được biết; Để tùy chỉnh sự phát triển cho khách hàng trong ngành, ToB nên có hiểu biết sâu sắc về ngành, nghiên cứu, phát triển, thử nghiệm và lặp lại, để các kỹ sư thuật toán với mức lương hàng năm hàng chục triệu có thể ở lại công trường trong vài tháng và tỷ suất lợi nhuận gộp của dự án ước tính không tốt lắm.
Do đó, liệu một mô hình lớn có thể thành công hay không không chỉ phụ thuộc vào khả năng của chính thuật toán, mà còn phụ thuộc vào việc chu kỳ kinh doanh từ phát triển đến thực hiện có bền vững hay không.
** Ngậm miệng và mở chân **
Nếu chúng ta so sánh chi phí của mô hình lớn với một người muốn giảm mỡ thừa, thì mục tiêu này có thể được chia thành hai cách cơ bản:
Một là tạo ra "chênh lệch nhiệt". Đó là giữ kín miệng và mở chân, kiểm soát đầu tư, trừ chi phí dư thừa, đẩy nhanh thương mại hóa và tăng thu nhập, và giảm cân một cách tự nhiên.
Thứ hai là trở thành một người "dễ giảm cân". Hiểu đầy đủ về cơ chế của các mô hình lớn, sử dụng kiến trúc mới để giải quyết vấn đề về cơ chế chú ý Transformer và có vóc dáng "dù ăn như thế nào, bạn cũng không thể béo".
Nghe có vẻ như cái thứ hai rất hấp dẫn sao?
Không phải kiểm soát chi phí, thu hút người dùng, tùy chỉnh dịch vụ và dễ dàng nằm xuống để kiếm tiền, và loại điều tốt này? Thực sự.
Hiện tại, tất cả các mô hình ngôn ngữ lớn đều sử dụng kiến trúc Transformer rất khó xử lý các văn bản dài và hình ảnh có độ phân giải cao, và lý luận logic và quy nạp kiến thức dựa vào "tạo ra phép lạ mạnh mẽ", rất tốn kém. Nhiều nguyên tắc cơ bản vẫn chưa rõ ràng, dẫn đến nhiều vấn đề tồn tại, chẳng hạn như tạo ra "ảo giác" và khả năng suy luận hạn chế.
Người chiến thắng giải thưởng Turing Yann LeCun đã chỉ trích mô hình kỹ thuật của các mô hình ngôn ngữ lớn hơn một lần, nói rằng "LLM có sự hiểu biết rất hời hợt về thế giới", và ông muốn xây dựng một "mô hình thế giới" để tìm hiểu cách thế giới hoạt động, sau đó hình thành một mô hình nội bộ, và sau đó sử dụng mô hình nội bộ này để hoàn thành các nhiệm vụ khác nhau. Ngoài ra, có nhiều nhà khoa học thảo luận về trí thông minh chung AGI từ các lĩnh vực nghiên cứu tương ứng của họ.
Tóm lại, nhiều nguyên tắc của các mô hình ngôn ngữ lớn hiện tại không rõ ràng và công nghệ vẫn đang thay đổi. Trong tương lai, các mô hình công nghệ khác có thể xuất hiện để lật đổ mô hình hiện tại là mù quáng tìm cách trở nên lớn hơn, và sau đó có thể không cần chi phí quá cao và "giảm béo" đau đớn.
Bạn có thể đã tìm ra rằng nghiên cứu các nguyên tắc cơ bản và tìm kiếm một công nghệ AGI mạnh mẽ hơn nghe có vẻ thú vị, nhưng nó thực sự không phải là một điểm số và chưa có mốc thời gian rõ ràng. Mô hình kỹ thuật của vòng mô hình ngôn ngữ lớn này là khả thi trong thực hành kỹ thuật, có thể hoạt động trong ngành và có tác dụng rõ ràng trong việc cải thiện chất lượng và hiệu quả. Sử dụng nó trước và nắm bắt hiện tại là ưu tiên hàng đầu của các công ty công nghệ.
Do đó, các doanh nghiệp kiểu mẫu quy mô lớn chỉ có thể ngậm miệng, mở chân, kiểm soát chi phí càng sớm càng tốt, đẩy nhanh thương mại hóa, tạo "chênh lệch nhiệt lượng" để phát triển lành tính, bền vững.
** Bốn phong trào hiện đại hóa để tạo ra "sự khác biệt về calo"**
Vì vậy, làm thế nào chính xác để bạn tạo ra một "chênh lệch nhiệt"? **Dựa trên các phương pháp chủ đạo hiện có trên thị trường, chúng tôi tóm tắt chúng là "Phong trào Bốn hiện đại hóa": quy mô dữ liệu, nén mô hình, hiệu quả tính toán và phân tầng kinh doanh. **
Quy mô dữ liệu là để cải thiện lợi ích cận biên của dữ liệu và đạt được hiệu suất chi phí tốt nhất thông qua hiệu ứng quy mô. Hiệu ứng quy mô chủ yếu đạt được thông qua ba cách, một là quy mô tập trung công nghiệp và cấp quốc gia đã đề xuất rõ ràng để "đẩy nhanh việc phát triển thị trường yếu tố dữ liệu", liên quan đến sản xuất dữ liệu, thu thập, lưu trữ, xử lý, phân tích, dịch vụ và các liên kết khác, công nghiệp hóa sẽ giúp giảm chi phí dữ liệu của các doanh nghiệp mô hình lớn. Thứ hai là ứng dụng các công cụ AI, giúp giảm sự tham gia thủ công vào tất cả các khía cạnh của kỹ thuật dữ liệu, tăng tốc độ xử lý dữ liệu được đào tạo trước, giảm chi phí và nâng cao hiệu quả cho việc đào tạo mô hình. Thứ ba là quy mô dữ liệu phản hồi. Một số mô hình lớn đã mở dịch vụ của họ cho toàn xã hội trước đó, chẳng hạn như Baidu Wenxin Yiyan, "SenseChat" của SenseTime, "Mô hình Baichuan" của Baichuan Intelligence, "Mô hình tia lửa" của iFLYTEK, v.v., dự kiến sẽ đạt được quy mô dữ liệu tối ưu với lợi ích cận biên nhanh hơn.
Có một lợi ích cận biên cho dữ liệu. OpenAl đã cho phép người dùng quyết định có cho phép họ sử dụng dữ liệu trò chuyện để đào tạo hay không, điều đó có nghĩa là họ không còn có thể dựa vào dữ liệu phản hồi của người dùng, vì vậy chi phí lưu trữ và tính toán dữ liệu có thể được kiểm soát.
Nén mô hình là để cải thiện hiệu suất của mô hình, đạt được hiệu suất cao hơn với ít tài nguyên hơn và chuyển đổi mô hình lớn sử dụng nhiều tài nguyên thành phiên bản nhỏ gọn và hiệu quả hơn thông qua công nghệ nén. Tương tự như chuyển đổi chất béo thành cơ bắp, cơ bắp dày đặc hơn và trọng lượng (hiệu suất) vẫn giữ nguyên, trong khi người trở nên gầy hơn (nhỏ hơn).
Hiện nay, có ba phương pháp nén mô hình lớn phổ biến: định lượng, cắt tỉa và chắt lọc kiến thức. **
Định lượng, tương đương với hút mỡ, đơn giản và thô sơ nhưng hiệu quả. Độ chính xác của mô hình càng cao, càng cần nhiều không gian lưu trữ. Tuy nhiên, trong suy luận, không cần thiết phải nắm bắt những thay đổi gradient rất nhỏ trong các mô hình phức tạp, vì vậy lượng tử hóa có thể trực tiếp làm giảm độ chính xác tham số của mô hình và "trích xuất" một số thông tin chi tiết, do đó giảm không gian chiếm dụng và không làm giảm khả năng suy luận. Ví dụ, Qualcomm AI Research sử dụng công nghệ lượng tử hóa để duy trì độ chính xác của mô hình ở mức độ chính xác thấp hơn và lần đầu tiên triển khai Stable Diffusion trên điện thoại thông minh Android. Công nghệ định lượng cũng đã được áp dụng trong các mô hình lớn trong nước như Wenxin và Pangu.
Cắt tỉa, tương tự như "cắt bỏ", trừ trực tiếp một số nhánh bên ít ảnh hưởng đến hiệu ứng, chẳng hạn như một số lượng lớn các cấu trúc và tế bào thần kinh dư thừa, và các trọng lượng nhỏ hơn này được loại bỏ, ít ảnh hưởng đến hiệu quả của mô hình và làm giảm kích thước của mô hình. Tất nhiên, cắt tỉa là một "công việc thủ công", và việc cắt tỉa càng chính xác, sự mất độ chính xác cho mô hình càng nhỏ và hiệu quả nén càng tốt.
Chắt lọc kiến thức là để cho mô hình lớn "phòng tắm hơi", và mô hình 100 tỷ được chưng cất trong một lần để tạo ra một số mô hình nhỏ có hiệu suất tương tự và cấu trúc đơn giản hơn, và chi phí hạ cánh thấp hơn. Thách thức là mô hình chưng cất với quy mô 100 tỷ cũng tiêu tốn tài nguyên tính toán cực cao, và khoảng cách khối lượng dữ liệu từ 100 tỷ đến hàng chục triệu là quá lớn, dễ ảnh hưởng đến hiệu quả chưng cất. Chưng cất không phá hủy là một trong những điểm cạnh tranh kỹ thuật của các nhà sản xuất lớn.
Vì công nghệ nén mô hình cũng tiêu tốn tài nguyên máy tính, điều đặc biệt quan trọng là cải thiện hiệu quả tính toán của cơ sở hạ tầng máy tính.
Hiệu quả tính toán là tiền đề để các nhà sản xuất mô hình lớn cung cấp dịch vụ mô hình với hiệu quả cao hơn.
Hiệu suất của chip và cụm máy tính là trọng tâm của nghiên cứu và tối ưu hóa. Microsoft Cloud Azure đã xây dựng một siêu máy tính cho điện toán AI dành riêng cho OpenAI. Các nhà sản xuất trong nước, chẳng hạn như Baidu và Huawei, có chip tự phát triển và khung học sâu, có thể cải thiện hiệu quả tính toán thông qua tối ưu hóa đầu cuối, cải thiện tốc độ đào tạo và tốc độ suy luận của các mô hình lớn, đồng thời giảm thời gian và chi phí đào tạo.
Tuy nhiên, đối với các mô hình lớn không chung chung như mô hình ngành và mô hình ngành, hiệu ứng quy mô và công nghệ tối ưu hóa phần cứng còn hạn chế, chi phí tự xây dựng và bảo trì cơ sở hạ tầng rất cao, vì vậy sử dụng dịch vụ đám mây để đào tạo và triển khai dịch vụ là một lựa chọn tiết kiệm chi phí hơn.
Trong phân tích cuối cùng, các mô hình lớn cần tăng doanh thu thương mại để đạt được mục đích tối ưu hóa ROI và thu hồi chi phí. Hiện nay, việc thương mại hóa các mô hình lớn khác nhau phản ánh các đặc điểm phân cấp rõ ràng.
Nói một cách đơn giản, nó là một mô hình lớn với khối lượng khác nhau, chức năng khác nhau và hướng khác nhau, và con đường thương mại hóa đã bắt đầu rõ ràng.
Mô hình chung dựa trên tính kinh tế theo quy mô và thị trường có giá trị cao. OpenAI có số lượng người dùng khổng lồ và sự phát triển của nền kinh tế API có hiệu ứng quy mô và khoản đầu tư trả trước có thể được chia sẻ đồng đều với sự tăng trưởng của khối lượng kinh doanh. BATH (Baidu, Alibaba, Tencent, Huawei) và các công ty khác có doanh nghiệp đám mây của riêng họ và đã tích lũy được kinh nghiệm phong phú trong các dịch vụ công nghiệp, đặc biệt là khả năng tiếp cận khách hàng của các chính phủ và doanh nghiệp lớn như tài chính, khai thác mỏ và các vấn đề chính phủ, và có tiềm năng lớn để chuyển đổi thương mại. Các yêu cầu cao của khách hàng ToB thúc đẩy việc cải thiện trải nghiệm và hiệu quả mô hình, đồng thời cũng có thể phục vụ thị trường ToC và khấu hao thêm chi phí thông qua quy mô.
Mô hình công nghiệp lớn chủ động hạn chế ranh giới sản phẩm và kinh doanh, tập trung vào hoạt động kinh doanh và chức năng cốt lõi, đồng thời phát triển các mô hình nhỏ chuyên biệt với ít nguồn lực hơn, để đạt được sự cân bằng ROI tốt giữa đầu tư và thương mại hóa. Ví dụ, trong lĩnh vực tài chính, "Xuanyuan 70B" của Du Xiaoman đã kết hợp một số lượng lớn các kho tài chính chuyên nghiệp để nâng cao hiểu biết về kiến thức tài chính, đáp ứng các yêu cầu đặc biệt của khách hàng tài chính về khả năng kiểm soát và bảo mật, và đã được hàng trăm tổ chức tài chính áp dụng để thử nghiệm.
Nhìn chung, mô hình lớn không chỉ là một con đường phổ quát và tổng quát, mà việc tư nhân hóa và triển khai cá nhân hóa hàng ngàn ngành công nghiệp sẽ tạo ra các yếu tố ra quyết định như giá cả, quyền riêng tư và bảo mật, đồng thời mang lại một số lượng lớn các cơ hội kinh doanh phân khúc. Mô hình lớn chung, mô hình lớn công nghiệp và mô hình nhỏ độc quyền, phân cấp + nỗ lực chung mở đường cho thương mại hóa. Sự hài hòa và khác biệt kiểm tra sự khôn ngoan của mọi vai trò trong chuỗi công nghiệp.
Đối với các dịch vụ lâu dài và bền vững, cần phải ngậm miệng và mở chân, và "giảm chi phí" của mô hình lớn là cách duy nhất.
Quá trình này có thể gây đau đớn, nhưng nó sẽ ngưng tụ một con hào để bảo vệ sự phát triển lành mạnh của toàn ngành.
Vào những năm 40 của thế kỷ 20, khi máy tính mới ra đời, con người đã rất ngạc nhiên trước cơ thể khổng lồ của "quái vật máy" này, nhưng rồi bước nhảy vọt của thời đại thông tin bắt đầu. Khi điện thoại thông minh lần đầu tiên ra đời, các nhà sản xuất điện thoại tính năng đã cực kỳ mỉa mai về nó, nhưng họ không ngờ rằng loại kết nối toàn diện này, nơi mọi người đều có thể truy cập Internet, đã thúc đẩy sự thịnh vượng của Internet di động.
Khi các mô hình lớn ngày càng tốt hơn, "AI cho mọi người" sẽ không còn là giấc mơ xa vời.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Phong trào "giảm béo chi phí" của các mô hình lớn
Nguồn gốc: Brain polar body
Với dữ liệu lớn, thông số lớn và sức mạnh tính toán lớn, một số khả năng nhất định của các mô hình lớn sẽ "nổi lên", được lan truyền rộng rãi trong giới công nghệ.
Ý tưởng chính của việc tạo ra một mô hình lớn là: đừng dễ dàng nói rằng mô hình "không hoạt động", nếu "nó chưa hoạt động", thì hãy làm cho nó lớn hơn.
Do đó, trong vòng chưa đầy một năm, quy mô thông số của mô hình lớn đã tăng gấp 100 lần, và bây giờ nó đã vượt quá mức nghìn tỷ, mức tiêu thụ tài nguyên rất lớn, và nó cũng mang lại chi phí lưu trữ ngày càng cao, chi phí suy luận, chi phí vận hành và bảo trì, và chi phí hạ cánh. và chi phí xã hội.
Hiện tại, mô hình lớn vẫn đang ở buổi bình minh của thương mại hóa, và vẫn còn nhiều ẩn số và không chắc chắn về cách thu hồi khoản đầu tư vào mô hình lớn, và mô hình lớn ngày càng lớn hơn và trở thành một doanh nghiệp cực kỳ đốt tiền, được hỗ trợ bởi Open AI của Microsoft, sẽ lỗ khoảng 540 triệu đô la vào năm 2022.
Chi phí ngày càng mở rộng là hóa đơn tiền thật, và "rơm rạ" đè nặng lên các doanh nghiệp mô hình lớn. Giám đốc điều hành của Anthropic, Dario Amodei, gần đây đã dự đoán rằng mô hình của họ sẽ có giá 10 tỷ đô la trong hai năm tới.
Ngoài bản thân các doanh nghiệp, xã hội cũng đang phải gánh chịu những chi phí tiềm ẩn của các mô hình lớn. Google đã báo cáo rằng đào tạo PaLM tiêu thụ khoảng 3,4 kWh điện trong khoảng hai tháng, tương đương với tổng mức tiêu thụ năng lượng hàng năm của 300 hộ gia đình. Gánh nặng và chi phí tiêu thụ năng lượng cao đối với môi trường do mô hình lớn mang lại cuối cùng được trả bởi toàn xã hội.
Rõ ràng, cả về mặt thương mại và môi trường, quy mô của mô hình cạnh tranh là không bền vững.
Thời đại mù quáng tìm kiếm sự vĩ đại đã qua.
Câu hỏi đặt ra là, làm thế nào để "giảm gánh nặng" cho mô hình lớn?
Trên thực tế, các nhà sản xuất đứng đầu của các mô hình lớn nói chung đã tích cực thực hiện chiến dịch "giảm béo chi phí".
Ví dụ, Microsoft đã công bố tại Microsoft Build 2020 rằng siêu máy tính AI cung cấp năng lượng cho GPT-3 có thể làm cho các mô hình AI hiệu quả hơn 16 lần so với các nền tảng khác và đào tạo nhanh hơn có thể giảm thời gian và chi phí rủi ro.
Các mô hình lớn trong nước cũng không ngoại lệ.
Ngay từ phiên bản 2.0, mô hình lớn Pangu đã cố gắng áp dụng kiến trúc thưa thớt + dày đặc để giảm chi phí đào tạo. Một tháng sau khi ra mắt, Wenxin Yiyan cũng đã cải thiện hiệu suất suy luận của mô hình lớn gần 10 lần thông qua các phương tiện kỹ thuật và chi phí suy luận đã giảm xuống còn một phần mười chi phí ban đầu.
Để tránh trở nên cồng kềnh và nặng nề, bắt buộc phải trở thành một công cụ mà mọi người đều có thể sử dụng, và "phong trào giảm béo chi phí" của các mô hình lớn. Thế nào? Bài viết này sẽ nói về vấn đề này.
** Một miếng không thể làm cho một người đàn ông béo**
Chi phí nào của các mô hình lớn có thể được tối ưu hóa, chi phí nào không thể giảm và chi phí nào cần được đầu tư thêm? Trước khi bạn tìm ra điều này, trước tiên bạn phải biết làm thế nào để có được chất béo. Để đảm bảo hiệu suất và trải nghiệm người dùng (sức khỏe) của mô hình lớn, việc "giảm chi phí" có thể được thực hiện một cách hợp lý và chính xác.
Nói một cách đơn giản, ba yếu tố của AI - dữ liệu, sức mạnh tính toán và thuật toán - vẫn là những yếu tố quan trọng nhất trong việc xác định chi phí của các mô hình lớn.
Hãy bắt đầu với dữ liệu. ** Rác vào, rác ra, vẫn áp dụng trong thời đại của các mô hình lớn.
Chất lượng của dữ liệu quyết định trực tiếp khả năng của mô hình lớn. OpenAI đã tuyển dụng một số tiến sĩ để xử lý dữ liệu chuyên nghiệp trong các ngành công nghiệp khác nhau và đã thuê một số công ty chú thích dữ liệu như công ty kỳ lân Scale AI để cung cấp cho GPT-3 các bộ dữ liệu quy mô lớn. Đồng thời, mô hình thuật toán sẽ tiếp tục được nâng cấp lặp đi lặp lại và nhu cầu về khối lượng dữ liệu sẽ tiếp tục trong một thời gian ngắn với sự gia tăng sử dụng và tối ưu hóa hiệu suất.
Một trong những lý do chính cho chi phí cao của các mô hình lớn của Trung Quốc là vẫn còn khoảng cách giữa số lượng và chất lượng dữ liệu Trung Quốc và tiếng Anh, và nhiều dữ liệu tiếng Trung Quốc cần được thu thập và xử lý để đào tạo các mô hình lớn của Trung Quốc. Mặt khác, cấu trúc ngữ pháp tiếng Anh đơn giản hơn tiếng Trung, sự phức tạp và đa dạng của các văn bản tiếng Trung, một số từ tiếng Trung có thể diễn đạt nhiều nghĩa, ngữ cảnh phong phú và nhiều sự mơ hồ và khó khăn trong việc hiểu ngữ cảnh, điều này cũng làm tăng độ khó đào tạo của các mô hình Trung Quốc, và đòi hỏi các nguồn lực bổ sung để hỗ trợ đào tạo các mô hình lớn của Trung Quốc.
Hãy nói về sức mạnh tính toán. **
Tài nguyên cần được tính toán và lưu trữ trong suốt quá trình đào tạo, vận hành, dịch vụ và lặp lại các mô hình lớn.
Việc đào tạo các mô hình lớn tập trung vào "thẩm mỹ bạo lực" và các tham số càng lớn, càng có nhiều tài nguyên máy tính được sử dụng để đào tạo. GPT-3 sử dụng một siêu máy tính chứa 10.000 GPU và 285.000 lõi xử lý. Wenxin 4.0 trong nước cũng được đào tạo trong cụm Vanka dựa trên nền tảng mái chèo.
Và đó không phải là tất cả. Các mô hình lớn được tiếp xúc với các dịch vụ sau khi triển khai và khi mức sử dụng tăng lên, ngày càng có nhiều nhiệm vụ suy luận cần phải được hoàn thành. Quá trình suy luận "suy nghĩ" và "đầu ra" trong 24 giờ cũng sẽ tiếp tục tiêu tốn tài nguyên máy tính, giống như bộ não con người cần tiêu thụ glycogen khi xử lý một số lượng lớn các nhiệm vụ phức tạp, và rất dễ cảm thấy đói và phải ăn một bữa ăn lớn để bổ sung năng lượng. Do đó, chi phí suy luận của các mô hình lớn cũng rất cao.
Suy luận của GPT-3 sau khi triển khai 175B đòi hỏi ít nhất năm GPU A100 và các mô hình lớn mở cửa cho toàn xã hội ở Trung Quốc, chẳng hạn như Wenxin Yiyan, được cho là có chi phí suy luận gấp 8-10 lần so với thế hệ trước.
Cuối cùng, hãy nói về thuật toán. **
Để giảm sự phụ thuộc rất lớn của các mô hình lớn vào tài nguyên máy tính, một giải pháp chính là tối ưu hóa mô hình, trên cơ sở hiệu suất không thay đổi, với tốc độ suy luận nhanh hơn, độ trễ nhỏ hơn và yêu cầu tài nguyên thấp hơn, tương đương với tỷ lệ đầu vào-đầu ra ROI cao hơn và chi phí đơn vị của tài nguyên tính toán cần thiết cho đào tạo và suy luận thấp hơn.
Có nhiều lao động như có trí thông minh, và không thể tạo ra một mô hình lớn thực sự có thể chơi mà không có tài năng. Phát triển thuật toán, thử nghiệm, lặp lại, sản xuất hóa, v.v., tất cả đều đòi hỏi một số lượng lớn tài năng kỹ thuật. Chi phí nhân công có cao hay không phụ thuộc vào mô hình kinh doanh của mô hình lớn có mạnh mẽ hay không.
Đội ngũ tài năng với trình độ học vấn đầy đủ khá cạnh tranh trong giai đoạn nghiên cứu và phát triển. Câu hỏi đặt ra là, làm thế nào để bạn kiếm tiền? Các lệnh gọi API hoặc phí sử dụng, mã thông báo nhỏ hơn một xu và lợi tức đầu tư có thể còn xa; Đăng ký trả phí (phiên bản chuyên nghiệp), mô hình lớn đầu có hiệu ứng siphon, mọi người sẽ chọn OpenAI hoặc BATH và các nhà sản xuất lớn khác, liệu mô hình lớn của riêng họ có thể được người dùng chấp nhận và sẵn sàng trả tiền hay không, vẫn chưa được biết; Để tùy chỉnh sự phát triển cho khách hàng trong ngành, ToB nên có hiểu biết sâu sắc về ngành, nghiên cứu, phát triển, thử nghiệm và lặp lại, để các kỹ sư thuật toán với mức lương hàng năm hàng chục triệu có thể ở lại công trường trong vài tháng và tỷ suất lợi nhuận gộp của dự án ước tính không tốt lắm.
Do đó, liệu một mô hình lớn có thể thành công hay không không chỉ phụ thuộc vào khả năng của chính thuật toán, mà còn phụ thuộc vào việc chu kỳ kinh doanh từ phát triển đến thực hiện có bền vững hay không.
** Ngậm miệng và mở chân **
Nếu chúng ta so sánh chi phí của mô hình lớn với một người muốn giảm mỡ thừa, thì mục tiêu này có thể được chia thành hai cách cơ bản:
Một là tạo ra "chênh lệch nhiệt". Đó là giữ kín miệng và mở chân, kiểm soát đầu tư, trừ chi phí dư thừa, đẩy nhanh thương mại hóa và tăng thu nhập, và giảm cân một cách tự nhiên.
Thứ hai là trở thành một người "dễ giảm cân". Hiểu đầy đủ về cơ chế của các mô hình lớn, sử dụng kiến trúc mới để giải quyết vấn đề về cơ chế chú ý Transformer và có vóc dáng "dù ăn như thế nào, bạn cũng không thể béo".
Nghe có vẻ như cái thứ hai rất hấp dẫn sao?
Không phải kiểm soát chi phí, thu hút người dùng, tùy chỉnh dịch vụ và dễ dàng nằm xuống để kiếm tiền, và loại điều tốt này? Thực sự.
Hiện tại, tất cả các mô hình ngôn ngữ lớn đều sử dụng kiến trúc Transformer rất khó xử lý các văn bản dài và hình ảnh có độ phân giải cao, và lý luận logic và quy nạp kiến thức dựa vào "tạo ra phép lạ mạnh mẽ", rất tốn kém. Nhiều nguyên tắc cơ bản vẫn chưa rõ ràng, dẫn đến nhiều vấn đề tồn tại, chẳng hạn như tạo ra "ảo giác" và khả năng suy luận hạn chế.
Người chiến thắng giải thưởng Turing Yann LeCun đã chỉ trích mô hình kỹ thuật của các mô hình ngôn ngữ lớn hơn một lần, nói rằng "LLM có sự hiểu biết rất hời hợt về thế giới", và ông muốn xây dựng một "mô hình thế giới" để tìm hiểu cách thế giới hoạt động, sau đó hình thành một mô hình nội bộ, và sau đó sử dụng mô hình nội bộ này để hoàn thành các nhiệm vụ khác nhau. Ngoài ra, có nhiều nhà khoa học thảo luận về trí thông minh chung AGI từ các lĩnh vực nghiên cứu tương ứng của họ.
Tóm lại, nhiều nguyên tắc của các mô hình ngôn ngữ lớn hiện tại không rõ ràng và công nghệ vẫn đang thay đổi. Trong tương lai, các mô hình công nghệ khác có thể xuất hiện để lật đổ mô hình hiện tại là mù quáng tìm cách trở nên lớn hơn, và sau đó có thể không cần chi phí quá cao và "giảm béo" đau đớn.
Bạn có thể đã tìm ra rằng nghiên cứu các nguyên tắc cơ bản và tìm kiếm một công nghệ AGI mạnh mẽ hơn nghe có vẻ thú vị, nhưng nó thực sự không phải là một điểm số và chưa có mốc thời gian rõ ràng. Mô hình kỹ thuật của vòng mô hình ngôn ngữ lớn này là khả thi trong thực hành kỹ thuật, có thể hoạt động trong ngành và có tác dụng rõ ràng trong việc cải thiện chất lượng và hiệu quả. Sử dụng nó trước và nắm bắt hiện tại là ưu tiên hàng đầu của các công ty công nghệ.
Do đó, các doanh nghiệp kiểu mẫu quy mô lớn chỉ có thể ngậm miệng, mở chân, kiểm soát chi phí càng sớm càng tốt, đẩy nhanh thương mại hóa, tạo "chênh lệch nhiệt lượng" để phát triển lành tính, bền vững.
** Bốn phong trào hiện đại hóa để tạo ra "sự khác biệt về calo"**
Vì vậy, làm thế nào chính xác để bạn tạo ra một "chênh lệch nhiệt"? **Dựa trên các phương pháp chủ đạo hiện có trên thị trường, chúng tôi tóm tắt chúng là "Phong trào Bốn hiện đại hóa": quy mô dữ liệu, nén mô hình, hiệu quả tính toán và phân tầng kinh doanh. **
Quy mô dữ liệu là để cải thiện lợi ích cận biên của dữ liệu và đạt được hiệu suất chi phí tốt nhất thông qua hiệu ứng quy mô. Hiệu ứng quy mô chủ yếu đạt được thông qua ba cách, một là quy mô tập trung công nghiệp và cấp quốc gia đã đề xuất rõ ràng để "đẩy nhanh việc phát triển thị trường yếu tố dữ liệu", liên quan đến sản xuất dữ liệu, thu thập, lưu trữ, xử lý, phân tích, dịch vụ và các liên kết khác, công nghiệp hóa sẽ giúp giảm chi phí dữ liệu của các doanh nghiệp mô hình lớn. Thứ hai là ứng dụng các công cụ AI, giúp giảm sự tham gia thủ công vào tất cả các khía cạnh của kỹ thuật dữ liệu, tăng tốc độ xử lý dữ liệu được đào tạo trước, giảm chi phí và nâng cao hiệu quả cho việc đào tạo mô hình. Thứ ba là quy mô dữ liệu phản hồi. Một số mô hình lớn đã mở dịch vụ của họ cho toàn xã hội trước đó, chẳng hạn như Baidu Wenxin Yiyan, "SenseChat" của SenseTime, "Mô hình Baichuan" của Baichuan Intelligence, "Mô hình tia lửa" của iFLYTEK, v.v., dự kiến sẽ đạt được quy mô dữ liệu tối ưu với lợi ích cận biên nhanh hơn.
Có một lợi ích cận biên cho dữ liệu. OpenAl đã cho phép người dùng quyết định có cho phép họ sử dụng dữ liệu trò chuyện để đào tạo hay không, điều đó có nghĩa là họ không còn có thể dựa vào dữ liệu phản hồi của người dùng, vì vậy chi phí lưu trữ và tính toán dữ liệu có thể được kiểm soát.
Nén mô hình là để cải thiện hiệu suất của mô hình, đạt được hiệu suất cao hơn với ít tài nguyên hơn và chuyển đổi mô hình lớn sử dụng nhiều tài nguyên thành phiên bản nhỏ gọn và hiệu quả hơn thông qua công nghệ nén. Tương tự như chuyển đổi chất béo thành cơ bắp, cơ bắp dày đặc hơn và trọng lượng (hiệu suất) vẫn giữ nguyên, trong khi người trở nên gầy hơn (nhỏ hơn).
Hiện nay, có ba phương pháp nén mô hình lớn phổ biến: định lượng, cắt tỉa và chắt lọc kiến thức. **
Định lượng, tương đương với hút mỡ, đơn giản và thô sơ nhưng hiệu quả. Độ chính xác của mô hình càng cao, càng cần nhiều không gian lưu trữ. Tuy nhiên, trong suy luận, không cần thiết phải nắm bắt những thay đổi gradient rất nhỏ trong các mô hình phức tạp, vì vậy lượng tử hóa có thể trực tiếp làm giảm độ chính xác tham số của mô hình và "trích xuất" một số thông tin chi tiết, do đó giảm không gian chiếm dụng và không làm giảm khả năng suy luận. Ví dụ, Qualcomm AI Research sử dụng công nghệ lượng tử hóa để duy trì độ chính xác của mô hình ở mức độ chính xác thấp hơn và lần đầu tiên triển khai Stable Diffusion trên điện thoại thông minh Android. Công nghệ định lượng cũng đã được áp dụng trong các mô hình lớn trong nước như Wenxin và Pangu.
Cắt tỉa, tương tự như "cắt bỏ", trừ trực tiếp một số nhánh bên ít ảnh hưởng đến hiệu ứng, chẳng hạn như một số lượng lớn các cấu trúc và tế bào thần kinh dư thừa, và các trọng lượng nhỏ hơn này được loại bỏ, ít ảnh hưởng đến hiệu quả của mô hình và làm giảm kích thước của mô hình. Tất nhiên, cắt tỉa là một "công việc thủ công", và việc cắt tỉa càng chính xác, sự mất độ chính xác cho mô hình càng nhỏ và hiệu quả nén càng tốt.
Chắt lọc kiến thức là để cho mô hình lớn "phòng tắm hơi", và mô hình 100 tỷ được chưng cất trong một lần để tạo ra một số mô hình nhỏ có hiệu suất tương tự và cấu trúc đơn giản hơn, và chi phí hạ cánh thấp hơn. Thách thức là mô hình chưng cất với quy mô 100 tỷ cũng tiêu tốn tài nguyên tính toán cực cao, và khoảng cách khối lượng dữ liệu từ 100 tỷ đến hàng chục triệu là quá lớn, dễ ảnh hưởng đến hiệu quả chưng cất. Chưng cất không phá hủy là một trong những điểm cạnh tranh kỹ thuật của các nhà sản xuất lớn.
Vì công nghệ nén mô hình cũng tiêu tốn tài nguyên máy tính, điều đặc biệt quan trọng là cải thiện hiệu quả tính toán của cơ sở hạ tầng máy tính.
Hiệu quả tính toán là tiền đề để các nhà sản xuất mô hình lớn cung cấp dịch vụ mô hình với hiệu quả cao hơn.
Hiệu suất của chip và cụm máy tính là trọng tâm của nghiên cứu và tối ưu hóa. Microsoft Cloud Azure đã xây dựng một siêu máy tính cho điện toán AI dành riêng cho OpenAI. Các nhà sản xuất trong nước, chẳng hạn như Baidu và Huawei, có chip tự phát triển và khung học sâu, có thể cải thiện hiệu quả tính toán thông qua tối ưu hóa đầu cuối, cải thiện tốc độ đào tạo và tốc độ suy luận của các mô hình lớn, đồng thời giảm thời gian và chi phí đào tạo.
Tuy nhiên, đối với các mô hình lớn không chung chung như mô hình ngành và mô hình ngành, hiệu ứng quy mô và công nghệ tối ưu hóa phần cứng còn hạn chế, chi phí tự xây dựng và bảo trì cơ sở hạ tầng rất cao, vì vậy sử dụng dịch vụ đám mây để đào tạo và triển khai dịch vụ là một lựa chọn tiết kiệm chi phí hơn.
Trong phân tích cuối cùng, các mô hình lớn cần tăng doanh thu thương mại để đạt được mục đích tối ưu hóa ROI và thu hồi chi phí. Hiện nay, việc thương mại hóa các mô hình lớn khác nhau phản ánh các đặc điểm phân cấp rõ ràng.
Nói một cách đơn giản, nó là một mô hình lớn với khối lượng khác nhau, chức năng khác nhau và hướng khác nhau, và con đường thương mại hóa đã bắt đầu rõ ràng.
Mô hình chung dựa trên tính kinh tế theo quy mô và thị trường có giá trị cao. OpenAI có số lượng người dùng khổng lồ và sự phát triển của nền kinh tế API có hiệu ứng quy mô và khoản đầu tư trả trước có thể được chia sẻ đồng đều với sự tăng trưởng của khối lượng kinh doanh. BATH (Baidu, Alibaba, Tencent, Huawei) và các công ty khác có doanh nghiệp đám mây của riêng họ và đã tích lũy được kinh nghiệm phong phú trong các dịch vụ công nghiệp, đặc biệt là khả năng tiếp cận khách hàng của các chính phủ và doanh nghiệp lớn như tài chính, khai thác mỏ và các vấn đề chính phủ, và có tiềm năng lớn để chuyển đổi thương mại. Các yêu cầu cao của khách hàng ToB thúc đẩy việc cải thiện trải nghiệm và hiệu quả mô hình, đồng thời cũng có thể phục vụ thị trường ToC và khấu hao thêm chi phí thông qua quy mô.
Mô hình công nghiệp lớn chủ động hạn chế ranh giới sản phẩm và kinh doanh, tập trung vào hoạt động kinh doanh và chức năng cốt lõi, đồng thời phát triển các mô hình nhỏ chuyên biệt với ít nguồn lực hơn, để đạt được sự cân bằng ROI tốt giữa đầu tư và thương mại hóa. Ví dụ, trong lĩnh vực tài chính, "Xuanyuan 70B" của Du Xiaoman đã kết hợp một số lượng lớn các kho tài chính chuyên nghiệp để nâng cao hiểu biết về kiến thức tài chính, đáp ứng các yêu cầu đặc biệt của khách hàng tài chính về khả năng kiểm soát và bảo mật, và đã được hàng trăm tổ chức tài chính áp dụng để thử nghiệm.
Nhìn chung, mô hình lớn không chỉ là một con đường phổ quát và tổng quát, mà việc tư nhân hóa và triển khai cá nhân hóa hàng ngàn ngành công nghiệp sẽ tạo ra các yếu tố ra quyết định như giá cả, quyền riêng tư và bảo mật, đồng thời mang lại một số lượng lớn các cơ hội kinh doanh phân khúc. Mô hình lớn chung, mô hình lớn công nghiệp và mô hình nhỏ độc quyền, phân cấp + nỗ lực chung mở đường cho thương mại hóa. Sự hài hòa và khác biệt kiểm tra sự khôn ngoan của mọi vai trò trong chuỗi công nghiệp.
Đối với các dịch vụ lâu dài và bền vững, cần phải ngậm miệng và mở chân, và "giảm chi phí" của mô hình lớn là cách duy nhất.
Quá trình này có thể gây đau đớn, nhưng nó sẽ ngưng tụ một con hào để bảo vệ sự phát triển lành mạnh của toàn ngành.
Vào những năm 40 của thế kỷ 20, khi máy tính mới ra đời, con người đã rất ngạc nhiên trước cơ thể khổng lồ của "quái vật máy" này, nhưng rồi bước nhảy vọt của thời đại thông tin bắt đầu. Khi điện thoại thông minh lần đầu tiên ra đời, các nhà sản xuất điện thoại tính năng đã cực kỳ mỉa mai về nó, nhưng họ không ngờ rằng loại kết nối toàn diện này, nơi mọi người đều có thể truy cập Internet, đã thúc đẩy sự thịnh vượng của Internet di động.
Khi các mô hình lớn ngày càng tốt hơn, "AI cho mọi người" sẽ không còn là giấc mơ xa vời.