Top tài năng người mẫu ngôn ngữ lớn chỉ quan tâm đến 10 thử thách này

Nguồn: Cuộc đua thỏ Silicon

Tác giả: Lin Ju Biên tập: Man Manzhou

Nguồn hình ảnh: Được tạo bởi AI không giới hạn

**Ghi chú của biên tập viên: Bài viết này khám phá 10 thách thức hàng đầu trong nghiên cứu mô hình ngôn ngữ lớn (LLM). Tác giả là Chip Huyền, tốt nghiệp Đại học Stanford và hiện là người sáng lập Claypot AI, một nền tảng máy học thời gian thực. Cô ấy trước đây làm việc tại NVIDIA, Snorkel AI, Netflix và Primer phát triển các công cụ học máy. **

Tôi đang chứng kiến một tình huống chưa từng có: rất nhiều bộ óc hàng đầu thế giới hiện đang cống hiến cho mục tiêu thống nhất là "làm cho các mô hình ngôn ngữ (LLM) tốt hơn".

Sau khi nói chuyện với nhiều đồng nghiệp trong ngành và giới học thuật, tôi cố gắng tóm tắt 10 hướng nghiên cứu chính đang bùng nổ:

1. Giảm và đo lường ảo giác (Lưu ý của người biên tập: ảo giác, ảo giác của AI, tức là các phần đầu ra AI không chính xác hoặc vô nghĩa, mặc dù đầu ra đó hợp lý về mặt cú pháp)

2. Tối ưu hóa độ dài ngữ cảnh và cấu trúc ngữ cảnh

3. Tích hợp các chế độ dữ liệu khác

4. Tăng tốc độ và giảm chi phí LLM

5. Thiết kế kiến trúc mô hình mới

6. Phát triển các giải pháp thay thế GPU

7. Cải thiện tính khả dụng của đại lý

8. Cải thiện khả năng học hỏi từ sở thích của con người

9. Cải thiện hiệu quả của giao diện trò chuyện

10. Xây dựng LLM cho các ngôn ngữ không phải tiếng Anh

Trong số đó, hai hướng đầu tiên là giảm bớt “ảo tưởng” và “học tập theo ngữ cảnh” có thể là những hướng phổ biến nhất ở thời điểm hiện tại. Cá nhân tôi quan tâm nhất đến mục 3 (đa phương thức), 5 (kiến trúc mới) và 6 (các lựa chọn thay thế GPU).

01 Giảm thiểu và đo lường ảo ảnh

Nó đề cập đến hiện tượng xảy ra khi một mô hình AI tạo ra nội dung sai lệch.

Ảo tưởng là một phẩm chất không thể tránh khỏi trong nhiều tình huống đòi hỏi sự sáng tạo. Tuy nhiên, đối với hầu hết các kịch bản ứng dụng khác, đó là một nhược điểm.

Gần đây tôi đã tham gia một nhóm thảo luận về LLM và nói chuyện với những người từ các công ty như Dropbox, Langchain, ElasticsAnthropic, và họ tin rằng doanh nghiệp quy mô lớn sẽ việc áp dụng Trở ngại lớn nhất đối với việc sản xuất LLM thương mại là vấn đề ảo tưởng.

Giảm thiểu hiện tượng ảo giác và phát triển các thước đo để đo lường chúng là một chủ đề nghiên cứu đang bùng nổ, với nhiều công ty khởi nghiệp tập trung giải quyết vấn đề này.

Hiện tại có một số phương pháp tạm thời để giảm ảo giác, chẳng hạn như thêm nhiều bối cảnh, chuỗi suy nghĩ, tự thống nhất với các lời nhắc hoặc yêu cầu đầu ra của mô hình phải ngắn gọn.

Sau đây là những bài phát biểu liên quan mà bạn có thể tham khảo

·Khảo sát ảo giác trong việc tạo ra ngôn ngữ tự nhiên (Ji và cộng sự, 2022)·Làm thế nào ảo giác mô hình ngôn ngữ có thể tạo ra quả cầu tuyết (Zhang và cộng sự, 2023)·Một cách sử dụng đa nhiệm, đa ngôn ngữ, đa phương thức của ChatGPT về lý luận, ảo giác và tương tác (Bang và cộng sự, 2023)·Học tập tương phản làm giảm ảo giác trong cuộc trò chuyện (Sun và cộng sự, 2022)·Tính nhất quán của bản thân cải thiện chuỗi suy nghĩ suy nghĩ trong các mô hình ngôn ngữ (Wang và cộng sự, 2022)·SelfCheckGPT: Hộp đen không tài nguyên Phát hiện ảo giác cho các mô hình ngôn ngữ lớn có tính sáng tạo (Manakul và cộng sự, 2023)

02 Tối ưu hóa độ dài ngữ cảnh và xây dựng ngữ cảnh

Phần lớn các vấn đề mà AI gặp phải đều yêu cầu bối cảnh.

Ví dụ: nếu chúng ta hỏi ChatGPT: "Nhà hàng Việt Nam nào ngon nhất?", ngữ cảnh bắt buộc có thể là "ở đâu" vì nhà hàng tốt nhất ở Việt Nam có thể khác với nhà hàng Việt Nam ngon nhất ở Hoa Kỳ.

Theo bài báo thú vị "SsitQA" (Zhang & Choi, 2021), một tỷ lệ đáng kể các câu hỏi tìm kiếm thông tin có câu trả lời phụ thuộc vào ngữ cảnh, ví dụ: khoảng 16,5% câu hỏi trong bộ dữ liệu NQ-Open thuộc loại này. .

Cá nhân tôi nghĩ rằng đối với các kịch bản ứng dụng doanh nghiệp, tỷ lệ này có thể còn cao hơn. Giả sử một công ty xây dựng một chatbot cho khách hàng, nếu robot có thể trả lời bất kỳ câu hỏi nào của khách hàng về bất kỳ sản phẩm nào thì bối cảnh cần có có thể là lịch sử hoặc thông tin của khách hàng về sản phẩm.

Vì mô hình "học" từ ngữ cảnh được cung cấp cho nó nên quá trình này còn được gọi là học ngữ cảnh.

Đối với việc tạo nâng cao truy xuất (RAG, cũng là phương pháp chính theo hướng ứng dụng ngành LLM), độ dài ngữ cảnh đặc biệt quan trọng.

RAG có thể được chia thành hai giai đoạn:

Giai đoạn 1: Chunking (còn gọi là lập chỉ mục)

Thu thập tất cả các tài liệu sẽ được LLM sử dụng, chia các tài liệu này thành các phần có thể được đưa vào LLM để tạo các phần nhúng và lưu trữ các phần nhúng này trong cơ sở dữ liệu vectơ.

Giai đoạn thứ hai: truy vấn

Khi người dùng gửi một truy vấn, chẳng hạn như “Hợp đồng bảo hiểm của tôi có chi trả cho loại thuốc này không?”

Hình: Ảnh chụp màn hình bài phát biểu của Jerry Liu trên LlamaIndex (2023)

Độ dài ngữ cảnh càng dài thì chúng ta càng có thể chèn nhiều khối vào ngữ cảnh. Nhưng liệu một mô hình có quyền truy cập càng nhiều thông tin thì phản hồi của nó sẽ càng tốt hơn?

Điều này không phải luôn luôn như vậy. Một mô hình có thể sử dụng bao nhiêu bối cảnh và mô hình đó sẽ được sử dụng hiệu quả đến mức nào là hai câu hỏi khác nhau. Điều quan trọng không kém việc tăng độ dài ngữ cảnh của mô hình là việc học ngữ cảnh hiệu quả hơn, còn được gọi là "kỹ thuật gợi ý".

Một bài báo được lưu hành rộng rãi gần đây cho thấy các mô hình hoạt động tốt hơn nhiều trong việc hiểu thông tin từ đầu và cuối chỉ mục so với từ giữa: Lost in the Middle: How Language Models Use Long Contexts (Liu và cộng sự, 2023).

03Tích hợp các chế độ dữ liệu khác

Theo tôi, đa phương thức rất mạnh mẽ nhưng lại thường bị đánh giá thấp.

Trước hết, nhiều kịch bản ứng dụng thực tế yêu cầu xử lý lượng lớn dữ liệu đa phương thức, chẳng hạn như chăm sóc sức khỏe, robot, thương mại điện tử, bán lẻ, trò chơi, giải trí, v.v. Dự đoán y tế yêu cầu sử dụng cả văn bản (chẳng hạn như ghi chú của bác sĩ, bảng câu hỏi của bệnh nhân) và hình ảnh (chẳng hạn như quét CT, X-quang, MRI); dữ liệu sản phẩm thường bao gồm hình ảnh, video, mô tả và thậm chí cả dữ liệu dạng bảng (chẳng hạn như ngày sản xuất, trọng lượng, màu sắc).

Thứ hai, đa phương thức hứa hẹn mang lại những cải tiến lớn về hiệu suất mô hình. Chẳng phải một mô hình có thể hiểu cả văn bản và hình ảnh sẽ hoạt động tốt hơn một mô hình chỉ có thể hiểu văn bản sao? Các mô hình dựa trên văn bản yêu cầu một lượng lớn dữ liệu văn bản và hiện tại chúng tôi thực sự lo lắng về việc hết dữ liệu internet để đào tạo các mô hình dựa trên văn bản. Khi văn bản đã cạn kiệt, chúng ta cần tận dụng các phương thức dữ liệu khác.

Một hướng ứng dụng mà tôi đặc biệt hứng thú gần đây là công nghệ đa phương thức có thể giúp những người khiếm thị duyệt Internet và điều hướng trong thế giới thực.

Sau đây là một số phát triển nghiên cứu đa phương thức nổi bật: · [CLIP] Học các mô hình hình ảnh có thể chuyển đổi từ giám sát ngôn ngữ tự nhiên (OpenAI, 2021)·Flamingo: Mô hình ngôn ngữ hình ảnh để học ít lần (DeepMind, 2022)·BLIP-2: Đào tạo trước ngôn ngữ-hình ảnh khởi động với Bộ mã hóa hình ảnh đông lạnh và Mô hình ngôn ngữ lớn (Salesforce, 2023)·KOSMOS-1: Ngôn ngữ không phải là tất cả những gì bạn cần: Điều chỉnh nhận thức với các mô hình ngôn ngữ (Microsoft, 2023)·PaLM-E: Một mô hình ngôn ngữ đa phương thức được thể hiện (Google, 2023)·LLaVA: Điều chỉnh hướng dẫn trực quan (Liu và cộng sự, 2023)·NeVA: Trợ lý Ngôn ngữ và Tầm nhìn NeMo (NVIDIA, 2023)

04Cải thiện tốc độ và giảm chi phí của LLM

Khi GPT-3.5 lần đầu tiên được ra mắt vào cuối tháng 11 năm 2022, nhiều người bày tỏ lo ngại về sự chậm trễ và chi phí khi sử dụng mẫu này trong sản xuất.

Giờ đây, việc phân tích độ trễ/chi phí do sử dụng GPT-3.5 gây ra đã chuyển sang một bước ngoặt mới. Trong vòng nửa năm, toàn bộ cộng đồng người lập mô hình đã tìm ra cách mới để tạo ra một mô hình gần như gần giống với GPT-3.5 về hiệu suất nhưng sử dụng ít hơn 2% dung lượng bộ nhớ.

Một trong những quan điểm của tôi về điều này là: nếu bạn tạo ra thứ gì đó đủ tốt, người khác sẽ tìm ra cách làm nó nhanh chóng và tiết kiệm chi phí.

Phần sau đây dựa trên dữ liệu được báo cáo trên bài báo Guanaco, so sánh hiệu suất của Guanaco 7B với ChatGPT GPT-3.5 và GPT-4.

Điều quan trọng cần lưu ý là về tổng thể, hiệu suất của các mô hình này vẫn chưa hoàn hảo. Đối với LLM, vẫn rất khó để cải thiện đáng kể hiệu suất.

Tôi nhớ bốn năm trước, khi tôi bắt đầu viết ghi chú cho phần "Nén mô hình" của cuốn sách "Thiết kế hệ thống máy học", có bốn kỹ thuật nén/tối ưu hóa mô hình chính trong ngành:

  1. Định lượng: cho đến nay là phương pháp tối ưu hóa mô hình phổ biến nhất. Lượng tử hóa làm giảm kích thước của mô hình bằng cách sử dụng ít bit hơn để biểu diễn các tham số của mô hình, ví dụ thay vì sử dụng 32 bit để biểu diễn số dấu phẩy động thì chỉ sử dụng 16 bit hoặc thậm chí 4 bit.

  2. Chắt lọc kiến thức: tức là đào tạo một mô hình nhỏ (mô hình học sinh), mô hình này có thể bắt chước mô hình lớn hơn hoặc bộ mô hình (mô hình giáo viên).

  3. Phân rã cấp thấp: Ý tưởng chính của nó là sử dụng các tensor có chiều thấp để thay thế các tensor có chiều cao để giảm số lượng tham số. Ví dụ, một tensor 3x3 có thể được phân tách thành tích của tensor 3x1 và tensor 1x3, do đó thay vì 9 tham số thì chỉ có 6 tham số.

  4. Cắt tỉa: đề cập đến việc giảm kích thước của mô hình bằng cách loại bỏ các trọng số hoặc các kết nối trong mô hình đóng góp ít hơn vào hiệu suất tổng thể.

Bốn kỹ thuật này vẫn còn phổ biến cho đến ngày nay. Alpaca được huấn luyện thông qua quá trình chắt lọc kiến thức, trong khi QLoRA sử dụng sự kết hợp giữa phân rã và lượng tử hóa cấp thấp.

05Thiết kế kiến trúc mô hình mới

Kể từ AlexNet vào năm 2012, chúng ta đã chứng kiến nhiều kiến trúc đến rồi đi, bao gồm LSTM, seq2seq, v.v.

So với những kiến trúc này, Transformer ra mắt năm 2017 cực kỳ ổn định, mặc dù chưa rõ kiến trúc này sẽ phổ biến trong bao lâu.

Không dễ để phát triển một kiến trúc mới có thể vượt trội hơn Transformer. Trong 6 năm qua, Transformer đã trải qua rất nhiều lần tối ưu hóa, trên phần cứng phù hợp, quy mô và hiệu ứng của mô hình này có thể đạt được kết quả đáng kinh ngạc (PS: Transformer lần đầu tiên được Google thiết kế để chạy nhanh trên TPU, sau đó được tối ưu hóa trên GPU).

Vào năm 2021, nghiên cứu “Mô hình hóa hiệu quả các chuỗi dài với không gian trạng thái có cấu trúc” (Gu et al., 2021) của phòng thí nghiệm của Chris Ré đã gây ra rất nhiều cuộc thảo luận trong ngành. Tôi không chắc chuyện gì xảy ra tiếp theo. Nhưng Chris Ré Labs vẫn đang tích cực phát triển các kiến trúc mới và gần đây họ đã tung ra một kiến trúc có tên Monarch Mixer hợp tác với công ty khởi nghiệp Together.

Ý tưởng chính của họ là đối với kiến trúc Transformer hiện tại, độ phức tạp của sự chú ý tỷ lệ thuận với bình phương độ dài chuỗi và độ phức tạp của MLP tỷ lệ thuận với bình phương kích thước mô hình. Các kiến trúc có độ phức tạp dưới bậc hai sẽ hiệu quả hơn.

Tôi chắc chắn rằng nhiều phòng thí nghiệm khác đang khám phá ý tưởng này, mặc dù tôi không biết có nghiên cứu nào đã thử nghiệm nó một cách công khai. Nếu bạn biết tiến độ, xin vui lòng liên hệ với tôi!

06Phát triển các lựa chọn thay thế GPU

Kể từ khi AlexNet ra đời vào năm 2012, GPU đã trở thành phần cứng chính cho deep learning.

Trên thực tế, một trong những lý do được công nhận rộng rãi cho sự phổ biến của AlexNet là vì đây là bài báo đầu tiên sử dụng thành công GPU để đào tạo mạng lưới thần kinh. Trước GPU, nếu bạn muốn đào tạo một mô hình có kích thước như AlexNet, bạn sẽ cần hàng nghìn CPU, giống như máy chủ mà Google đã phát hành trước AlexNet vài tháng.

So với hàng nghìn CPU, một số GPU dễ tiếp cận hơn với các nghiên cứu sinh và nhà nghiên cứu, tạo ra sự bùng nổ trong nghiên cứu học sâu.

Trong thập kỷ qua, nhiều công ty, cả lớn và mới khởi nghiệp, đã cố gắng tạo ra phần cứng mới cho trí tuệ nhân tạo. Những nỗ lực đáng chú ý nhất bao gồm TPU của Google, IPU của Graphcore và Cerebras. SambaNova cũng đã huy động được hơn 1 tỷ USD để phát triển chip AI mới, nhưng dường như đã chuyển hướng sang trở thành một nền tảng AI tổng quát.

Trong giai đoạn này, điện toán lượng tử cũng làm dấy lên nhiều kỳ vọng, trong đó những nhân tố chính bao gồm:

·Bộ xử lý lượng tử của IBM

·Máy tính lượng tử của Google. Một cột mốc quan trọng trong việc giảm sai số lượng tử đã được báo cáo trên tạp chí Nature vào đầu năm nay. Máy ảo lượng tử của nó có thể truy cập công khai thông qua Google Colab.

·Các phòng thí nghiệm nghiên cứu tại các trường đại học như Trung tâm Kỹ thuật Lượng tử MIT, Viện Quang học Lượng tử Max Planck, Trung tâm Trao đổi Lượng tử Chicago, v.v.

Một hướng đi thú vị không kém khác là chip quang tử. Đây là hướng mà tôi ít biết nhất, nếu có sai sót gì xin hãy sửa lại cho tôi.

Các chip hiện tại sử dụng điện để truyền dữ liệu, tiêu tốn nhiều năng lượng và tạo ra độ trễ. Chip quang tử sử dụng photon để truyền dữ liệu, khai thác tốc độ ánh sáng để tính toán nhanh hơn, hiệu quả hơn. Nhiều công ty khởi nghiệp khác nhau trong lĩnh vực này đã huy động được hàng trăm triệu đô la, bao gồm Lightmatter (270 triệu đô la), Ayar Labs (220 triệu đô la), Lightelligence (200 triệu đô la +) và Luminous Computing (115 triệu đô la).

Sau đây là tiến trình tiến trình của ba phương pháp tính toán ma trận photon chính, được trích từ phép nhân ma trận Photonic làm sáng máy gia tốc quang tử và hơn thế nữa (Zhou và cộng sự, Nature 2022). Ba phương pháp khác nhau là Chuyển đổi ánh sáng phẳng (PLC), Giao thoa kế Mach-Zehnder (MZI) và Ghép kênh phân chia bước sóng (WDM).

07Cải thiện tính sẵn sàng của đại lý

Đại lý có thể được coi là LLM có thể thực hiện các hành động, chẳng hạn như duyệt Internet, gửi email, v.v. So với các hướng nghiên cứu khác trong bài viết thì đây có thể là hướng trẻ nhất.

Có sự quan tâm lớn đến các đại lý do tính mới và tiềm năng lớn của chúng. Auto-GPT hiện là thư viện phổ biến thứ 25 tính theo số sao trên GitHub. GPT-Engineering cũng là một thư viện phổ biến khác.

Mặc dù vậy, vẫn có những nghi ngờ về việc liệu LLM có đủ tin cậy, hoạt động đủ tốt và có khả năng hoạt động nhất định hay không.

Hiện nay có một hướng ứng dụng thú vị, đó là sử dụng các tác nhân cho nghiên cứu xã hội. Một thí nghiệm của Stanford cho thấy một nhóm nhỏ các tác nhân sáng tạo đã tạo ra hành vi xã hội mới nổi: bắt đầu chỉ với một ý tưởng do người dùng chỉ định, rằng một tác nhân muốn tổ chức bữa tiệc Ngày lễ tình nhân, một số tác nhân khác đã tự động lan truyền ý tưởng đó trong hai ngày tới. Lời mời dự tiệc, kết bạn mới, mời nhau dự tiệc...(Tác nhân sáng tạo: Mô phỏng tương tác về hành vi con người, Park và cộng sự, 2023).

Có lẽ công ty khởi nghiệp đáng chú ý nhất trong lĩnh vực này là Adept, được thành lập bởi hai đồng tác giả của Transformer (mặc dù cả hai đều đã rời đi) và một cựu Phó chủ tịch OpenAI, và cho đến nay đã huy động được gần 500 triệu USD. Năm ngoái, họ đã cho thấy cách đại lý của họ có thể duyệt internet và thêm tài khoản mới trên Salesforce. Tôi rất mong được xem bản demo mới của họ 🙂.

08 Cải thiện khả năng học hỏi từ sở thích của con người

RLHF (Học tập tăng cường từ sở thích của con người) rất thú vị nhưng hơi tẻ nhạt.

Tôi không ngạc nhiên khi mọi người sẽ tìm ra những cách tốt hơn để đào tạo LLM. Có nhiều câu hỏi mở liên quan đến RLHF, chẳng hạn như:

·Làm thế nào để biểu diễn sở thích của con người về mặt toán học?

Hiện tại, sở thích của con người được xác định thông qua so sánh: người chú thích con người xác định xem câu trả lời A có tốt hơn câu trả lời B hay không. Tuy nhiên, nó không tính đến mức độ cụ thể mà câu trả lời A tốt hơn hoặc kém hơn câu trả lời B.

· Sở thích của con người là gì?

Anthropic đo lường chất lượng phản hồi của mô hình theo ba khía cạnh: hữu ích, trung thực và vô hại. Tài liệu tham khảo: AI hiến pháp: Tính vô hại từ phản hồi AI (Bai và cộng sự, 2022).

DeepMind cố gắng tạo ra những câu trả lời làm hài lòng hầu hết mọi người. Tài liệu tham khảo: Tinh chỉnh các mô hình ngôn ngữ để tìm kiếm sự đồng thuận giữa con người với những sở thích đa dạng, (Bakker và cộng sự, 2022).

Ngoài ra, chúng ta muốn một AI có thể giữ lập trường hay một AI chung chung tránh nói về bất kỳ chủ đề nào có thể gây tranh cãi?

·Sở thích của ai là sở thích “con người”, có tính đến những khác biệt về văn hóa, tôn giáo, khuynh hướng chính trị, v.v.?

Có rất nhiều thách thức trong việc thu thập dữ liệu đào tạo đủ đại diện cho tất cả người dùng tiềm năng.

Ví dụ: dữ liệu InstructGPT của OpenAI không có chú thích nào trên 65 tuổi. Những người gắn thẻ chủ yếu là người Philippines và người Bangladesh. Tài liệu tham khảo: InstructGPT: Đào tạo các mô hình ngôn ngữ làm theo hướng dẫn có phản hồi của con người (Ouyang et al., 2022).

Mặc dù ý định ban đầu của những nỗ lực do cộng đồng AI dẫn đầu trong những năm gần đây là đáng ngưỡng mộ nhưng sự thiên vị dữ liệu vẫn tồn tại. Ví dụ: trong tập dữ liệu OpenAssistant, 201 trong số 222 người được hỏi (90,5%) tự báo cáo là nam giới. Jeremy Howard đã đăng một loạt tweet về vấn đề này trên Twitter.

09Cải thiện hiệu quả của giao diện trò chuyện

Kể từ khi ChatGPT được giới thiệu, đã có một cuộc thảo luận đang diễn ra về việc liệu trò chuyện có phù hợp với nhiều nhiệm vụ hay không. Ví dụ:

·Ngôn ngữ tự nhiên là giao diện người dùng lười biếng (Austin Z. Henley, 2023)

·Tại sao Chatbot không phải là tương lai (Amelia Wattenberger, 2023)

·Những loại câu hỏi nào cần phải trò chuyện để trả lời? Nghiên cứu điển hình về các câu hỏi của AskReddit (Huang và cộng sự, 2023)

·Giao diện trò chuyện AI có thể trở thành giao diện người dùng chính để đọc tài liệu (Tom Johnson, 2023)

·Tương tác với LLM bằng trò chuyện tối thiểu (Eugene Yan, 2023)

Tuy nhiên, đây không phải là một cuộc thảo luận mới. Ở nhiều quốc gia, đặc biệt là ở châu Á, chat đã được sử dụng làm giao diện cho các siêu ứng dụng trong khoảng một thập kỷ. Dan Grover đã thảo luận về hiện tượng này vào năm 2014.

Kiểu thảo luận này lại trở nên sôi nổi vào năm 2016, khi nhiều người cho rằng các loại ứng dụng hiện tại đã lỗi thời và chatbot là tương lai. Ví dụ như các nghiên cứu sau:

·Trên giao diện trò chuyện (Alistair Croll, 2016)

·Xu hướng Chatbot có phải là một sự hiểu lầm lớn không? (Will Knight, 2016)

·Bot sẽ không thay thế ứng dụng. Ứng dụng tốt hơn sẽ thay thế ứng dụng (Dan Grover, 2016)

Cá nhân mình thích giao diện chat vì những lý do sau:

Giao diện trò chuyện là giao diện mà mọi người (ngay cả những người chưa có kinh nghiệm sử dụng máy tính hoặc Internet) đều có thể nhanh chóng học cách sử dụng.

Khi tôi làm tình nguyện viên tại một khu dân cư có thu nhập thấp ở Kenya vào đầu những năm 2010, tôi rất ngạc nhiên khi thấy mọi người ở đó cảm thấy thoải mái như thế nào khi sử dụng dịch vụ ngân hàng qua tin nhắn trên điện thoại của họ. Ngay cả khi không ai trong cộng đồng đó có máy tính.

Giao diện trò chuyện nhìn chung rất dễ truy cập. Chúng ta cũng có thể sử dụng lời nói thay vì văn bản nếu tay chúng ta đang bận việc khác.

Giao diện trò chuyện cũng là một giao diện rất mạnh mẽ, nó sẽ đáp ứng mọi yêu cầu của người dùng, ngay cả khi một số phản hồi không được tốt lắm.

Tuy nhiên, tôi nghĩ có một số lĩnh vực mà giao diện trò chuyện có thể được cải thiện:

· Nhiều tin nhắn trong một vòng

Hiện tại, chúng tôi gần như cho rằng mỗi lần chỉ có một tin nhắn. Nhưng khi tôi và bạn bè nhắn tin, tôi thường phải mất nhiều tin nhắn để hoàn tất một cuộc trò chuyện vì tôi cần chèn nhiều dữ liệu khác nhau (ví dụ: hình ảnh, vị trí, liên kết), tôi đã quên nội dung nào đó ở tin nhắn trước hoặc tôi chỉ không muốn vừa mọi thứ thành một đoạn lớn.

·Đầu vào đa phương thức

Trong lĩnh vực ứng dụng đa phương thức, hầu hết nỗ lực đều được dành cho việc xây dựng các mô hình tốt hơn và ít nỗ lực hơn vào việc xây dựng các giao diện tốt hơn. Lấy chatbot NeVA của NVIDIA làm ví dụ. Tôi không phải là chuyên gia về trải nghiệm người dùng nhưng tôi nghĩ có thể cần cải thiện ở đây.

Tái bút Xin lỗi nhóm NeVA vì đã đặt tên cho bạn. Tuy nhiên, công việc của bạn là tuyệt vời!

Hình: Giao diện NeVA của NVIDIA

·Tích hợp AI sáng tạo vào quy trình làm việc

Linus Lee trình bày rất rõ điều này trong bài nói chuyện "Giao diện AI sáng tạo ngoài các cuộc trò chuyện". Ví dụ: nếu bạn muốn đặt câu hỏi về cột biểu đồ mà bạn đang làm việc, bạn có thể chỉ vào cột đó và hỏi.

· Chỉnh sửa và xóa tin nhắn

Việc chỉnh sửa hoặc xóa thông tin nhập của người dùng sẽ thay đổi luồng trò chuyện với chatbot như thế nào?

10 Xây dựng LLM cho các ngôn ngữ không phải tiếng Anh

Chúng tôi biết rằng các LLM do tiếng Anh hiện tại hoạt động kém ở nhiều ngôn ngữ khác, dù là về hiệu suất, độ trễ hay tốc độ.

Dưới đây là những nghiên cứu liên quan bạn có thể tham khảo:

·ChatGPT Beyond English: Hướng tới việc sử dụng toàn diện các mô hình ngôn ngữ lớn trong học tập đa ngôn ngữ (Lai và cộng sự, 2023)

·Tất cả các ngôn ngữ KHÔNG được tạo ra (mã thông báo) bằng nhau (Yennie Jun, 2023)

Một số độc giả đã nói với tôi rằng họ không nghĩ tôi nên theo đuổi hướng đi này vì hai lý do.

Đây là một câu hỏi mang tính "hậu cần" hơn là một câu hỏi nghiên cứu. Chúng tôi đã biết cách thực hiện điều đó. Ai đó chỉ cần bỏ tiền và công sức vào.

Đây không phải là hoàn toàn chính xác. Hầu hết các ngôn ngữ được coi là ngôn ngữ có tài nguyên thấp, vì chúng có dữ liệu chất lượng cao kém hơn nhiều so với tiếng Anh hoặc tiếng Trung và có thể yêu cầu các kỹ thuật khác nhau để đào tạo các mô hình ngôn ngữ lớn.

Dưới đây là những nghiên cứu liên quan bạn có thể tham khảo:

·Ngôn ngữ có nguồn tài nguyên thấp: Đánh giá về công việc trước đây và những thách thức trong tương lai (Magueresse et al., 2020)

·JW300: Kho ngữ liệu song song có phạm vi bao phủ rộng cho các ngôn ngữ có nguồn tài nguyên thấp (Agić và cộng sự, 2019)

Những người bi quan hơn thì tin rằng trong tương lai, nhiều ngôn ngữ sẽ lụi tàn và Internet sẽ là hai thế giới gồm hai ngôn ngữ: tiếng Anh và tiếng Trung. Cách suy nghĩ này không phải là mới. Có ai nhớ Esperanto không?

Tác động của các công cụ AI, chẳng hạn như dịch máy và chatbot, đối với việc học ngôn ngữ vẫn chưa rõ ràng. Liệu chúng sẽ giúp mọi người học ngôn ngữ mới nhanh hơn hay sẽ loại bỏ hoàn toàn nhu cầu học ngôn ngữ mới?

Tóm lại là

Trong số 10 thử thách được đề cập ở trên, một số thử thách thực sự khó khăn hơn những thử thách khác.

Ví dụ: tôi nghĩ mục 10, Xây dựng LLM cho các ngôn ngữ không phải tiếng Anh, trực tiếp hơn chỉ ra thời gian và nguồn lực thích hợp.

Mục 1, giảm ảo giác sẽ khó hơn vì ảo giác chỉ là những LLM thực hiện nhiệm vụ xác suất của chúng.

Mục 4, làm cho LLM nhanh hơn và rẻ hơn, sẽ không bao giờ đạt đến trạng thái được giải quyết hoàn toàn. Rất nhiều tiến bộ đã đạt được trong lĩnh vực này và còn nhiều tiến bộ nữa, nhưng chúng tôi sẽ không bao giờ ngừng cải thiện.

Mục 5 và 6, kiến trúc mới và phần cứng mới, rất khó khăn và không thể tránh khỏi. Do mối quan hệ cộng sinh giữa kiến trúc và phần cứng nên các kiến trúc mới cần được tối ưu hóa cho phần cứng thông thường và phần cứng cần hỗ trợ các kiến trúc chung. Họ có thể được giải quyết bởi cùng một công ty.

Một số vấn đề này có thể được giải quyết không chỉ bằng kiến thức kỹ thuật. Ví dụ: Mục 8, Cải thiện việc học từ sở thích của con người, có thể thiên về vấn đề chiến lược hơn là vấn đề kỹ thuật.

Mục 9, cải thiện hiệu quả của giao diện trò chuyện, thiên về vấn đề trải nghiệm người dùng hơn. Chúng tôi cần nhiều người có nền tảng phi kỹ thuật làm việc cùng nhau để giải quyết những vấn đề này.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)