Phiên dịch 6.000 từ: 10 thách thức của nghiên cứu LLM mô hình ngôn ngữ lớn hiện nay

Tác giả: Chip Huyền

**Dịch:**Thỏ Alfa

Liên kết nguồn:

Mục tiêu làm cho mô hình ngôn ngữ lớn trở nên hoàn hảo hơn là lần đầu tiên trong đời tôi thấy rất nhiều người thông minh cùng lúc làm việc chăm chỉ vì một mục tiêu chung đến vậy. Sau khi trao đổi với nhiều người trong ngành và giới học thuật, tôi nhận thấy có 10 hướng nghiên cứu chính đã xuất hiện. Hai hướng hiện đang được quan tâm nhiều nhất là Ảo giác (ảo giác đầu ra) và Học theo ngữ cảnh.

Đối với bản thân tôi, những điều thú vị nhất là hướng thứ 3 (Chế độ dữ liệu đa phương thức đa phương thức), hướng thứ 5 (Kiến trúc mới) và hướng thứ 6 (Phát triển các giải pháp thay thế GPU của các giải pháp thay thế GPU) được liệt kê bên dưới)

Mười thách thức mở cho nghiên cứu LLM Giảm và đánh giá đầu ra (thông tin hư cấu) Tối ưu hóa độ dài ngữ cảnh và xây dựng ngữ cảnh Hợp nhất với các dạng dữ liệu khác Cải thiện tốc độ mô hình ngôn ngữ và hiệu quả chi phí Thiết kế kiến trúc mô hình mới Phát triển các giải pháp GPU thay thế Cải thiện khả năng sử dụng của tác nhân (trí tuệ nhân tạo) Cải thiện khả năng học hỏi từ sở thích của con người Cải thiện hiệu quả của giao diện trò chuyện Xây dựng mô hình ngôn ngữ cho các ngôn ngữ không phải tiếng Anh

1. Giảm và đánh giá ảo giác

Môi trường đầu ra là một chủ đề đã được thảo luận rất nhiều nên tôi sẽ nói ngắn gọn ở đây. Ảo giác xảy ra khi các mô hình AI bịa ra mọi thứ. Đối với nhiều trường hợp sử dụng sáng tạo, ảo ảnh là một loại tính năng. Tuy nhiên, đối với hầu hết các ứng dụng, ảo giác là một lỗi. Gần đây, tôi tham gia hội thảo chuyên đề về LLM với các chuyên gia từ Dropbox, Langchain, Elastics và Anthropic, theo họ, trở ngại đầu tiên mà doanh nghiệp cần vượt qua khi áp dụng LLM vào sản xuất thực tế là đầu ra ảo.

Giảm đầu ra ảo giác của các mô hình và phát triển các số liệu để đánh giá đầu ra ảo giác là một chủ đề nghiên cứu đang bùng nổ và nhiều công ty khởi nghiệp hiện đang tập trung vào vấn đề này. Ngoài ra còn có các thủ thuật để giảm khả năng xảy ra ảo giác, chẳng hạn như thêm ngữ cảnh vào từ gợi ý, CoT, tính tự thống nhất hoặc các yêu cầu cụ thể để phản hồi của mô hình phải ngắn gọn.

Sau đây là loạt bài viết, tài liệu tham khảo về đầu ra ảo giác:

Khảo sát ảo giác trong việc tạo ra ngôn ngữ tự nhiên(Ji et al., 2022)

Làm thế nào ảo giác mô hình ngôn ngữ có thể ném tuyết (Zhang và cộng sự, 2023)

Một cách sử dụng ChatGPT đa nhiệm, đa ngôn ngữ, đa phương thức về Lý trí, Ảo giác và Tương tác (Bang và cộng sự, 2023)

Học tập tương phản làm giảm ảo giác trong cuộc trò chuyện(Sun và cộng sự, 2022)

Tính nhất quán cải thiện chuỗi suy nghĩ trong các mô hình ngôn ngữ(Wang và cộng sự, 2022)

SelfCheckGPT: Phát hiện ảo giác hộp đen không tài nguyên cho các mô hình ngôn ngữ lớn tạo ra (Manakul và cộng sự, 2023)

Một ví dụ đơn giản về xác minh sự thật và ảo giác của NeMo-Guardrails của NVIDIA

2. Tối ưu hóa độ dài ngữ cảnh và xây dựng ngữ cảnh

Hầu hết các câu hỏi đều yêu cầu ngữ cảnh. Ví dụ: nếu chúng ta hỏi ChatGPT: "Nhà hàng Việt Nam nào ngon nhất?" thì ngữ cảnh bắt buộc sẽ là "Nhà hàng này nằm ở đâu?" vì nhà hàng Việt Nam ngon nhất ở Việt Nam chính là nhà hàng Việt Nam ngon nhất ở Hoa Kỳ . Nhà hàng, phạm vi của vấn đề là khác nhau.

Theo bài viết thú vị dưới đây, SITUATEDQA: Kết hợp các bối cảnh ngoài ngôn ngữ vào QA (Zhang & Choi, 2021), một phần đáng kể các câu trả lời cho các câu hỏi tìm kiếm thông tin là theo ngữ cảnh, ví dụ: khoảng 10% câu trả lời trong các Câu hỏi tự nhiên Bộ dữ liệu NQ-Open 16,5%.

(NQ-Mở:

Cá nhân tôi cho rằng tỷ lệ sẽ cao hơn trong những trường hợp doanh nghiệp thực tế gặp phải. Ví dụ: giả sử một công ty xây dựng một chatbot để hỗ trợ khách hàng. Để chatbot này trả lời bất kỳ câu hỏi nào của khách hàng về bất kỳ sản phẩm nào, bối cảnh bắt buộc có thể là lịch sử hoặc thông tin của khách hàng về sản phẩm. Vì mô hình ngôn ngữ "học" từ ngữ cảnh được cung cấp cho nó nên quá trình này còn được gọi là học theo ngữ cảnh.

Ngữ cảnh bắt buộc phải có hình ảnh cho các truy vấn hỗ trợ khách hàng

Độ dài ngữ cảnh rất quan trọng đối với RAG (Thế hệ nâng cao truy xuất) và RAG đã trở thành chế độ chính của các kịch bản ứng dụng ngành mô hình ngôn ngữ lớn. Cụ thể, việc tạo tăng cường truy xuất chủ yếu được chia thành hai giai đoạn:

**Giai đoạn 1: Phân nhóm (còn được gọi là lập chỉ mục)**phân nhóm (còn được gọi là lập chỉ mục)

Thu thập tất cả các tài liệu được LLM sử dụng, chia các tài liệu này thành các phần có thể được cung cấp cho mô hình lớn hơn để tạo các phần nhúng và lưu trữ các phần nhúng này trong cơ sở dữ liệu vectơ.

Giai đoạn 2: Truy vấn

Khi người dùng gửi một truy vấn, chẳng hạn như "hợp đồng bảo hiểm của tôi có bao gồm một loại thuốc X nhất định không", mô hình ngôn ngữ lớn sẽ chuyển truy vấn này thành truy vấn nhúng mà chúng tôi gọi là QUERY_EMBEDDING. Cơ sở dữ liệu vectơ sẽ lấy khối có cách nhúng giống với QUERY_EMBEDDING nhất.

Độ dài ngữ cảnh càng dài thì chúng ta càng có thể thu gọn nhiều đoạn trong ngữ cảnh. Mô hình càng thu thập được nhiều thông tin thì chất lượng đầu ra và phản hồi của nó sẽ càng cao, phải không?

Không phải lúc nào cũng vậy. Một mô hình có thể sử dụng bao nhiêu bối cảnh và mô hình đó sử dụng bối cảnh hiệu quả như thế nào là hai vấn đề khác nhau. Trong khi nỗ lực tăng độ dài ngữ cảnh của mô hình, chúng tôi cũng đang nỗ lực cải thiện hiệu quả của ngữ cảnh. Một số người gọi nó là "kỹ thuật" hay "xây dựng". Ví dụ: một bài báo gần đây nói về cách các mô hình có thể hiểu rõ hơn phần đầu và phần cuối của chỉ mục, chứ không chỉ thông tin ở giữa - Lost in the Middle: How Language Models Use Long Contexts (Liu và cộng sự, 2023).

3. Tích hợp mô hình dữ liệu khác (đa phương thức)

Theo tôi, đa phương thức rất mạnh mẽ nhưng nó cũng bị đánh giá thấp. Dưới đây là giải thích lý do áp dụng đa phương thức:

Đầu tiên, nhiều kịch bản ứng dụng cụ thể yêu cầu dữ liệu đa phương thức, đặc biệt là trong các ngành có phương thức dữ liệu hỗn hợp như chăm sóc sức khỏe, robot, thương mại điện tử, bán lẻ, trò chơi và giải trí. Ví dụ:

Xét nghiệm y tế thường yêu cầu văn bản (ví dụ: ghi chú của bác sĩ, bảng câu hỏi của bệnh nhân) và hình ảnh (ví dụ: chụp CT, chụp X-quang, quét MRI).

Siêu dữ liệu sản phẩm thường bao gồm hình ảnh, video, mô tả và thậm chí cả dữ liệu dạng bảng (chẳng hạn như ngày sản xuất, trọng lượng, màu sắc), vì từ góc độ nhu cầu, bạn có thể cần tự động điền thông tin sản phẩm còn thiếu dựa trên đánh giá của người dùng hoặc ảnh sản phẩm, hoặc muốn Cho phép người dùng tiến hành tìm kiếm sản phẩm bằng thông tin trực quan như hình dạng hoặc màu sắc.

Thứ hai, đa phương thức được kỳ vọng sẽ cải thiện đáng kể hiệu suất của mô hình. Không phải một mô hình hiểu cả văn bản và hình ảnh sẽ hoạt động tốt hơn một mô hình hiểu văn bản sao? Các mô hình dựa trên văn bản yêu cầu nhiều văn bản đến mức chúng tôi lo ngại rằng chúng tôi sẽ sớm hết dữ liệu Internet để đào tạo các mô hình dựa trên văn bản. Khi văn bản đã hết, chúng ta cần tận dụng các lược đồ dữ liệu khác.

Một trường hợp sử dụng mà tôi đặc biệt hứng thú là công nghệ đa phương thức cho phép người khiếm thị điều hướng cả Internet và thế giới thực.

Sau đây là loạt bài báo, tài liệu tham khảo liên quan đến đa phương thức:

[CLIP] Học các mô hình trực quan có thể chuyển đổi từ giám sát ngôn ngữ tự nhiên(OpenAI, 2021)

Flamingo: Mô hình ngôn ngữ hình ảnh để học tập trong thời gian ngắn (DeepMind, 2022)

BLIP-2: Đào tạo trước ngôn ngữ-hình ảnh khởi động bằng Bộ mã hóa hình ảnh đông lạnh và Mô hình ngôn ngữ lớn(Salesforce, 2023)

KOSMOS-1: Ngôn ngữ không phải là tất cả những gì bạn cần: Điều chỉnh nhận thức với các mô hình ngôn ngữ (Microsoft, 2023)

PaLM-E: Mô hình ngôn ngữ đa phương thức được thể hiện (Google, 2023)

LLaVA: Điều chỉnh hướng dẫn trực quan (Liu và cộng sự, 2023)

NeVA: Trợ lý ngôn ngữ và thị giác NeMo (NVIDIA, 2023)

4. Làm LLM nhanh hơn và rẻ hơn

Khi GPT-3.5 được phát hành lần đầu tiên vào cuối tháng 11 năm 2022, nhiều người đã bày tỏ lo ngại về độ trễ và chi phí sử dụng nó trong sản xuất. Tuy nhiên, phân tích độ trễ/chi phí đã thay đổi nhanh chóng kể từ đó. Trong vòng chưa đầy nửa năm, cộng đồng đã tìm ra cách tạo ra một mô hình hoạt động rất gần với GPT-3.5, nhưng chỉ yêu cầu khoảng 2% dung lượng bộ nhớ của GPT-3.5.

Bài học rút ra ở đây là: nếu bạn tạo ra thứ gì đó đủ tốt, mọi người sẽ tìm ra cách làm nó nhanh chóng và tiết kiệm chi phí.

Dưới đây là dữ liệu hiệu suất của Guanaco 7B, so với hiệu suất của ChatGPT GPT-3.5 và GPT-4, như đã báo cáo trên tờ Guanco. Xin lưu ý: Nhìn chung, các so sánh hiệu suất sau đây còn lâu mới hoàn hảo và LLM rất rất khó đánh giá.

So sánh hiệu năng của Guanaco 7B với ChatGPT GPT-3.5 và GPT-4:

Bốn năm trước, khi tôi bắt đầu viết ghi chú cho phần "Nén mô hình" của cuốn sách Thiết kế hệ thống máy học, tôi đã viết về bốn kỹ thuật chính để tối ưu hóa/nén mô hình:

Lượng tử hóa: Phương pháp tối ưu hóa mô hình linh hoạt nhất cho đến nay. Lượng tử hóa làm giảm kích thước của mô hình bằng cách sử dụng ít bit hơn để biểu diễn các tham số của nó, ví dụ: thay vì sử dụng 32 bit, 16 hoặc thậm chí 4 bit có thể được sử dụng để biểu diễn các số dấu phẩy động.

Chắt lọc kiến thức: Phương pháp đào tạo các mô hình nhỏ để bắt chước một mô hình lớn hoặc tập hợp các mô hình.

Hệ số hóa cấp thấp: Ý tưởng chính ở đây là thay thế tensor có chiều cao bằng tensor có chiều thấp để giảm số lượng tham số. Ví dụ, một tenxơ 3x3 có thể được phân tách thành tích của các tenxơ 3x1 và 1x3, do đó thay vì 9 tham số thì chỉ cần 6 tham số.

Cắt tỉa Cả bốn kỹ thuật trên vẫn còn được áp dụng và phổ biến cho đến ngày nay. Alpaca sử dụng kiến thức chắt lọc để huấn luyện. QLoRA sử dụng kết hợp hệ số hóa và lượng tử hóa cấp thấp.

5. Thiết kế kiến trúc mô hình mới

Kể từ AlexNet vào năm 2012, chúng ta đã chứng kiến sự thăng trầm của nhiều kiến trúc, bao gồm LSTM, seq2seq, v.v. So với những điều này, tác động của Transformer là không thể tin được. Máy biến áp đã xuất hiện từ năm 2017 và kiến trúc này sẽ còn phổ biến trong bao lâu vẫn là một câu hỏi mở.

Phát triển kiến trúc mới để vượt qua Transformer không hề dễ dàng. Transformer đã trải qua rất nhiều lần tối ưu hóa trong 6 năm qua và kiến trúc mới này phải chạy trên phần cứng mà mọi người hiện quan tâm và ở quy mô mà họ hiện quan tâm.

Lưu ý: Google ban đầu thiết kế Transformer để chạy nhanh trên TPU và sau đó tối ưu hóa nó trên GPU.

Vào năm 2021, S4 trong phòng thí nghiệm của Chris Ré đã thu hút được sự chú ý rộng rãi, hãy xem "Tạo mô hình hiệu quả các chuỗi dài với không gian trạng thái có cấu trúc" (Gu et al., 2021) để biết chi tiết). Phòng thí nghiệm của Chris Ré vẫn đang phát triển mạnh mẽ các kiến trúc mới, gần đây nhất là Monarch Mixer (Fu, 2023), được phát triển với sự hợp tác của startup Together, là một trong số đó.

Ý tưởng chính của họ là đối với kiến trúc Transformer hiện có, độ phức tạp cần chú ý là bậc hai của độ dài chuỗi, trong khi độ phức tạp của MLP là bậc hai của kích thước mô hình. Các kiến trúc có độ phức tạp dưới bậc hai sẽ hiệu quả hơn.

Máy trộn vua

6. Phát triển các lựa chọn thay thế GPU

Kể từ AlexNet vào năm 2012, GPU đã trở thành phần cứng thống trị cho deep learning. Trên thực tế, một trong những lý do được công nhận rộng rãi cho sự phổ biến của AlexNet là vì đây là bài báo đầu tiên sử dụng thành công GPU để huấn luyện mạng lưới thần kinh. Trước khi GPU ra đời, nếu muốn đào tạo một mô hình ở quy mô AlexNet, bạn sẽ cần sử dụng hàng nghìn CPU, giống như loại mà Google đã phát hành trước AlexNet vài tháng. So với hàng nghìn CPU, một số GPU dễ tiếp cận hơn với các nghiên cứu sinh và nhà nghiên cứu, tạo ra sự bùng nổ trong nghiên cứu học sâu.

Trong thập kỷ qua, nhiều công ty, cả doanh nghiệp lớn và các công ty khởi nghiệp, đã nỗ lực tạo ra phần cứng mới cho trí tuệ nhân tạo. Những nỗ lực đáng chú ý nhất bao gồm TPU của Google, IPU của Graphcore (IPU đang hoạt động thế nào?) và Cerebras. SambaNova đã huy động được hơn một tỷ đô la để phát triển chip AI mới, nhưng dường như đã chuyển hướng trở thành một nền tảng AI tổng quát.

Trong một thời gian, người ta đặt nhiều kỳ vọng vào điện toán lượng tử, với những nhân vật chủ chốt bao gồm:

QPU của IBM

*Máy tính lượng tử của Google đã đạt được một cột mốc quan trọng trong việc giảm lỗi lượng tử, được báo cáo trên tạp chí Nature vào đầu năm nay. Máy ảo lượng tử của nó có thể truy cập công khai thông qua Google Colab. *

*Các phòng thí nghiệm nghiên cứu như Trung tâm Kỹ thuật Lượng tử MIT, Viện Quang học Lượng tử Max Planck, Trung tâm Trao đổi Lượng tử Chicago, Phòng thí nghiệm Quốc gia Oakridge, v.v. *

Một hướng đi thú vị không kém khác là chip quang tử. Tôi có rất ít kiến thức về lĩnh vực này, vì vậy nếu tôi sai, hãy sửa cho tôi. Các chip hiện tại sử dụng điện để truyền dữ liệu, việc này tiêu tốn lượng lớn năng lượng và tạo ra độ trễ. Mặt khác, chip quang tử sử dụng photon để truyền dữ liệu, tận dụng tốc độ ánh sáng để tính toán nhanh hơn và hiệu quả hơn. Nhiều công ty khởi nghiệp khác nhau trong lĩnh vực này đã huy động được hàng trăm triệu đô la, bao gồm Lightmatter (270 triệu đô la), Ayar Labs (220 triệu đô la), Lightelligence (200 triệu đô la +) và Luminous Computing (115 triệu đô la).

Sau đây là tiến trình của ba phương pháp tính toán ma trận photon chính được lấy từ bài báo "Phép nhân ma trận quang tử làm sáng tỏ máy gia tốc quang tử và hơn thế nữa" (Zhou, Nature 2022). Ba phương pháp khác nhau là Chuyển đổi ánh sáng phẳng (PLC), Giao thoa kế Mach-Zehnder (MZI) và Ghép kênh phân chia bước sóng (WDM).

7. Cải thiện tính sẵn sàng của các đại lý

Agent là một mô hình ngôn ngữ lớn có thể thực hiện các hành động (có thể hiểu là các Agent có thể thay mặt bạn hoàn thành nhiều nhiệm vụ khác nhau nên gọi là Agent), chẳng hạn như duyệt Internet, gửi email, đặt chỗ, v.v. Đây có lẽ là một trong những hướng mới nhất so với các hướng nghiên cứu khác trong bài viết này. Mọi người rất hào hứng với Đại lý do tính mới và tiềm năng to lớn của chúng. Auto-GPT hiện là repo phổ biến thứ 25 với số sao trên GitHub. GPT-Engineering là một repo phổ biến khác.

Bất chấp sự phấn khích của hướng đi này, vẫn còn những nghi ngờ về việc liệu các mô hình ngôn ngữ lớn có đáng tin cậy và hiệu quả đủ để được trao quyền hành động hay không. Tuy nhiên, một kịch bản ứng dụng đã xuất hiện trong đó các tác nhân được sử dụng trong nghiên cứu xã hội, chẳng hạn như thí nghiệm nổi tiếng của Stanford cho thấy các hành vi xã hội mới nổi từ một nhóm nhỏ các tác nhân tạo sinh: ví dụ: bắt đầu từ một ý tưởng do người dùng chỉ định, một tác nhân muốn nắm giữ một Trong bữa tiệc Ngày lễ tình nhân, Đặc vụ sẽ tự động phát tán lời mời tham dự bữa tiệc trong hai ngày tới, kết bạn mới và mời nhau đến dự tiệc... (Generative Agents: Interactive Simulacra of Human Behavior, Park et al., 2023 ),

Có lẽ công ty khởi nghiệp đáng chú ý nhất trong lĩnh vực này là Adept, được thành lập bởi hai cựu đồng tác giả Transformer và cựu Phó chủ tịch OpenAI và đã huy động được gần 500 triệu USD cho đến nay. Năm ngoái, họ đã cho thấy cách các đại lý của họ có thể duyệt internet và cách thêm tài khoản mới vào Salesforce.

8. Lặp lại RLHF

RLHF (Học tập tăng cường từ phản hồi của con người) rất thú vị nhưng hơi phức tạp. Sẽ không có gì đáng ngạc nhiên nếu mọi người tìm ra những cách tốt hơn để đào tạo LLM. Tuy nhiên, có nhiều vấn đề chưa được giải quyết trong RLHF, chẳng hạn như:

①Làm thế nào để thể hiện sở thích của con người bằng toán học?

Hiện tại, sở thích của con người được xác định bằng cách so sánh: người chú thích con người xác định xem phản hồi A có tốt hơn phản hồi B hay không. Tuy nhiên, nó không tính đến phản hồi A tốt hơn phản hồi B bao nhiêu.

②Sở thích của con người là gì?

Anthropic đo lường chất lượng của các mô hình dựa trên kết quả đầu ra theo ba chiều: hữu ích, trung thực và vô hại. Xem Hiến pháp AI: Tính vô hại từ Phản hồi AI (Bai và cộng sự, 2022).

DeepMind cố gắng tạo ra những phản hồi làm hài lòng hầu hết mọi người. Xem Tinh chỉnh các mô hình ngôn ngữ để tìm ra sự đồng thuận giữa con người với những sở thích đa dạng, (Bakker và cộng sự, 2022).

Ngoài ra, chúng ta muốn AI có thể giữ vững lập trường hay AI truyền thống tránh xa mọi chủ đề có thể gây tranh cãi?

③Sở thích của ai là sở thích “con người”?Có nên tính đến sự khác biệt về văn hóa, tôn giáo, khuynh hướng chính trị, v.v.? Có rất nhiều thách thức trong việc thu thập dữ liệu đào tạo đủ đại diện cho tất cả người dùng tiềm năng.

Ví dụ: đối với dữ liệu InstructGPT của OpenAI, không có người chú thích nào trên 65 tuổi. Những người chú thích chủ yếu là người Philippines và Bangladesh. Xem InstructGPT: Đào tạo mô hình ngôn ngữ để làm theo hướng dẫn với phản hồi của con người (Ouyang và cộng sự, 2022).

Thống kê quốc tịch của người chú thích InstructGPT

Mặc dù những nỗ lực do cộng đồng lãnh đạo rất đáng khen ngợi về mục đích nhưng chúng có thể dẫn đến dữ liệu sai lệch. Ví dụ: đối với tập dữ liệu OpenAssistant, 201 trên 222 (90,5%) người trả lời tự nhận mình là nam giới. Jeremy Howard có một chủ đề hay trên Twitter:

##9. Nâng cao hiệu quả giao diện chat

Kể từ ChatGPT, mọi người đã thảo luận xem liệu trò chuyện có phải là giao diện phù hợp với nhiều tác vụ khác nhau hay không.

Để biết chi tiết, xem:

Ngôn ngữ tự nhiên là giao diện người dùng lười biếng(Austin Z. Henley, 2023)

Tại sao Chatbot không phải là tương lai(Amelia Wattenberger, 2023)

Những loại câu hỏi nào cần phải trò chuyện để trả lời? Nghiên cứu điển hình về Câu hỏi AskReddit(Huang và cộng sự, 2023)

Giao diện trò chuyện AI có thể trở thành giao diện người dùng chính để đọc tài liệu (Tom Johnson, 2023)

Tương tác với LLM bằng trò chuyện tối thiểu (Eugene Yan, 2023)

Tuy nhiên, đây không phải là một chủ đề mới. Ở nhiều quốc gia, đặc biệt là ở châu Á, trò chuyện đã được sử dụng làm giao diện cho các siêu ứng dụng trong khoảng một thập kỷ và Dan Grover đã viết một bài báo về nó vào năm 2014.

Vào năm 2016, khi nhiều người cho rằng ứng dụng đã chết và chatbot là tương lai, cuộc thảo luận lại nóng lên:

Trên giao diện trò chuyện (Alistair Croll, 2016)

Xu hướng Chatbot có phải là một sự hiểu lầm lớn không?(Will Knight, 2016)

Bot sẽ không thay thế ứng dụng. Ứng dụng tốt hơn sẽ thay thế ứng dụng (Dan Grover, 2016)

Cá nhân tôi thích giao diện trò chuyện vì những lý do sau:

①Giao diện trò chuyện là giao diện mà tất cả mọi người, ngay cả những người chưa từng tiếp xúc với máy tính hoặc Internet trước đây, đều có thể nhanh chóng học cách sử dụng (phổ quát). Vào đầu những năm 2010, khi tôi đang làm tình nguyện viên tại một khu dân cư có thu nhập thấp ở Kenya, tôi rất ngạc nhiên khi thấy mọi người ở đó quen thuộc với việc giao dịch ngân hàng trên điện thoại, qua tin nhắn. Không ai trong cộng đồng đó có máy tính.

② Giao diện trò chuyện dễ dàng truy cập. Sử dụng giọng nói thay vì văn bản nếu tay bạn đang bận rộn với những việc khác.

③ Trò chuyện cũng là một giao diện rất mạnh mẽ - bạn có thể đưa ra bất kỳ yêu cầu nào với nó và nó sẽ trả lời, ngay cả khi câu trả lời không nhất thiết phải hoàn hảo

Tuy nhiên, tác giả tin rằng giao diện trò chuyện có thể tiếp tục được cải thiện ở một số khía cạnh:

① Có thể trao đổi nhiều tin nhắn cùng một lúc

Hiện tại, về cơ bản chúng tôi giả định rằng chỉ có một vòng tin nhắn cho mỗi lần liên lạc. Nhưng đó không phải là cách tôi và bạn bè nhắn tin. Thông thường, tôi cần nhiều tin nhắn để hoàn thành suy nghĩ của mình vì tôi cần chèn các dữ liệu khác nhau (ví dụ: hình ảnh, vị trí, liên kết), tôi có thể đã bỏ sót điều gì đó trong tin nhắn trước đó hoặc chỉ là không muốn đưa mọi thứ vào trong một tin nhắn lớn duy nhất. đoạn văn.

②Đầu vào đa phương thức

Trong lĩnh vực ứng dụng đa phương thức, hầu hết nỗ lực đều được dành cho việc xây dựng các mô hình tốt hơn và ít nỗ lực hơn vào việc xây dựng các giao diện tốt hơn. Lấy chatbot NeVA của Nvidia làm ví dụ. Tôi không phải là chuyên gia về trải nghiệm người dùng nhưng tôi nghĩ có thể cần cải thiện ở đây.

Tái bút: Xin lỗi vì đã nhắc đến nhóm NeVA ở đây, ngay cả khi có điều này, công việc của bạn vẫn khá tuyệt vời!

③Tích hợp AI sáng tạo vào quy trình làm việc

Linus Lee trình bày rất rõ điều này trong phần chia sẻ của mình "Giao diện AI sáng tạo ngoài các cuộc trò chuyện". Ví dụ: nếu bạn muốn đặt câu hỏi về một cột nhất định trong biểu đồ mà bạn đang làm việc, bạn có thể chỉ vào cột đó và hỏi.

④ Chỉnh sửa và xóa tin nhắn

Việc chỉnh sửa hoặc xóa thông tin đầu vào của người dùng sẽ thay đổi luồng trò chuyện với chatbot như thế nào?

10. Tạo LLM cho các ngôn ngữ không phải tiếng Anh

Chúng tôi biết rằng LLM tiếng Anh đầu tiên hiện tại không có khả năng mở rộng tốt với nhiều ngôn ngữ khác về hiệu suất, độ trễ và tốc độ. Nhìn thấy:

ChatGPT Beyond English: Hướng tới sử dụng toàn diện các mô hình ngôn ngữ lớn trong học tập đa ngôn ngữ(Lai và cộng sự, 2023)

Tất cả các ngôn ngữ KHÔNG được tạo (mã thông báo) bằng nhau (Yennie tháng 6, 2023)

Tôi chỉ biết đến những nỗ lực đào tạo tiếng Việt (chẳng hạn như nỗ lực của cộng đồng Symato), tuy nhiên, một số độc giả đầu tiên của bài viết này đã nói với tôi rằng họ không nghĩ tôi nên đưa hướng này vào vì những lý do sau:

Đây không hẳn là một câu hỏi nghiên cứu mà là một câu hỏi về hậu cần. Chúng tôi đã biết cách làm rồi, chúng tôi chỉ cần ai đó đầu tư tiền bạc và công sức. Tuy nhiên, điều này không hoàn toàn đúng. Hầu hết các ngôn ngữ được coi là ngôn ngữ có tài nguyên thấp và có ít dữ liệu chất lượng cao hơn cho nhiều ngôn ngữ so với tiếng Anh hoặc tiếng Trung, vì vậy có thể cần các kỹ thuật khác nhau để đào tạo các mô hình ngôn ngữ lớn. nhìn thấy:

Ngôn ngữ có nguồn tài nguyên thấp: Đánh giá về công việc trước đây và những thách thức trong tương lai(Magueresse và cộng sự, 2020)

JW300: Kho ngữ liệu song song có phạm vi bao phủ rộng cho các ngôn ngữ có nguồn tài nguyên thấp (Agić và cộng sự, 2019)

Những người bi quan hơn thì tin rằng trong tương lai, nhiều ngôn ngữ sẽ biến mất và Internet sẽ là hai vũ trụ gồm hai ngôn ngữ: tiếng Anh và tiếng Trung. Xu hướng tư duy này không mới - có ai còn nhớ Esperanto không?

Tác động của các công cụ trí tuệ nhân tạo, như dịch máy và chatbot, đối với việc học ngôn ngữ vẫn chưa rõ ràng. Liệu chúng sẽ giúp mọi người học ngôn ngữ mới nhanh hơn hay sẽ loại bỏ hoàn toàn nhu cầu học ngôn ngữ mới.

Tóm lại là

Vui lòng cho tôi biết nếu tôi bỏ sót điều gì trong bài viết này và để có thêm góc nhìn, hãy xem bài viết toàn diện Những thách thức và ứng dụng của Mô hình ngôn ngữ lớn (Kaddour và cộng sự, 2023).

Những câu hỏi trên khó hơn những câu hỏi khác. Ví dụ: tôi nghĩ câu hỏi 10 ở trên, thiết lập LLM bằng ngôn ngữ không phải tiếng Anh, sẽ tương đối đơn giản nếu có đủ thời gian và nguồn lực.

Vấn đề đầu tiên ở trên là giảm sản lượng ảo giác, việc này sẽ khó hơn rất nhiều vì ảo giác chỉ là LLM làm những việc mang tính xác suất.

Thứ tư, việc làm cho LLM nhanh hơn và rẻ hơn không bao giờ có thể giải quyết được hoàn toàn. Đã có những tiến bộ lớn trong lĩnh vực này và sẽ còn có nhiều tiến bộ hơn nữa trong tương lai, nhưng những cải tiến theo hướng này sẽ tiếp tục.

Mục 5 và 6, kiến trúc mới và phần cứng mới, rất khó khăn nhưng không thể tránh khỏi theo thời gian. Do mối quan hệ cộng sinh giữa kiến trúc và phần cứng - kiến trúc mới cần được tối ưu hóa cho phần cứng thông thường và phần cứng cần hỗ trợ kiến trúc chung nên rất có thể chúng sẽ được thực hiện bởi cùng một công ty.

Một số vấn đề không thể giải quyết được chỉ bằng kiến thức kỹ thuật. Ví dụ, Câu hỏi 8, cải thiện phương pháp học tập dựa trên sở thích của con người, có thể liên quan đến vấn đề chính sách hơn là vấn đề kỹ thuật. Vấn đề số 9 là cải thiện hiệu quả của giao diện trò chuyện, đây là vấn đề về trải nghiệm người dùng. Chúng tôi cần nhiều người có nền tảng phi kỹ thuật hơn để làm việc với chúng tôi về những vấn đề này.

Bạn quan tâm đến hướng nghiên cứu nào nhất? Bạn nghĩ giải pháp hứa hẹn nhất cho những vấn đề này là gì? Rất thích nghe ý kiến của bạn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)