Bạn tạo ra những hình ảnh tuyệt đẹp với Khuếch tán ổn định và MidJourney trong vòng tay của bạn.
Bạn sử dụng thành thạo ChatGPT và LLaMa để tạo ra các từ thanh lịch.
Bạn chuyển đổi qua lại giữa MuseNet và MuseGAN để tạo nhạc miền núi.
Không còn nghi ngờ gì nữa, khả năng độc đáo nhất của con người là sáng tạo, nhưng trong công nghệ luôn thay đổi ngày nay, chúng ta tạo ra bằng cách tạo ra máy móc! Một cỗ máy có thể vẽ tác phẩm nghệ thuật gốc (vẽ), soạn một bài báo dài mạch lạc (viết), soạn nhạc du dương (sáng tác) và xây dựng chiến lược chiến thắng cho các trò chơi phức tạp (chơi), tùy theo phong cách. Công nghệ này là Trí tuệ nhân tạo sáng tạo (Generative Artificial Intelligence, GenAI), bây giờ mới chỉ là bước khởi đầu của cuộc cách mạng GenAI, bây giờ là thời điểm tốt nhất để tìm hiểu GenAI.
1. Tạo và phân biệt các mô hình
GenAI là một từ thông dụng, bản chất đằng sau nó là generative model (mô hình thế hệ), là một nhánh của machine learning, mục tiêu là huấn luyện mô hình tạo ra dữ liệu mới tương tự với tập dữ liệu đã cho.
Giả sử chúng ta có một tập dữ liệu về ngựa. Đầu tiên, chúng ta có thể đào tạo một mô hình tổng quát trên bộ dữ liệu này để nắm bắt các quy tắc chi phối các mối quan hệ phức tạp giữa các pixel trong hình ảnh con ngựa. Mô hình này sau đó được lấy mẫu để tạo ra hình ảnh thực tế của những con ngựa không tồn tại trong bộ dữ liệu gốc, như thể hiện trong hình bên dưới.
Để thực sự hiểu các mục tiêu và tầm quan trọng của một mô hình thế hệ, cần phải so sánh nó với một mô hình phân biệt đối xử. Trên thực tế, hầu hết các vấn đề trong học máy đều được giải quyết bằng các mô hình phân biệt, hãy xem các ví dụ sau.
Giả sử chúng ta có một bộ dữ liệu về các bức tranh, một số của Van Gogh và một số của các nghệ sĩ khác. Với đủ dữ liệu, chúng ta có thể đào tạo một mô hình phân biệt để dự đoán liệu một bức tranh đã cho có phải của Van Gogh hay không, như thể hiện trong hình bên dưới.
Khi sử dụng mô hình phân biệt, mỗi ví dụ trong tập huấn luyện có một nhãn (nhãn), đối với bài toán hai loại trên, nhãn của tranh Van Gogh thường là 1 và nhãn của tranh không phải của Van Gogh là 0. Trong hình trên, xác suất dự đoán cuối cùng của mô hình là 0,83, vì vậy rất có khả năng nó được tạo ra bởi Van Gogh. Không giống như mô hình phân biệt, mô hình tổng quát không yêu cầu các ví dụ phải chứa nhãn vì mục tiêu của nó là tạo dữ liệu mới chứ không phải dự đoán nhãn cho dữ liệu.
Sau khi đọc ví dụ, chúng ta hãy sử dụng ký hiệu toán học để xác định chính xác mô hình sinh và mô hình phân biệt:
Các mô hình phân biệt mô hình P(y|x), cung cấp các tính năng x để ước tính xác suất có điều kiện của nhãn y.
Mô hình tạo mô hình P(x), ước tính trực tiếp xác suất của tính năng x và lấy mẫu từ phân phối xác suất này để tạo ra các tính năng mới.
Lưu ý rằng ngay cả khi chúng ta có thể xây dựng một mô hình phân biệt hoàn hảo để xác định các bức tranh của Van Gogh, thì nó vẫn không biết cách tạo ra một bức tranh trông giống Van Gogh, nó chỉ đưa ra xác suất liệu hình ảnh đó có phải của Van Gogh hay không. khả năng ra tay. Có thể thấy rằng các mô hình thế hệ khó hơn nhiều so với các mô hình phân biệt.
2. Tạo khung của mô hình
Trước khi đi vào khuôn khổ mô hình tổng quát, hãy chơi một trò chơi. Giả sử rằng các điểm trong hình dưới đây được tạo ra bởi một số loại quy tắc, chúng tôi gọi quy tắc này là dữ liệu P, bây giờ hãy để bạn tạo một x = (x 1, x 2) khác để điểm này có vẻ như Được tạo theo cùng quy tắc Pdữ liệu.
Làm thế nào bạn sẽ tạo ra điểm này? Bạn có thể sử dụng các điểm đã cho để tạo mô hình P mô hình trong tâm trí của mình và các điểm bạn muốn có thể được tạo tại các vị trí mà mô hình này chiếm giữ. Có thể thấy rằng mô hình Pmodel là ước tính của dữ liệu P. Sau đó, mô hình Pmô hình đơn giản nhất là hộp màu cam trong hình bên dưới. Điểm chỉ có thể được tạo bên trong hộp chứ không thể tạo ra bên ngoài hộp.
Để tạo một điểm mới, chúng ta có thể chọn ngẫu nhiên một điểm từ hộp hoặc chọn mẫu một cách chặt chẽ hơn từ phân phối mô hình P của mô hình. Đây là một mô hình tổng quát tối giản. Bạn tạo một mô hình (hộp màu cam) từ dữ liệu huấn luyện (các chấm đen), sau đó bạn lấy mẫu từ mô hình, hy vọng rằng các điểm được tạo giống với các điểm trong tập huấn luyện.
Bây giờ chúng ta có thể chính thức đề xuất một khuôn khổ cho học tập sáng tạo.
Bây giờ chúng ta hãy trình bày dữ liệu P phân phối tạo dữ liệu thực và xem cách áp dụng khuôn khổ trên cho ví dụ này. Từ hình bên dưới, chúng ta có thể thấy rằng quy tắc tạo dữ liệu Pdata là các điểm chỉ được phân bố đồng đều trên đất liền và sẽ không xuất hiện trên đại dương.
Rõ ràng, mô hình P của chúng tôi là sự đơn giản hóa quy tắc Pdữ liệu. Việc xem xét các điểm A, B và C trong hình trên có thể giúp chúng ta hiểu liệu mô hình P mô hình có bắt chước thành công dữ liệu P của quy tắc hay không.
Điểm A không tuân theo quy tắc Pdữ liệu vì nó xuất hiện trong biển, nhưng có thể được tạo bởi mô hình Pmodel vì nó xuất hiện bên trong hộp màu cam.
Điểm B không thể được tạo bởi mô hình Pmô hình vì nó xuất hiện bên ngoài hộp màu cam, nhưng tuân theo quy tắc dữ liệu P vì nó xuất hiện trên đất liền.
Điểm C được tạo bởi mô hình Pmô hình và tuân theo quy tắc Pdata.
Ví dụ này cho thấy các khái niệm cơ bản đằng sau mô hình tổng quát.
3. Mô hình tổng quát đầu tiên
Giả sử bạn là Giám đốc thời trang (CFO) của một công ty và công việc của bạn là tạo ra những bộ quần áo hợp thời trang mới. Năm nay, bạn đã nhận được 50 bộ dữ liệu về các cụm từ thời trang (như hình bên dưới) và bạn cần tạo 10 cụm từ thời trang mới.
Mặc dù bạn là giám đốc thời trang, nhưng bạn cũng là một nhà khoa học dữ liệu, vì vậy bạn quyết định sử dụng các mô hình tổng quát để giải quyết vấn đề này. Sau khi đọc 50 bức ảnh trên, bạn quyết định sử dụng năm tính năng, accessories type (loại phụ kiện), clothing color (màu quần áo), wear type (loại quần áo), hair Color (màu tóc) và hair type (loại tóc), để mô tả sự sắp xếp thứ tự thời trang.
10 tính năng dữ liệu hình ảnh hàng đầu như sau.
Mỗi tính năng cũng có một số giá trị riêng khác nhau:
Theo cách này, có 3 * 8 * 4 * 6 * 7 = 4032 tổ hợp đặc trưng, do đó có thể tưởng tượng không gian mẫu chứa 4032 điểm. Từ 50 điểm dữ liệu đã cho, có thể thấy rằng dữ liệu P ưu tiên các giá trị tính năng nhất định cho các tính năng khác nhau. Có thể thấy từ bảng trên, có nhiều màu quần áo trắng và màu tóc xám bạc hơn trong ảnh. Vì chúng tôi không biết dữ liệu P thực, nên chúng tôi chỉ có thể sử dụng 50 dữ liệu này để xây dựng mô hình P sao cho mô hình đó có thể tương tự như dữ liệu P.
3.1 Mô hình tối giản
Một trong những phương pháp đơn giản nhất là gán tham số xác suất cho từng điểm trong tổ hợp 4032 tính năng, sau đó mô hình chứa 4031 tham số, bởi vì tổng của tất cả các tham số xác suất bằng 1. Bây giờ, hãy kiểm tra lần lượt 50 dữ liệu, sau đó cập nhật các tham số của mô hình **(**θ 1 , θ 2 ,...,θ 4031), biểu thức của từng dữ liệu tham số là:
Trong số đó, N là số lượng dữ liệu được quan sát, cụ thể là 50 và nj là số tổ hợp tính năng thứ j xuất hiện trong 50 dữ liệu.
Ví dụ: tổ hợp tính năng (được gọi là tổ hợp 1) của (LongHairStraight, Red, Round, ShirtScoopNeck, White) xuất hiện hai lần, sau đó
Ví dụ: nếu tổ hợp tính năng (được gọi là tổ hợp 2) của (LongHairStraight, Red, Round, ShirtScoopNeck, Blue 01) không xuất hiện, thì
Theo các quy tắc trên, chúng tôi tính toán giá trị θ cho tất cả các kết hợp 4031. Không khó để thấy rằng có nhiều giá trị θ là 0. Còn gì tệ hơn là chúng tôi không thể tạo các hình ảnh Chưa nhìn thấy mới ( θ = 0 có nghĩa là chưa từng quan sát thấy hình ảnh nào với sự kết hợp các đặc điểm đó). Để khắc phục điều này, chỉ cần thêm tổng số thuộc tính, d, vào mẫu số và 1 vào tử số, một kỹ thuật được gọi là Laplace smoothing.
Bây giờ, mọi kết hợp (bao gồm cả những kết hợp không có trong tập dữ liệu gốc) đều có xác suất lấy mẫu khác không, tuy nhiên, đây vẫn không phải là một mô hình tạo thỏa đáng vì xác suất của một điểm không có trong tập dữ liệu gốc là một hằng số. Nếu chúng ta cố gắng sử dụng một mô hình như vậy để tạo ra một bức tranh của Van Gogh, nó sẽ hoạt động trên hai bức tranh sau với xác suất bằng nhau:
Bản sao tranh gốc của Van Gogh (không có trong bộ dữ liệu gốc)
Tranh vẽ từ các pixel ngẫu nhiên (không có trong bộ dữ liệu gốc)
Đây rõ ràng không phải là mô hình tổng quát mà chúng tôi muốn, chúng tôi hy vọng rằng nó có thể học được một số cấu trúc vốn có từ dữ liệu, để nó có thể tăng trọng số xác suất của các vùng trong không gian mẫu mà nó cho là có nhiều khả năng hơn, thay vì đặt tất cả trọng số xác suất trong điểm tồn tại của tập dữ liệu.
3.2 Mô hình đơn giản hóa
Mô hình Naive Bayes (Naive Bayes) có thể làm giảm đáng kể số lượng kết hợp của các tính năng trên và theo mô hình của nó, mỗi tính năng được giả định là độc lập với nhau. Quay trở lại dữ liệu trên, màu tóc của một người (tính năng xj ) không liên quan đến màu quần áo của anh ta (tính năng xk ), được biểu thị bằng biểu thức toán học là:
p(xj | xk) = p(xk)
Với giả thiết này, chúng ta có thể tính toán
Mô hình Naive Bayesian đơn giản hóa vấn đề ban đầu "ước tính xác suất cho từng tổ hợp tính năng" thành "ước tính xác suất cho từng tính năng". Hóa ra chúng ta cần sử dụng tham số 4031 ( 3 * 8 * 4 * 6 * 7) , lúc này chỉ cần 23 ( 3 + 8 + 4 + 6 + 7) tham số, và biểu thức của mỗi tham số là:
Trong số đó, N là số lượng dữ liệu được quan sát, tức là 50, n*kl là số lượng đặc điểm thứ k và ****l ***giá trị riêng thứ bên dưới nó là số.
Thông qua việc thống kê 50 dữ liệu, bảng sau đưa ra các giá trị tham số của mô hình Naive Bayesian.
Để tính xác suất của một mô hình tạo ra một tính năng dữ liệu, chỉ cần nhân các xác suất trong bảng trên, ví dụ:
Sự kết hợp trên không xuất hiện trong tập dữ liệu gốc, nhưng mô hình vẫn gán cho nó một xác suất khác không, vì vậy nó vẫn có thể được tạo bởi mô hình. Do đó, các mô hình Naive Bayesian có thể học một số cấu trúc từ dữ liệu và sử dụng nó để tạo các ví dụ mới không thấy trong tập dữ liệu gốc. Hình dưới đây là hình ảnh của 10 bộ sưu tập thời trang mới do người mẫu tạo ra.
Trong bài toán này, chỉ có 5 đặc trưng thuộc dữ liệu ít chiều, mô hình Naive Bayesian giả sử chúng độc lập với nhau là hợp lý nên kết quả mà mô hình tạo ra cũng không tệ. sụp đổ.
4. Khó khăn trong việc tạo mô hình
4.1 Dữ liệu nhiều chiều
Với tư cách là giám đốc thời trang, bạn đã tạo thành công 10 bộ sưu tập thời trang mới với Naive Bayesian. Bạn rất tự tin rằng mô hình của mình là bất khả chiến bại cho đến khi bạn gặp tập dữ liệu sau.
Tập dữ liệu không còn được biểu thị bằng 5 tính năng nữa mà được biểu thị bằng 32* 32 = 1024 pixel, mỗi giá trị pixel có thể chuyển sang một trong các giá trị từ 0 đến 255, 0 có nghĩa là màu trắng, 255 có nghĩa là màu đen. Bảng sau đây liệt kê các giá trị của pixel từ 1 đến 5 cho 10 ảnh đầu tiên.
Sử dụng cùng một mô hình để tạo ra 10 bộ sưu tập thời trang hoàn toàn mới. Sau đây là kết quả của việc tạo mô hình. Mỗi bộ đều xấu và giống nhau, và các đặc điểm khác nhau không thể phân biệt được. Tại sao lại như vậy?
Trước hết, vì mô hình Naive Bayesian lấy mẫu các pixel một cách độc lập, nên các pixel liền kề thực sự rất giống nhau. Trên thực tế, đối với quần áo, các pixel phải gần giống nhau, nhưng mẫu được lấy mẫu ngẫu nhiên nên quần áo trong hình trên đều có màu sắc sặc sỡ. Thứ hai, có quá nhiều khả năng trong không gian mẫu nhiều chiều, chỉ một phần nhỏ trong số đó có thể nhận dạng được. Nếu một mô hình Naive Bayesian xử lý trực tiếp các giá trị pixel có độ tương quan cao như vậy, thì khả năng nó tìm được một tổ hợp giá trị thỏa đáng là rất nhỏ.
Tóm lại, đối với không gian mẫu có kích thước nhỏ và tương quan thấp của các đặc điểm, hiệu ứng Naive Bayesian rất tốt thông qua lấy mẫu độc lập; nhưng đối với không gian mẫu có kích thước lớn và tương quan cao của các đặc điểm, các pixel lấy mẫu độc lập được sử dụng để tìm hiệu quả Khuôn mặt người là hầu như không thể.
Ví dụ này nêu bật hai khó khăn mà các mô hình thế hệ phải vượt qua để thành công:
Làm thế nào để mô hình xử lý các phụ thuộc có điều kiện giữa các tính năng chiều cao?
Làm thế nào để mô hình tìm thấy một tỷ lệ rất nhỏ các quan sát thỏa mãn điều kiện từ một không gian mẫu nhiều chiều?
Để các mô hình tổng quát thành công trong không gian mẫu có nhiều chiều và có tính tương quan cao, các mô hình học sâu phải được sử dụng. Chúng tôi cần một mô hình có thể suy ra các cấu trúc có liên quan từ dữ liệu, thay vì được cho biết trước những giả định cần đưa ra. Học sâu có thể hình thành các tính năng riêng của nó trong không gian ít chiều và đây là một dạng học đại diện (học đại diện).
4.2 Học biểu diễn
Học biểu diễn là học ý nghĩa của biểu diễn dữ liệu chiều cao.
Giả sử bạn đến gặp một cư dân mạng chưa từng gặp mặt, và có rất nhiều người không thể tìm thấy cô ấy tại điểm hẹn, vì vậy bạn gọi cô ấy để mô tả ngoại hình của mình. Tôi tin rằng bạn sẽ không nói rằng màu của pixel 1 trong ảnh của bạn là màu đen, màu của pixel 2 là đen nhạt, màu của pixel 3 là xám, v.v. Ngược lại, bạn sẽ nghĩ rằng cư dân mạng sẽ có hiểu biết chung về ngoại hình của người bình thường, sau đó đưa ra hiểu biết này để mô tả đặc điểm của nhóm pixel, chẳng hạn như bạn có mái tóc ngắn đen và đẹp, đeo một đôi kính vàng và như vậy. Thông thường với không quá 10 dòng mô tả như vậy, một cư dân mạng có thể tạo ra hình ảnh về bạn trong đầu, hình ảnh đó có thể hơi thô nhưng điều đó không ngăn cản cư dân mạng tìm thấy bạn giữa hàng trăm người, ngay cả khi cô ấy chưa bao giờ nhìn thấy bạn.
Đây là ý tưởng cốt lõi đằng sau việc học biểu diễn, thay vì cố gắng mô hình hóa trực tiếp không gian mẫu nhiều chiều (không gian mẫu nhiều chiều), nhưng sử dụng một số không gian tiềm ẩn chiều thấp (không gian tiềm ẩn chiều thấp space ) để mô tả từng quan sát trong tập huấn luyện, sau đó tìm hiểu hàm ánh xạ (hàm ánh xạ), có thể lấy một điểm trong không gian tiềm ẩn và ánh xạ nó tới không gian mẫu ban đầu. Nói cách khác, mỗi điểm trong không gian tiềm ẩn đại diện cho một tính năng của dữ liệu chiều cao.
Nếu những từ trên không dễ hiểu, vui lòng xem tập huấn luyện bên dưới bao gồm một số hình ảnh bình thang độ xám.
Không khó để thấy rằng những chiếc lọ này chỉ có thể được mô tả bằng hai đặc điểm: chiều cao và chiều rộng. Do đó, chúng ta có thể chuyển đổi không gian pixel chiều cao của hình ảnh thành không gian tiềm ẩn hai chiều, như thể hiện trong hình bên dưới. Bằng cách này, chúng tôi có thể lấy mẫu (các chấm màu xanh) từ không gian tiềm ẩn và sau đó chuyển đổi nó thành hình ảnh thông qua chức năng ánh xạ f.
Không dễ để máy nhận ra rằng tập dữ liệu gốc có thể được biểu diễn bằng một không gian tiềm ẩn đơn giản hơn. Trước tiên, máy cần xác định rằng chiều cao và chiều rộng là hai kích thước không gian tiềm ẩn mô tả chính xác nhất tập dữ liệu, sau đó tìm hiểu chức năng ánh xạ f có thể lấy một điểm trong không gian này và ánh xạ nó thành ánh xạ can thang độ xám. Học sâu cho phép chúng ta huấn luyện máy móc tìm ra những mối quan hệ phức tạp này mà không cần sự hướng dẫn của con người.
5. Phân loại các mô hình được tạo
Tất cả các loại mô hình tổng quát cuối cùng đều nhằm mục đích giải quyết cùng một nhiệm vụ, nhưng tất cả chúng đều có chức năng mật độ mô hình theo những cách hơi khác nhau và thường được chia thành hai loại:
mô hình hóa rõ ràng (mô hình hóa rõ ràng) hàm mật độ,
Nhưng bằng cách nào đó, hạn chế mô hình để tính toán hàm mật độ, như chuẩn hóa mô hình FLOW(chuẩn hóa mô hình FLOW)
Nhưng để tính gần đúng hàm mật độ, chẳng hạn như bộ mã hóa tự động biến đổi (bộ mã hóa tự động iational, VAE) và mô hình khuếch tán (mô hình khuếch tán)
Mô hình hóa hoàn toàn (mô hình hóa hoàn toàn) hàm mật độ, thông qua một quy trình ngẫu nhiên trực tiếp tạo ra dữ liệu. Ví dụ: Mạng đối thủ chung (mạng đối thủ chung, GAN)
Tóm tắt
Trí tuệ nhân tạo sáng tạo (GenAI) là một loại trí tuệ nhân tạo có thể được sử dụng để tạo nội dung và ý tưởng mới, bao gồm văn bản, hình ảnh, video và âm nhạc. Giống như tất cả trí tuệ nhân tạo, GenAI là một mô hình rất lớn được đào tạo trước bằng mô hình học sâu dựa trên một lượng lớn dữ liệu, thường được gọi là mô hình nền tảng (FM). Với GenAI, chúng ta có thể vẽ những hình ảnh ngầu hơn, viết văn bản đẹp hơn và sáng tác những bản nhạc chuyển động hơn, nhưng bước đầu tiên chúng ta cần hiểu cách GenAI tạo ra những thứ mới, như người đứng đầu bài báo Richard Feynman đã nói "Tôi sẽ không hiểu gì". Tôi không thể tạo".
Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
SignalPlus: Giới thiệu về AI sáng tạo
Tác giả gốc: Steven Wang
Lời nói đầu
Bạn tạo ra những hình ảnh tuyệt đẹp với Khuếch tán ổn định và MidJourney trong vòng tay của bạn.
Bạn sử dụng thành thạo ChatGPT và LLaMa để tạo ra các từ thanh lịch.
Bạn chuyển đổi qua lại giữa MuseNet và MuseGAN để tạo nhạc miền núi.
Không còn nghi ngờ gì nữa, khả năng độc đáo nhất của con người là sáng tạo, nhưng trong công nghệ luôn thay đổi ngày nay, chúng ta tạo ra bằng cách tạo ra máy móc! Một cỗ máy có thể vẽ tác phẩm nghệ thuật gốc (vẽ), soạn một bài báo dài mạch lạc (viết), soạn nhạc du dương (sáng tác) và xây dựng chiến lược chiến thắng cho các trò chơi phức tạp (chơi), tùy theo phong cách. Công nghệ này là Trí tuệ nhân tạo sáng tạo (Generative Artificial Intelligence, GenAI), bây giờ mới chỉ là bước khởi đầu của cuộc cách mạng GenAI, bây giờ là thời điểm tốt nhất để tìm hiểu GenAI.
1. Tạo và phân biệt các mô hình
GenAI là một từ thông dụng, bản chất đằng sau nó là generative model (mô hình thế hệ), là một nhánh của machine learning, mục tiêu là huấn luyện mô hình tạo ra dữ liệu mới tương tự với tập dữ liệu đã cho.
Giả sử chúng ta có một tập dữ liệu về ngựa. Đầu tiên, chúng ta có thể đào tạo một mô hình tổng quát trên bộ dữ liệu này để nắm bắt các quy tắc chi phối các mối quan hệ phức tạp giữa các pixel trong hình ảnh con ngựa. Mô hình này sau đó được lấy mẫu để tạo ra hình ảnh thực tế của những con ngựa không tồn tại trong bộ dữ liệu gốc, như thể hiện trong hình bên dưới.
Để thực sự hiểu các mục tiêu và tầm quan trọng của một mô hình thế hệ, cần phải so sánh nó với một mô hình phân biệt đối xử. Trên thực tế, hầu hết các vấn đề trong học máy đều được giải quyết bằng các mô hình phân biệt, hãy xem các ví dụ sau.
Giả sử chúng ta có một bộ dữ liệu về các bức tranh, một số của Van Gogh và một số của các nghệ sĩ khác. Với đủ dữ liệu, chúng ta có thể đào tạo một mô hình phân biệt để dự đoán liệu một bức tranh đã cho có phải của Van Gogh hay không, như thể hiện trong hình bên dưới.
Khi sử dụng mô hình phân biệt, mỗi ví dụ trong tập huấn luyện có một nhãn (nhãn), đối với bài toán hai loại trên, nhãn của tranh Van Gogh thường là 1 và nhãn của tranh không phải của Van Gogh là 0. Trong hình trên, xác suất dự đoán cuối cùng của mô hình là 0,83, vì vậy rất có khả năng nó được tạo ra bởi Van Gogh. Không giống như mô hình phân biệt, mô hình tổng quát không yêu cầu các ví dụ phải chứa nhãn vì mục tiêu của nó là tạo dữ liệu mới chứ không phải dự đoán nhãn cho dữ liệu.
Sau khi đọc ví dụ, chúng ta hãy sử dụng ký hiệu toán học để xác định chính xác mô hình sinh và mô hình phân biệt:
Lưu ý rằng ngay cả khi chúng ta có thể xây dựng một mô hình phân biệt hoàn hảo để xác định các bức tranh của Van Gogh, thì nó vẫn không biết cách tạo ra một bức tranh trông giống Van Gogh, nó chỉ đưa ra xác suất liệu hình ảnh đó có phải của Van Gogh hay không. khả năng ra tay. Có thể thấy rằng các mô hình thế hệ khó hơn nhiều so với các mô hình phân biệt.
2. Tạo khung của mô hình
Trước khi đi vào khuôn khổ mô hình tổng quát, hãy chơi một trò chơi. Giả sử rằng các điểm trong hình dưới đây được tạo ra bởi một số loại quy tắc, chúng tôi gọi quy tắc này là dữ liệu P, bây giờ hãy để bạn tạo một x = (x 1, x 2) khác để điểm này có vẻ như Được tạo theo cùng quy tắc Pdữ liệu.
Làm thế nào bạn sẽ tạo ra điểm này? Bạn có thể sử dụng các điểm đã cho để tạo mô hình P mô hình trong tâm trí của mình và các điểm bạn muốn có thể được tạo tại các vị trí mà mô hình này chiếm giữ. Có thể thấy rằng mô hình Pmodel là ước tính của dữ liệu P. Sau đó, mô hình Pmô hình đơn giản nhất là hộp màu cam trong hình bên dưới. Điểm chỉ có thể được tạo bên trong hộp chứ không thể tạo ra bên ngoài hộp.
Để tạo một điểm mới, chúng ta có thể chọn ngẫu nhiên một điểm từ hộp hoặc chọn mẫu một cách chặt chẽ hơn từ phân phối mô hình P của mô hình. Đây là một mô hình tổng quát tối giản. Bạn tạo một mô hình (hộp màu cam) từ dữ liệu huấn luyện (các chấm đen), sau đó bạn lấy mẫu từ mô hình, hy vọng rằng các điểm được tạo giống với các điểm trong tập huấn luyện.
Bây giờ chúng ta có thể chính thức đề xuất một khuôn khổ cho học tập sáng tạo.
Bây giờ chúng ta hãy trình bày dữ liệu P phân phối tạo dữ liệu thực và xem cách áp dụng khuôn khổ trên cho ví dụ này. Từ hình bên dưới, chúng ta có thể thấy rằng quy tắc tạo dữ liệu Pdata là các điểm chỉ được phân bố đồng đều trên đất liền và sẽ không xuất hiện trên đại dương.
Rõ ràng, mô hình P của chúng tôi là sự đơn giản hóa quy tắc Pdữ liệu. Việc xem xét các điểm A, B và C trong hình trên có thể giúp chúng ta hiểu liệu mô hình P mô hình có bắt chước thành công dữ liệu P của quy tắc hay không.
Ví dụ này cho thấy các khái niệm cơ bản đằng sau mô hình tổng quát.
3. Mô hình tổng quát đầu tiên
Giả sử bạn là Giám đốc thời trang (CFO) của một công ty và công việc của bạn là tạo ra những bộ quần áo hợp thời trang mới. Năm nay, bạn đã nhận được 50 bộ dữ liệu về các cụm từ thời trang (như hình bên dưới) và bạn cần tạo 10 cụm từ thời trang mới.
Mặc dù bạn là giám đốc thời trang, nhưng bạn cũng là một nhà khoa học dữ liệu, vì vậy bạn quyết định sử dụng các mô hình tổng quát để giải quyết vấn đề này. Sau khi đọc 50 bức ảnh trên, bạn quyết định sử dụng năm tính năng, accessories type (loại phụ kiện), clothing color (màu quần áo), wear type (loại quần áo), hair Color (màu tóc) và hair type (loại tóc), để mô tả sự sắp xếp thứ tự thời trang.
10 tính năng dữ liệu hình ảnh hàng đầu như sau.
Mỗi tính năng cũng có một số giá trị riêng khác nhau:
Trống, Tròn, Kính râm
Đen, Xanh 01, Xám 01, Xanh Pastel, Cam Pastel, Hồng, Đỏ, Trắng
Hoodie, Tổng thể, ShirtScoopNeck, ShirtVNeck
Đen, Vàng, Nâu, Hồng phấn, Đỏ, Xám bạc
KhôngTóc,Tóc DàiBúi,Tóc Dài,Tóc DàiThẳng,Tóc NgắnTócSóng,Tóc NgắnTócTóc Phẳng,Tóc Ngắn Xoăn
Theo cách này, có 3 * 8 * 4 * 6 * 7 = 4032 tổ hợp đặc trưng, do đó có thể tưởng tượng không gian mẫu chứa 4032 điểm. Từ 50 điểm dữ liệu đã cho, có thể thấy rằng dữ liệu P ưu tiên các giá trị tính năng nhất định cho các tính năng khác nhau. Có thể thấy từ bảng trên, có nhiều màu quần áo trắng và màu tóc xám bạc hơn trong ảnh. Vì chúng tôi không biết dữ liệu P thực, nên chúng tôi chỉ có thể sử dụng 50 dữ liệu này để xây dựng mô hình P sao cho mô hình đó có thể tương tự như dữ liệu P.
3.1 Mô hình tối giản
Một trong những phương pháp đơn giản nhất là gán tham số xác suất cho từng điểm trong tổ hợp 4032 tính năng, sau đó mô hình chứa 4031 tham số, bởi vì tổng của tất cả các tham số xác suất bằng 1. Bây giờ, hãy kiểm tra lần lượt 50 dữ liệu, sau đó cập nhật các tham số của mô hình **(**θ 1 , θ 2 ,...,θ 4031 ), biểu thức của từng dữ liệu tham số là:
Trong số đó, N là số lượng dữ liệu được quan sát, cụ thể là 50 và nj là số tổ hợp tính năng thứ j xuất hiện trong 50 dữ liệu.
Ví dụ: tổ hợp tính năng (được gọi là tổ hợp 1) của (LongHairStraight, Red, Round, ShirtScoopNeck, White) xuất hiện hai lần, sau đó
Ví dụ: nếu tổ hợp tính năng (được gọi là tổ hợp 2) của (LongHairStraight, Red, Round, ShirtScoopNeck, Blue 01) không xuất hiện, thì
Theo các quy tắc trên, chúng tôi tính toán giá trị θ cho tất cả các kết hợp 4031. Không khó để thấy rằng có nhiều giá trị θ là 0. Còn gì tệ hơn là chúng tôi không thể tạo các hình ảnh Chưa nhìn thấy mới ( θ = 0 có nghĩa là chưa từng quan sát thấy hình ảnh nào với sự kết hợp các đặc điểm đó). Để khắc phục điều này, chỉ cần thêm tổng số thuộc tính, d, vào mẫu số và 1 vào tử số, một kỹ thuật được gọi là Laplace smoothing.
Bây giờ, mọi kết hợp (bao gồm cả những kết hợp không có trong tập dữ liệu gốc) đều có xác suất lấy mẫu khác không, tuy nhiên, đây vẫn không phải là một mô hình tạo thỏa đáng vì xác suất của một điểm không có trong tập dữ liệu gốc là một hằng số. Nếu chúng ta cố gắng sử dụng một mô hình như vậy để tạo ra một bức tranh của Van Gogh, nó sẽ hoạt động trên hai bức tranh sau với xác suất bằng nhau:
Đây rõ ràng không phải là mô hình tổng quát mà chúng tôi muốn, chúng tôi hy vọng rằng nó có thể học được một số cấu trúc vốn có từ dữ liệu, để nó có thể tăng trọng số xác suất của các vùng trong không gian mẫu mà nó cho là có nhiều khả năng hơn, thay vì đặt tất cả trọng số xác suất trong điểm tồn tại của tập dữ liệu.
3.2 Mô hình đơn giản hóa
Mô hình Naive Bayes (Naive Bayes) có thể làm giảm đáng kể số lượng kết hợp của các tính năng trên và theo mô hình của nó, mỗi tính năng được giả định là độc lập với nhau. Quay trở lại dữ liệu trên, màu tóc của một người (tính năng xj ) không liên quan đến màu quần áo của anh ta (tính năng xk ), được biểu thị bằng biểu thức toán học là:
p(xj | xk) = p(xk)
Với giả thiết này, chúng ta có thể tính toán
Mô hình Naive Bayesian đơn giản hóa vấn đề ban đầu "ước tính xác suất cho từng tổ hợp tính năng" thành "ước tính xác suất cho từng tính năng". Hóa ra chúng ta cần sử dụng tham số 4031 ( 3 * 8 * 4 * 6 * 7) , lúc này chỉ cần 23 ( 3 + 8 + 4 + 6 + 7) tham số, và biểu thức của mỗi tham số là:
Trong số đó, N là số lượng dữ liệu được quan sát, tức là 50, n*kl là số lượng đặc điểm thứ k và ****l ***giá trị riêng thứ bên dưới nó là số.
Thông qua việc thống kê 50 dữ liệu, bảng sau đưa ra các giá trị tham số của mô hình Naive Bayesian.
Để tính xác suất của một mô hình tạo ra một tính năng dữ liệu, chỉ cần nhân các xác suất trong bảng trên, ví dụ:
Sự kết hợp trên không xuất hiện trong tập dữ liệu gốc, nhưng mô hình vẫn gán cho nó một xác suất khác không, vì vậy nó vẫn có thể được tạo bởi mô hình. Do đó, các mô hình Naive Bayesian có thể học một số cấu trúc từ dữ liệu và sử dụng nó để tạo các ví dụ mới không thấy trong tập dữ liệu gốc. Hình dưới đây là hình ảnh của 10 bộ sưu tập thời trang mới do người mẫu tạo ra.
Trong bài toán này, chỉ có 5 đặc trưng thuộc dữ liệu ít chiều, mô hình Naive Bayesian giả sử chúng độc lập với nhau là hợp lý nên kết quả mà mô hình tạo ra cũng không tệ. sụp đổ.
4. Khó khăn trong việc tạo mô hình
4.1 Dữ liệu nhiều chiều
Với tư cách là giám đốc thời trang, bạn đã tạo thành công 10 bộ sưu tập thời trang mới với Naive Bayesian. Bạn rất tự tin rằng mô hình của mình là bất khả chiến bại cho đến khi bạn gặp tập dữ liệu sau.
Tập dữ liệu không còn được biểu thị bằng 5 tính năng nữa mà được biểu thị bằng 32* 32 = 1024 pixel, mỗi giá trị pixel có thể chuyển sang một trong các giá trị từ 0 đến 255, 0 có nghĩa là màu trắng, 255 có nghĩa là màu đen. Bảng sau đây liệt kê các giá trị của pixel từ 1 đến 5 cho 10 ảnh đầu tiên.
Sử dụng cùng một mô hình để tạo ra 10 bộ sưu tập thời trang hoàn toàn mới. Sau đây là kết quả của việc tạo mô hình. Mỗi bộ đều xấu và giống nhau, và các đặc điểm khác nhau không thể phân biệt được. Tại sao lại như vậy?
Trước hết, vì mô hình Naive Bayesian lấy mẫu các pixel một cách độc lập, nên các pixel liền kề thực sự rất giống nhau. Trên thực tế, đối với quần áo, các pixel phải gần giống nhau, nhưng mẫu được lấy mẫu ngẫu nhiên nên quần áo trong hình trên đều có màu sắc sặc sỡ. Thứ hai, có quá nhiều khả năng trong không gian mẫu nhiều chiều, chỉ một phần nhỏ trong số đó có thể nhận dạng được. Nếu một mô hình Naive Bayesian xử lý trực tiếp các giá trị pixel có độ tương quan cao như vậy, thì khả năng nó tìm được một tổ hợp giá trị thỏa đáng là rất nhỏ.
Tóm lại, đối với không gian mẫu có kích thước nhỏ và tương quan thấp của các đặc điểm, hiệu ứng Naive Bayesian rất tốt thông qua lấy mẫu độc lập; nhưng đối với không gian mẫu có kích thước lớn và tương quan cao của các đặc điểm, các pixel lấy mẫu độc lập được sử dụng để tìm hiệu quả Khuôn mặt người là hầu như không thể.
Ví dụ này nêu bật hai khó khăn mà các mô hình thế hệ phải vượt qua để thành công:
Để các mô hình tổng quát thành công trong không gian mẫu có nhiều chiều và có tính tương quan cao, các mô hình học sâu phải được sử dụng. Chúng tôi cần một mô hình có thể suy ra các cấu trúc có liên quan từ dữ liệu, thay vì được cho biết trước những giả định cần đưa ra. Học sâu có thể hình thành các tính năng riêng của nó trong không gian ít chiều và đây là một dạng học đại diện (học đại diện).
4.2 Học biểu diễn
Học biểu diễn là học ý nghĩa của biểu diễn dữ liệu chiều cao.
Giả sử bạn đến gặp một cư dân mạng chưa từng gặp mặt, và có rất nhiều người không thể tìm thấy cô ấy tại điểm hẹn, vì vậy bạn gọi cô ấy để mô tả ngoại hình của mình. Tôi tin rằng bạn sẽ không nói rằng màu của pixel 1 trong ảnh của bạn là màu đen, màu của pixel 2 là đen nhạt, màu của pixel 3 là xám, v.v. Ngược lại, bạn sẽ nghĩ rằng cư dân mạng sẽ có hiểu biết chung về ngoại hình của người bình thường, sau đó đưa ra hiểu biết này để mô tả đặc điểm của nhóm pixel, chẳng hạn như bạn có mái tóc ngắn đen và đẹp, đeo một đôi kính vàng và như vậy. Thông thường với không quá 10 dòng mô tả như vậy, một cư dân mạng có thể tạo ra hình ảnh về bạn trong đầu, hình ảnh đó có thể hơi thô nhưng điều đó không ngăn cản cư dân mạng tìm thấy bạn giữa hàng trăm người, ngay cả khi cô ấy chưa bao giờ nhìn thấy bạn.
Đây là ý tưởng cốt lõi đằng sau việc học biểu diễn, thay vì cố gắng mô hình hóa trực tiếp không gian mẫu nhiều chiều (không gian mẫu nhiều chiều), nhưng sử dụng một số không gian tiềm ẩn chiều thấp (không gian tiềm ẩn chiều thấp space ) để mô tả từng quan sát trong tập huấn luyện, sau đó tìm hiểu hàm ánh xạ (hàm ánh xạ), có thể lấy một điểm trong không gian tiềm ẩn và ánh xạ nó tới không gian mẫu ban đầu. Nói cách khác, mỗi điểm trong không gian tiềm ẩn đại diện cho một tính năng của dữ liệu chiều cao.
Nếu những từ trên không dễ hiểu, vui lòng xem tập huấn luyện bên dưới bao gồm một số hình ảnh bình thang độ xám.
Không khó để thấy rằng những chiếc lọ này chỉ có thể được mô tả bằng hai đặc điểm: chiều cao và chiều rộng. Do đó, chúng ta có thể chuyển đổi không gian pixel chiều cao của hình ảnh thành không gian tiềm ẩn hai chiều, như thể hiện trong hình bên dưới. Bằng cách này, chúng tôi có thể lấy mẫu (các chấm màu xanh) từ không gian tiềm ẩn và sau đó chuyển đổi nó thành hình ảnh thông qua chức năng ánh xạ f.
Không dễ để máy nhận ra rằng tập dữ liệu gốc có thể được biểu diễn bằng một không gian tiềm ẩn đơn giản hơn. Trước tiên, máy cần xác định rằng chiều cao và chiều rộng là hai kích thước không gian tiềm ẩn mô tả chính xác nhất tập dữ liệu, sau đó tìm hiểu chức năng ánh xạ f có thể lấy một điểm trong không gian này và ánh xạ nó thành ánh xạ can thang độ xám. Học sâu cho phép chúng ta huấn luyện máy móc tìm ra những mối quan hệ phức tạp này mà không cần sự hướng dẫn của con người.
5. Phân loại các mô hình được tạo
Tất cả các loại mô hình tổng quát cuối cùng đều nhằm mục đích giải quyết cùng một nhiệm vụ, nhưng tất cả chúng đều có chức năng mật độ mô hình theo những cách hơi khác nhau và thường được chia thành hai loại:
Nhưng bằng cách nào đó, hạn chế mô hình để tính toán hàm mật độ, như chuẩn hóa mô hình FLOW(chuẩn hóa mô hình FLOW)
Nhưng để tính gần đúng hàm mật độ, chẳng hạn như bộ mã hóa tự động biến đổi (bộ mã hóa tự động iational, VAE) và mô hình khuếch tán (mô hình khuếch tán)
Tóm tắt
Trí tuệ nhân tạo sáng tạo (GenAI) là một loại trí tuệ nhân tạo có thể được sử dụng để tạo nội dung và ý tưởng mới, bao gồm văn bản, hình ảnh, video và âm nhạc. Giống như tất cả trí tuệ nhân tạo, GenAI là một mô hình rất lớn được đào tạo trước bằng mô hình học sâu dựa trên một lượng lớn dữ liệu, thường được gọi là mô hình nền tảng (FM). Với GenAI, chúng ta có thể vẽ những hình ảnh ngầu hơn, viết văn bản đẹp hơn và sáng tác những bản nhạc chuyển động hơn, nhưng bước đầu tiên chúng ta cần hiểu cách GenAI tạo ra những thứ mới, như người đứng đầu bài báo Richard Feynman đã nói "Tôi sẽ không hiểu gì". Tôi không thể tạo".