Mục lục trang:
Ứng dụng thuật toán phân loại Naïve Bayes, đây là một thuật toán quan trọng trong việc chạy phân loại trong mô hình máy học machine learning (ML); Và cũng là mộ trong những thuật toán quan trọng cho các loại thuật toán học máy & ứng dụng thống kê.
Thuật toán phân loại Naïve Bayes
Thuật toán Naive Bayes là gì?
Đây là một kỹ thuật phân loại dựa trên Định lý Bayes với giả định về sự độc lập giữa các yếu tố dự đoán. Nói một cách dễ hiểu, bộ phân loại Naive Bayes giả định rằng sự hiện diện của một đối tượng cụ thể trong một lớp không liên quan đến sự hiện diện của bất kỳ đối tượng địa lý nào khác.
Ví dụ, một quả có thể được coi là táo nếu nó có màu đỏ, tròn và đường kính khoảng 3 inch. Ngay cả khi các đặc điểm này phụ thuộc vào nhau hoặc dựa trên sự tồn tại của các đặc điểm khác, tất cả các đặc tính này đều góp phần độc lập vào xác suất quả này là táo và đó là lý do tại sao nó được gọi là ‘Naive’.
Mô hình Naive Bayes dễ xây dựng và đặc biệt hữu ích cho các tập dữ liệu rất lớn. Cùng với sự đơn giản, Naive Bayes được biết đến là vượt trội so với các phương pháp phân loại thậm chí rất phức tạp.
Thuật toán Naive Bayes hoạt động như thế nào?
Hãy hiểu nó bằng cách sử dụng một ví dụ. Dưới đây, tôi có tập dữ liệu huấn luyện về thời tiết và biến mục tiêu tương ứng ‘Chơi’ (đề xuất các khả năng chơi). Bây giờ, chúng ta cần phân loại liệu các cầu thủ sẽ chơi hay không dựa trên điều kiện thời tiết. Hãy làm theo các bước dưới đây để thực hiện nó.
Bước 1: Chuyển tập dữ liệu thành bảng tần số
Bước 2: Tạo bảng Khả năng bằng cách tìm các xác suất như Xác suất u ám = 0,29 và xác suất chơi là 0,64.
Bước 3: Bây giờ, sử dụng phương trình Naive Bayesian để tính xác suất sau cho mỗi lớp. Lớp có xác suất hậu phương cao nhất là kết quả của dự đoán.
Đặc điểm của Naive Bayesian
- Thuật toán Naïve Bayes là một thuật toán học có giám sát, dựa trên định lý Bayes và được sử dụng để giải các bài toán phân loại.
- Nó chủ yếu được sử dụng trong phân loại văn bản bao gồm một tập dữ liệu đào tạo chiều cao.
- Naïve Bayes Classifier là một trong những thuật toán Phân loại đơn giản và hiệu quả nhất giúp xây dựng các mô hình học máy nhanh có thể đưa ra dự đoán nhanh chóng.
- Nó là một bộ phân loại theo xác suất, có nghĩa là nó dự đoán trên cơ sở xác suất của một đối tượng .
- Một số ví dụ phổ biến của Thuật toán Naïve Bayes là lọc thư rác, phân tích tình cảm và phân loại các bài báo .
Tên gọi Naive Bayes
Thuật toán Naïve Bayes bao gồm hai từ Naïve và Bayes, có thể được mô tả như sau:
- Naïve : Nó được gọi là Naïve vì nó giả định rằng sự xuất hiện của một đối tượng địa lý nào đó là độc lập với sự xuất hiện của các đối tượng địa lý khác. Chẳng hạn như nếu trái cây được xác định dựa trên các cơ sở về màu sắc, hình dạng và mùi vị, thì trái cây màu đỏ, hình cầu và ngọt được nhận biết là một quả táo. Do đó, mỗi đặc điểm riêng lẻ góp phần xác định rằng đó là một quả táo mà không phụ thuộc vào nhau.
- Bayes : Nó được gọi là Bayes vì nó phụ thuộc vào nguyên lý của Định lý Bayes .
Ưu và nhược điểm của Naive Bayes là gì?
Ưu điểm:
- Dễ dàng và nhanh chóng để dự đoán lớp của tập dữ liệu thử nghiệm. Nó cũng hoạt động tốt trong dự đoán nhiều lớp
- Khi giả định giữ độc lập, bộ phân loại Naive Bayes hoạt động tốt hơn so với các mô hình khác như hồi quy logistic và bạn cần ít dữ liệu đào tạo hơn.
- Nó hoạt động tốt trong trường hợp các biến đầu vào phân loại so với (các) biến số. Đối với biến số, phân phối chuẩn được giả định (đường cong hình chuông, một giả định mạnh).
Nhược điểm:
- Nếu biến phân loại có một danh mục (trong tập dữ liệu thử nghiệm), không được quan sát trong tập dữ liệu huấn luyện, thì mô hình sẽ chỉ định xác suất 0 (không) và sẽ không thể đưa ra dự đoán. Điều này thường được gọi là “Tần số không”. Để giải quyết vấn đề này, chúng ta có thể sử dụng kỹ thuật làm mịn. Một trong những kỹ thuật làm mịn đơn giản nhất được gọi là ước lượng Laplace.
- Mặt khác, Bayes ngây thơ cũng được biết đến như một công cụ ước lượng tồi, vì vậy kết quả xác suất từ dự đoán_proba không được coi trọng quá.
- Một hạn chế khác của Naive Bayes là giả định về các yếu tố dự đoán độc lập. Trong cuộc sống thực, hầu như không thể có được một tập hợp các yếu tố dự đoán hoàn toàn độc lập.
4 Ứng dụng của thuật toán phân loại Naive Bayes
- Dự đoán thời gian thực: Naive Bayes là một công cụ phân loại ham học hỏi và chắc chắn là rất nhanh. Do đó, nó có thể được sử dụng để đưa ra dự đoán trong thời gian thực.
- Dự đoán nhiều lớp: Thuật toán này cũng nổi tiếng với tính năng dự đoán nhiều lớp. Ở đây chúng ta có thể dự đoán xác suất của nhiều lớp biến mục tiêu.
- Phân loại văn bản / Lọc thư rác / Phân tích tình cảm: Các bộ phân loại Naive Bayes chủ yếu được sử dụng trong phân loại văn bản (do kết quả tốt hơn trong các bài toán nhiều lớp và quy tắc độc lập) có tỷ lệ thành công cao hơn so với các thuật toán khác. Do đó, nó được sử dụng rộng rãi trong lọc Spam (xác định e-mail spam) và Phân tích cảm xúc (trong phân tích phương tiện truyền thông xã hội, để xác định cảm xúc tích cực và tiêu cực của khách hàng)
- Hệ thống đề xuất: Naive Bayes Classifier và Collaborative Filtering cùng nhau xây dựng một Hệ thống đề xuất sử dụng kỹ thuật học máy và khai thác dữ liệu để lọc thông tin không nhìn thấy và dự đoán liệu người dùng có muốn một tài nguyên nhất định hay không
Các loại mô hình Naïve Bayes:
Có ba loại Mô hình Naive Bayes, được đưa ra dưới đây:
- Gaussian : Mô hình Gaussian giả định rằng các đối tượng địa lý tuân theo phân phối chuẩn. Điều này có nghĩa là nếu các yếu tố dự đoán nhận các giá trị liên tục thay vì rời rạc, thì mô hình giả định rằng các giá trị này được lấy mẫu từ phân phối Gaussian.
- Đa thức : Bộ phân loại Naïve Bayes đa thức được sử dụng khi dữ liệu được phân phối đa thức. Nó chủ yếu được sử dụng cho các vấn đề phân loại tài liệu, nó có nghĩa là một tài liệu cụ thể thuộc về danh mục nào như Thể thao, Chính trị, giáo dục, v.v.
Trình phân loại sử dụng tần suất từ cho các yếu tố dự đoán. - Bernoulli : Bộ phân loại Bernoulli hoạt động tương tự như bộ phân loại Đa thức, nhưng các biến dự báo là các biến Booleans độc lập. Chẳng hạn như nếu một từ cụ thể có trong tài liệu hay không. Mô hình này cũng nổi tiếng với các nhiệm vụ phân loại tài liệu.