Mục lục trang:
Cách phát hiện dữ liệu có phân phối chuẩn normal distribution hay là phân phối chuẩn tắc standard normal distribution) thế dữ liệu nào có thể có phân phối chuẩn, còn dữ liệu nào không thể có phân phối chuẩn, những cách nào phát hiện đơn gian và hiệu quả nhất.
Thế nào là dữ liệu có phân phối chuẩn
Phân phối chuẩn, còn gọi là phân phối Gauss hay (Hình chuông Gauss), là một phân phối xác suất cực kì quan trọng trong nhiều lĩnh vực. Nó là họ phân phối có dạng tổng quát giống nhau, chỉ khác tham số vị trí (giá trị trung bình μ) và tỉ lệ (phương sai σ2).
Phân phối chuẩn tắc (standard normal distribution) là phân phối chuẩn với giá trị trung bình (μ) bằng 0 và độ lệch chuẩn (σ) bằng 1. Phân phối chuẩn còn được gọi là đường cong chuông (bell curve) vì đồ thị của mật độ xác suất có dạng chuông.
Nhận dạng dữ liệu data có phân phối chuẩn thông qua biểu đồ
Với 2 định nghĩa trên thì chúng ta dễ dàng nhận thấy rằng, dữ liệu có phân phối chuẩn là dữ liệu có đồ thị hình chuông, tức là phần lớn các quan sát sẽ tập trung vào khoảng trung vị (mean).
Ta xem đồ thị này và vẽ histogram ra chúng ta có thể khẳng định rằng dữ liệu sử dụng trong biểu đồ trên là phân phối chuẩn, vì nó có hình chuông. Tiếp theo chúng ta xem xét thêm biểu đồ sau:
Nhìn vào đồ thị 2 này chúng ta thấy rằng, đỉnh của đồ thì không nhọn ( là hình cột không phải line, vì mình vẽ line vô cho các bạn dễ hình dung thôi), đồng thời góc bên tay phải mất đi một phần. Như vậy dữ liệu X3 có thể phân phối chuẩn không ? Nếu có hình khác xấu hơn nữa mà chúng ta không thể khẳng định bằng đồ thị histogram thì phải làm sao ?
Kiểm định dữ liệu số liệu thuộc phân phối chuẩn
Chúng ta sử dụng 2 kiểm định sau để tìm phân phối chuẩn cho dữ liệu
Shapiro–Wilk normality test và Shapiro–Francia normality test, ta dùng 2 kiểm định này để kiểm tra 2 biến X1 và X3 của chúng ta
Ta dùng 2 phép kiểm định trên điều cho ra chung kết quả là biến X1 có phân phối chuẩn, biến X2 thì không có phân phối chuẩn.
Kết luận:
Vấn đề chúng ta sử dụng phương pháp nào dùng để kiểm tra phân phối chuẩn, nhưng phần lớn các nghiên cứu khoa học học chỉ dừng lại ở mức kiểm tra dữ liệu phân phối chuẩn bằng đồ thị histogram thôi, vì các kiểm định đòi hỏi khắc khe hơn nhiều. Tất cả là phụ thuộc vào yếu tố chuẩn quan của nhà làm khoa học.
Chú ý: Phân phối chuẩn thì được xem xét trên dữ liệu biến liên tục không ứng dụng cho biến rời rạc.