ttest scaled - kiểm định T-Test đầy đủ nhất

kiểm định T-Test đầy đủ nhất

By

kiểm định T-Test đầy đủ nhất, được thực hiện ví dụ trên phần mềm thống kê R, hướng dẫn kiểm định trung bình cho tổng thể với các điều  kiện cần thiết của t-test. Trong bài viết này chúng ta không quan tâm đến lịch sử hình thành t-test, các công thức bên định lượng ( làm sao ra chỉ số định lượng), mà chúng ta sẽ áp dụng trực tiếp định lượng bằng R, để cho ra kết quả như mong muốn.

Kiểm định Student’s t-test là gì ?

Các t -test là bất kỳ thử nghiệm giả thuyết thống kê , trong đó thống kê kiểm tra sau một Student’s t -distribution dưới giả thuyết .

Một t- test được áp dụng phổ biến nhất khi thống kê kiểm tra sẽ tuân theo phân phối bình thường nếu biết giá trị của một thuật ngữ tỷ lệ trong thống kê kiểm tra. Khi thuật ngữ chia tỷ lệ không xác định và được thay thế bằng ước tính dựa trên dữ liệu , thống kê kiểm tra (trong các điều kiện nhất định) tuân theo phân phối t của Học sinh . Các t -test có thể được sử dụng, ví dụ, để xác định xem các phương tiện hai bộ dữ liệu là đáng kể khác nhau từ mỗi khác.

TIN HOT:  dịch vụ chỉnh sửa số liệu eviews hồi quy ngưỡng

Các giả thuyết của kiểm định trung bình t-test

  1. Dữ liệu phải có phân phối chuẩn
  2. Phương sai của 2 nhóm là tương đương
  3. Hai nhóm phải độc lập
  4. Mẫu phải được lấy ngẫu nhiên
  5. Lượng mẫu phải lớn hơn 30

Trong 5 giả thuyết của mô hình định lượng t-test chúng ta chỉ quan tâm đến 2 mục đầu là: kiểm tra phân phối chuẩn và phương sai, còn về các mục như: Hai nhóm độc lập, mẫu lấy ngãu nhiên, lượng quan sát; Thì chúng ta mặc định là đã thực hiện đúng ( vẫn đề này cũng dễ thực hiện).

Kiểm định giả thuyết

Dữ liệu có phân phối chuẩn

Một phân phối chuẩn là một phân phối xác suất phổ biến . Nó có hình dạng thường được gọi là “đường cong hình chuông”.

Nhiều bộ dữ liệu hàng ngày thường tuân theo phân phối bình thường: ví dụ: chiều cao của người trưởng thành, điểm số trong bài kiểm tra dành cho một lớp lớn, lỗi trong các phép đo.

Phân phối chuẩn luôn luôn đối xứng về giá trị trung bình.

Các độ lệch chuẩn là thước đo về cách lây lan ra một bộ phân phối chuẩn của dữ liệu là. Đây là một thống kê cho bạn biết mức độ chặt chẽ của tất cả các ví dụ được tập hợp xung quanh giá trị trung bình trong một tập dữ liệu. Hình dạng của phân phối chuẩn được xác định bởi giá trị trung bình và độ lệch chuẩn. Đường cong chuông càng dốc, độ lệch chuẩn càng nhỏ. Nếu các ví dụ được trải đều cách xa nhau, đường cong hình chuông sẽ phẳng hơn nhiều, có nghĩa là độ lệch chuẩn lớn.

TIN HOT:  phân biệt ISI SCOPUS Cái nào tốt hơn ?

Kiểm tra bằng đồ thị histogram

histogram 300x300 - kiểm định T-Test đầy đủ nhất

từ đồ thị trên chúng ta dễ dàng nhận thấy răng, dữ liệu được đối xưng qua giá trị trung bình và có hình chuông, chúng ta khẳng định dữ liệu của chúng ta là phân phối chuẩn. Vấn đề về đồ thị thì mang tính cảm tính của người xem cao nên chúng ta phải sử dụng phương pháp định lượng kèm theo để kiểm tra phân phối chuẩn của dữ liệu.

Kiểm định phân phối chuẩn bằng shapiro-test

Chạy Shapiro test trên R ta được kết quả như sau:

shapiro.test(Luong~Gtinh)

Shapiro-Wilk normality test

data: weight

W=0.98927   P-value = 0.1394

Đặt giả thuyết cho kiểm định Shapiro-Wilk test:

  • H0: Dữ liệu có phân phối chuẩn
  • H1: Dữ liệu không có phân phối chuẩn

Ta có P-value > 0.05 nên chúng ta chấp nhận H0 bác bỏ H1, tức là dữ liệu có phân phối chuẩn

Kiểm định phân phối chuẩn bằng  Anderson-Darling test

Sau khi dùng kiểm định Shapiro ta có dữ liệu đã chuẩn, chúng ta thử kiểm tra bằng kiểm định khác của ông Anderson-Darling xem sao ? Được biết kiểm định của 2 này có phương pháp mới hơn và mạnh mẽ hơn; Chúng ta được kết quả như sau:

ad.test(Luong~Gtinh)

Anderson-Darling normality test

data: Luong
A = 0.76911, p-value = 0.04492

Ta có P-value <0.05 => Dữ liệu không có phân phối chuẩn.

Rõ ràng, khi chúng ta dùng kiểm định mạnh mẽ hơn với độ chính xác cao hơn thì kết quả cho ra rất khác với kiểm định lần đầu – cũng là một vấn đề dễ hiểu.

TIN HOT:  thuê chạy chỉnh sửa mô hình kinh tế lượng

Tới đây, chúng ta mặc định chấp nhận rằng dữ liệu của chúng ta có phân phối chuẩn, để thõa mãn điều kiện 1 của kiểm định t-test.

Kiểm định phương sai

Một trong những giả thuyết thống kê t-test rất quan trọng mà thường chúng ta bỏ qua. Đó là phương sai của 2 nhóm trong kiểm định là phải tương đương nhau, hay nói cách khác là không có sự khác biệt phương sai của 2 nhóm so sánh; Điều này rất là dễ hiểu, vì nếu so sánh 2 nhóm mà  có sự khác biệt quá lớn về phương sai thì có nghĩa là nó đã có sự khác biệt về 2 nhóm rồi, đâu cần phải kiểm định chi nữa !

Giả thuyết:

  • H0: Phương sai của 2 nhóm là tương đối giống nhau
  • H1: Phương sai của 2 nhóm là tương đối khác biệt

Kết quả chạy kiểm định phương sai:

var.test(Luong~Gtinh)

F test to compare two variances

data: Luong by Gtinh
F = 1.3276, num df = 58, denom df = 140, p-value = 0.1823

ratio of variances : 1.327618

Ta có là phương sai của 2 nhóm độc lập có khác nhau là 1.3 lần, đồng thời:

p-value >0.05 => Phương sai của 2 nhóm là tương đồng nhau.

Trên đây là chúng tôi đã hướng dẫn các bạn các bước để thực hiện kiểm định trung bình 2 nhóm qua kiểm định t-test trên phần mềm R.

You may also like

Hot News

15594910453 84c9bf06ce o FILEminimizer - Phân tích bao dữ liệu DEA Hiệu quả kỹ thuật