Mục lục trang:
hồi quy ols đa biến stata kiểm tra sai phạm – khuyết tật, trong bài viêt này solieu.vip sẽ giới thiệu đến các bạn cách hồi quy đa biến trong phần mềm stata và kiểm tra các sai phạm hay còn gọi là các khuyết tại của mô hình hồi quy, thông thường thì nói đến hồi quy (regress) các bạn hãy sử dụng phần mềm eviews để hồi quy và kiểm tra các khuyết tật, hôm nay chúng ta thử xem sử dụng trên phần mềm stata thì nó có tiện ích gì hơn không ?
Hồi quy OLS đa biến
Để thuận tiện cho việc đọc kết quả, các bạn nên sử dụng chung bộ dữ liệu của chúng tôi, mở phần mềm stata ra và nhập lệnh sử dụng dữ liệu như sau:
use https://solieu.vip/data/reg01.dta
Bây giờ chúng ta đang sử dụng bộ dữ liệu reg01.dta, với các biến như sau: income, educ, jobexp, race
Để hồi quy đa biến trên phần mềm stata chúng ta sử dụng lệnh reg hay regress
reg income educ jobexp race
Ta có, income là biến phụ thuộc các biến còn lại là biến độc lập. Ta nhận kết quả như sau:
Như thế là chúng ta đã có kết quả của việc hồi quy bình phương nhỏ nhất (ols) cho đa biến này rồi. Quá đơn giản phải không các bạn.
Cách kiểm tra sai phạm
a, Mức độ phù hợp của mô hình
Chúng ta xem xét trong bảng kết quả hồi quy ở trên, xét chỉ tiêu R-Squared. Đây chính mức độ giải biến phụ thuộc được giải thích bởi các biến độc lập là 84,54%. Chỉ số R2 này tương đối tốt vì chỉ riêng có 3 biến độc lập là educ, jobexp, race mà đã giải thích đến 85%, còn lại 15% là do các biến khác.
Chú ý: Khi chạy mô hình hồi quy thì chỉ số R-Squared rất quan trọng, nên solieu.vip rút ra được một số kinh nghiệm như sau:
Đối với dữ liệu vỹ mô: R-Squared >70% là tốt
Đối với dữ liệu vi mô: R-Squared > 50% là tốt
b, Kiểm tra hiện tượng đa cộng tuyến
Đa cộng tuyến là gì: Đa cộng tuyến là hiện tượng các biến độc lập có mối tương quan rất mạnh với nhau. Mô hình hồi quy xảy ra hiện tượng đa cộng tuyến sẽ khiến nhiều chỉ số bị sai lệch, dẫn đến kết quả của việc phân tích định lượng không còn mang lại nhiều ý nghĩa.
Để kiểm tra đa cộng tuyến trong stata, ta dùng lệnh: vif sau khi hồi quy
Chúng ta so sánh giá trị VIF này với 10, nếu giá trị nào >10 thì biến đó bị đa cộng tuyến, ngược lại là không.
Định nghĩa VIF ( hệ số phóng đại phương sai): Trong thống kê , hệ số lạm phát phương sai ( VIF ) là tỷ lệ phương sai trong một mô hình có nhiều số hạng, chia cho phương sai của một mô hình chỉ có một thuật ngữ. [1] Nó định lượng mức độ nghiêm trọng của đa cộng tuyến trong phân tích hồi quy bình phương nhỏ nhất bình thường . Nó cung cấp một chỉ số đo lường mức độ chênh lệch (bình phương độ lệch chuẩn của ước tính) của một hệ số hồi quy ước tính được tăng lên do cộng tuyến.
c, Kiểm định giả thuyết thống kê (Hypothesis testing)
Chúng ta nghe cái tên thì thấy nó chung chung, kho hiểu dịch nôm na cho dễ hiểu đó là kiểm định các biến không đồng thời bằng không.
Kiểm định giả thuyết thống kê (statistical hypothesis test) là phương pháp ra quyết định sử dụng dữ liệu, hoặc từ thí nghiệm hoặc từ nghiên cứu quan sát (observational study)(không có kiểm soát). Trong thống kê (statistics), một kết quả được gọi là đủ độ tin cậy mang tính thống kê (statistically significant) nếu nó ít có khả năng diễn ra theo một ngưỡng xác suất cho trước (ví dụ 5% hay 10%). Cụm từ kiểm định độ tin cậy (“test of significance”) được đưa ra bởi Ronald Fisher.
Có 2 định nghĩa như trên các bạn muốn hiểu theo cách nào thì hiểu, còn phần kiểm định hypothesis test này thì đơn giản vô cùng với stata, ta dùng lệnh test
Cách đặt giả thuyết:
H0: các biến không đồng thời bằng không
H1: các biến đồng thời bằng không
Ta có kết quả là chấp nhận H0, bác bỏ H1, tức là hai biến educ và jobexp không đồng thời bằng 0.
chúng ta kiểm tra cho các cặp biến còn lại, tương tự như thế
d. Kiểm định phương sai phần dư thay đổi.
Đây là một kiểm định cực kỳ quan trọng nên bất cứ mô hình hồi quy nào cũng cần phải có. Để kiểm định phương sai phần dư thây đổi ta dùng lệnh hettest sau hồi quy.
Ta đặt giả thuyết như sau:
H0: có hiện tượng phương sai phần dư thay đổi
H1: Không có hiện tượng phươn sai phần dư thay đổi
Ta có, p-value >5%, tức là chúng ta bác bỏ giả thuyết H0, Chập nhận H1, có nghĩa là mô hình không có hiện tượng phương sai phần dư thay đổi.
Trong mô hình hồi quy ols đa biến chúng ta phải kiểm tra hết tất cả các khuyêt tật hay còn gọi là sai phạm trong mô hình hồi quy, nếu mô hình có khuyết tật thì chúng ta phải khăc phục nó, trước khi sử dụng mô hình.
Note: Thế nào cũng có các bạn hỏi, tại sao nói kiểm tra hết các khuyết tật mà không thấy kiểm tra hiện tượng tự tương quan mô hình, hay tự tương quạn phần dư … do bộ dữ liệu của solieu.vip không có dữ liệu thời gian nên chúng ta không thể kiểm tra tự tương quan. Nói cách khác, khi mô hình có chuỗi thời gian thì chúng ta mới có kiểm tra tự tương quan.
Trên đây, là chúng tôi hương dẫn các bạn hồi quy ols đa biến trên phần mềm stata đồng thời kiểm tra các khuyết tật. Nếu các bạn phát hiện ra sai xót, hãy liên hệ với chúng tôi. Thành thật cảm ơn.!