Mục lục trang:
MSE và RMSE là gì và cách tính trên STATA
Chào tất cả các bạn, hôm nay mình sẽ hướng dẫn các bạn tính thêm 2 chỉ số khác khá là quan trọng trong hồi quy tuyến tính.Nó có thể được chọn để có thể thay thế cho chỉ số R (R-squared). Nó cũng là một chỉ số để tính toán được sự đáng tin cậy của mô hình hồi quy tuyến tính. Với sự trái ngược hoàn toàn so với R (R-squred), khi R cho chúng độ tin cậy càng cao thì mô hình càng có sự tin cậy còn RMSE( Root Mean Squared Erorr ) thì nó càng dần về 0 thì càng có đủ độ tin cậy chứng tỏ mô hình ít bị sai số nhất. Giúp chúng ta xác định được độ tin cậy cao mà mô hình có RMSE mang lại.
Và bây giờ chúng ta sẽ tính toán nó cũng như tìm hiểu xem nó là gì và là nó như thế nào?
Trước khi chúng ta tìm hiểu xem RMSE là gì chúng ta phải đi qua định nghĩa của RME là gì. Khi chúng ta biết được MSE là gì thì chúng ta sẽ tìm hiểu rõ RMSE.
-
MSE là gì ( Mean Squared Erorr) ?
Giải thích chung:
-
Theo wikipedia.
Trong thống kê, sai số bình phương trung bình (MSE) của công cụ ước tính (của thủ tục ước tính số lượng không quan sát được) đo trung bình bình phương của các lỗi – nghĩa là chênh lệch bình phương trung bình giữa các giá trị ước tính và giá trị ước tính. MSE là một hàm rủi ro, tương ứng với giá trị dự kiến của mất lỗi bình phương. Việc MSE hầu như luôn luôn tích cực (chứ không phải bằng không) là do tính ngẫu nhiên hoặc do công cụ ước tính không tính đến thông tin có thể tạo ra ước tính chính xác hơn.
MSE được gọi nôm na là giá trị sai số bình phương trung bình hoặc là lỗi bình phương trung bình. Vấn đề khi nói về sai số trung bình của một mô hình thống kê nhất định là rất khó xác định mức độ lỗi là do mô hình và mức độ là do ngẫu nhiên. Lỗi bình phương trung bình (MSE) cung cấp một thống kê cho phép các nhà nghiên cứu đưa ra tuyên bố như vậy. MSE chỉ đơn giản đề cập đến giá trị trung bình của chênh lệch bình phương giữa tham số dự đoán và tham số quan sát được.
-
Công thức tính MSE
-
Với:
yi là biến độc lập
yb là giá trị ước lượng
Và sau đây chúng ta hãy bắt đầu tính MSE trên STATA bằng bộ dữ liệu lần trước mà mình đã đăng ở bài trước hoặc nếu ai chưa biết thì có thể làm theo y như hình ở bên dưới.Các bạn có thể tham khảo bài trước ở đây
use https://solieu.vip/data/quyetdinh.dta
Tiếp theo các bạn làm theo các bước sau đây.
B1: Hồi quy ols bình thường (reg…..)
B2: Ước lượng giá trị của biến (predict yhat,xb)
B3: Đặt tên biến và gáng giá trị ( gen mse = (Y-yhat)^2)
B4: Tính giá trị trung bình của mse (sum mse)
Ở trong lệnh sum chúng ta tính được giá trị trung bình của mse=0.993834
-
Khái niệm R-MSE và cách tính toán (Root mean squared error)
Theo những gì chúng ta được biết R-squared được cho là đơn vị đo tiêu chuẩn của 1 mô hình tuyến tính. Nó cũng là 1 thướt đo mà chúng ta quen thuộc khi nhắc về mô hình, vì nó cho chúng ta được mức độ chính xác của mô hình chúng ta như thế nào. Nói đúng ra nó cho chúng ta về độ tin cậy của mô hình với phần trăm càng cao mô hình càng có độ tin cậy, nó là đúng cho đến khi chúng ta gặp một mô hình mà những nghiên cứu trước dường như cho ta thấy rằng R-squared nó không đảm bảo độ tin cậy cao. Nơi mà những mô hình nghiên cứu gần như không chấp nhận R-squared mà nó chấp nhận những chỉ tiêu được cho là có độ tin cậy cao hơn cả R đó là R-MSE.
-
R-MSE là gì ?
Giải thích chung
Theo wikipedia.
Các độ lệch root-mean-square ( RMSD ) hoặc root-mean-square lỗi ( RMSE ) là một biện pháp thường được sử dụng trong những khác biệt giữa các giá trị (mẫu hoặc các giá trị dân) được dự đoán bởi một mô hình hay một ước lượng và các giá trị quan sát được. RMSD đại diện cho căn bậc hai của thời điểm mẫu thứ hai về sự khác biệt giữa các giá trị dự đoán và giá trị quan sát hoặc giá trị trung bình bậc hai của những khác biệt này. Các độ lệch này được gọi là phần dư khi các phép tính được thực hiện trên mẫu dữ liệu được sử dụng để ước tính và được gọi là lỗi(hoặc lỗi dự đoán) khi tính toán ngoài mẫu. RMSD phục vụ để tổng hợp cường độ của các lỗi trong các dự đoán trong nhiều thời điểm khác nhau thành một thước đo duy nhất về sức mạnh dự đoán. RMSD là thước đo độ chính xác , để so sánh các lỗi dự báo của các mô hình khác nhau cho một tập dữ liệu cụ thể chứ không phải giữa các bộ dữ liệu, vì nó phụ thuộc vào quy mô.
Lỗi trung bình bình phương (RMSE) là độ lệch chuẩn của phần dư ( lỗi dự đoán ). Phần dư là thước đo khoảng cách từ các điểm dữ liệu đường hồi quy; RMSE là thước đo mức độ lan truyền của những phần dư này. Nói cách khác, nó cho bạn biết mức độ tập trung của dữ liệu xung quanh dòng phù hợp nhất . Lỗi bình phương trung bình thường được sử dụng trong khí hậu học, dự báo và phân tích hồi quy để xác minh kết quả thí nghiệm.
Lỗi trung bình bình phương gốc (RMSE) là thước đo mức độ hiệu quả của mô hình của bạn. Nó thực hiện điều này bằng cách đo sự khác biệt giữa các giá trị dự đoán và giá trị thực tế . R-MSE càng nhỏ tức là sai số càng bé thì mức độ ước lượng cho thấy độ tin cậy của mô hình có thể đạt cao nhất.
-
Công thức tính R-MSE
-
Với:
y^i là giá trị ước lượng
yi là biến độc lập
n=(N – k – 1)
N : số tổng lượng quan sát
K : tổng lượng biến
Chúng ta hãy bắt đầu tính R-MSE trên STATA.
B1: Lấy MSE chia cho lượng quan sát (a)
B2: Tính trung bình của (a) (b)
B3: Tính căn bậc hai của (b)
B4: Xem kết kết quả
Sau khi chúng ta có kết quả của RMSE là gì ta so sánh lại với hồi quy OLS xem thử nó có giống nhau hay không ,chêch lệch nhau không đáng kể tức là RMSE của chúng ta là chính xác.
Ở đây ta thấy RMSE của OLS gần giống với RMSE của chúng ta tính. Vậy là ta đã tính được RMSE, ở đây mô hình hồi OLS nó tự động tính cho chúng ta RMSE nhưng khi chúng ta không chạy mô hình OLS mà chạy mô hình khác. Thì ta có thể dùng cách trên để tính RMSE, nó có thể phục vụ các bạn trong quá trình nghiên cứu hay học tập.
Vậy là chúng ta đã tìm hiểu được 1 trong những cách tính được 2 chỉ số mà ta nói ở trên. Cảm ơn các bạn đã đọc bài của mình. Hẹn gặp các bạn ở các bài sau. Chào thân ái và quyết thắng.
Trân trọng