Mục lục trang:
Hồi quy sai biệt kép Difference in Difference regression (DID hay DD) là một phương pháp hồi quy cho một chính sách ( hay sự kiện) mới được ban hành, chúng ta thường muốn ước tính những tác động của chính sách đó. Sự khác biệt-trong-khác biệt (diff-in-diff) là một cách để ước tính tác động của các chính sách mới. Để sử dụng diff-in-diff, chúng ta cần kết quả quan sát được của những người tiếp xúc với can thiệp (được điều trị) và những người không tiếp xúc với can thiệp (đối chứng), cả trước và sau can thiệp.
Hồi quy sai biệt kép
Difference in Difference regression
Hồi quy sai biệt kép là gì ?
Sự khác biệt về sự khác biệt ( DID hoặc DD ) là một kỹ thuật thống kê được sử dụng trong kinh tế lượng và nghiên cứu định lượng trong khoa học xã hội cố gắng bắt chước một thiết kế nghiên cứu thử nghiệm bằng cách sử dụng dữ liệu nghiên cứu quan sát , bằng cách nghiên cứu ảnh hưởng khác biệt của một phương pháp điều trị đối với một “nhóm điều trị” so với một ” nhóm đối chứng ” trong một thí nghiệm tự nhiên .
Nó tính toán ảnh hưởng của một cách xử lý (tức là một biến giải thích hoặc một biến độc lập ) đến một kết quả (tức là, một biến phản hồi hoặc biến phụ thuộc ) bằng cách so sánh sự thay đổi trung bình theo thời gian của biến kết quả đối với nhóm điều trị với sự thay đổi trung bình theo thời gian của nhóm chứng. Mặc dù nhằm mục đích giảm thiểu tác động của các yếu tố ngoại lai và sai lệch lựa chọn , tùy thuộc vào cách chọn nhóm điều trị, phương pháp này vẫn có thể chịu một số sai lệch nhất định (ví dụ: hồi quy trung bình , quan hệ nhân quả ngược và sai lệch biến bị bỏ qua ).
Ngược lại với ước tính theo chuỗi thời gian về hiệu quả điều trị trên các đối tượng (phân tích sự khác biệt theo thời gian) hoặc ước tính cắt ngang về hiệu quả điều trị (đo lường sự khác biệt giữa nhóm điều trị và nhóm chứng), sự khác biệt về sự khác biệt sử dụng dữ liệu bảng để đo lường sự khác biệt giữa nhóm điều trị và nhóm chứng về những thay đổi trong biến kết quả xảy ra theo thời gian.
Diễn giải sai biệt kép ( khác biệt trong khác biệt).
Sự khác biệt về sự khác biệt đòi hỏi dữ liệu được đo từ một nhóm điều trị và một nhóm chứng ở hai hoặc nhiều khoảng thời gian khác nhau, cụ thể là ít nhất một khoảng thời gian trước khi “điều trị” và ít nhất một khoảng thời gian sau khi “điều trị”.
Trong ví dụ minh họa, kết quả trong nhóm điều trị được biểu thị bằng đường P và kết quả trong nhóm đối chứng được biểu thị bằng đường S. Biến kết quả (phụ thuộc) ở cả hai nhóm được đo lường tại thời điểm 1, trước khi một trong hai nhóm có đã nhận được xử lý (tức là, biến độc lập hoặc biến giải thích), được biểu thị bằng các điểm P 1 và S 1. Nhóm điều trị sau đó tiếp nhận hoặc trải nghiệm phương pháp điều trị và cả hai nhóm đều được đo lại ở thời điểm 2. Không phải tất cả sự khác biệt giữa nhóm điều trị và nhóm chứng tại thời điểm 2 (nghĩa là, sự khác biệt giữa P 2 và S 2 ) có thể được giải thích như là hiệu quả của phương pháp điều trị, bởi vì nhóm điều trị và nhóm chứng không bắt đầu cùng một thời điểm 1.
Do đó, DID tính toán sự khác biệt “bình thường” trong biến kết quả giữa hai nhóm (sự khác biệt vẫn tồn tại nếu không nhóm nào trải qua điều trị), được biểu thị bằng đường chấm Q. (Chú ý rằng độ dốc từ P 1 đến Q giống với độ dốc từ S1 đến S 2. ) Hiệu quả điều trị là sự khác biệt giữa kết quả quan sát được (P 2 ) và kết quả “bình thường” (sự khác biệt giữa P 2 và Q).
Giả định của hồi quy sai biệt kép
Tất cả các giả định của mô hình OLS đều áp dụng như nhau cho DID.
Ngoài ra, DID yêu cầu giả định xu hướng song song . Giả định xu hướng song song nói rằng λ1 – λ2 giống nhau ở cả hai ξ1=1 và ξ2=2. Cho rằng định nghĩa chính thức ở trên thể hiện chính xác thực tế, giả định này tự động đúng. Tuy nhiên, một mô hình với λst: λ22 – λ21 # λ12 -λ11 cũng có thể thực tế hơn. Để tăng khả năng nắm giữ giả định xu hướng song song, phương pháp tiếp cận chênh lệch thường được kết hợp với đối sánh .
Điều này liên quan đến việc ‘Đối sánh’ các đơn vị “điều trị” đã biết với các đơn vị “điều khiển” phản thực tế được mô phỏng: các đơn vị đặc trưng tương đương không được điều trị. Bằng cách xác định Biến kết quả là sự khác biệt theo thời gian (sự thay đổi trong kết quả quan sát được giữa các giai đoạn trước và sau điều trị) và So khớp nhiều đơn vị trong một mẫu lớn trên cơ sở lịch sử trước khi điều trị tương tự, kết quả là ATE(tức là ATT: Hiệu quả điều trị trung bình cho người được điều trị) cung cấp ước tính chênh lệch về hiệu quả điều trị mạnh mẽ.
Điều này phục vụ hai mục đích thống kê: thứ nhất, có điều kiện đối với các hiệp biến số trước khi xử lý, giả định các xu hướng song song có khả năng được giữ nguyên; và thứ hai, cách tiếp cận này làm giảm sự phụ thuộc vào các giả định về khả năng bị bỏ qua liên quan cần thiết cho suy luận hợp lệ.
Thực hành trên Stata
Nói về DD thì các bạn nên xem trước về vấn đề mod hiệu chỉnh biến, khi hiểu được vấn này này thì việc hồi quy sai biệt kép quá đơn giản.
Câu hỏi nghiên cứu
- Những người kết hôn ( KETHON {1: Không kết hôn + 2: Đã kết hôn}) chi phí hay không?
- Và giới tính (GIOITINH {1: Nữ + 2: Nam} có ảnh hưởng đến chi phí hay không ?
- Và những người có giới tính Nam và đã kết hôn thì chi phí sẽ như thế nào ?
Hồi quy OLS
Với câu hỏi 1 &2 thì hồi quy tuyến tính OLS trả lời được, còn câu 3 thì không
reg CPHI LUONG THUONG SOCON TKIEM KETHON GIOITIHH
Source | SS | df | MS Number of obs = | 200 |
F(6, 193) = | 27.50 | |||
Model | 2379.23136 | 6 | 396.538559 Prob > F = | 0.0000 |
Residual | 2782.72364 | 193 | 14.4182572 R-squared = | 0.4609 |
Adj R-squared = | 0.4442 | |||
Total | 5161.955 | 199 | 25.9394724 Root MSE = | 3.7971 |
CPHI | Coef. | Std. Err. | t P>t [95% Conf. | Interval] |
LUONG | .1774885 | .074542 | 2.38 0.018 .0304669 | .3245102 |
THUONG | .1554958 | .0861988 | 1.80 0.073 -.0145169 | .3255085 |
SOCON | .2710036 | .4475361 | 0.61 0.546 -.6116861 | 1.153693 |
TKIEM | .1144941 | .1363472 | 0.84 0.402 -.1544277 | .3834159 |
KETHON | 2.943183 | .8181394 | 3.60 0.000 1.329541 | 4.556825 |
GIOITIHH | 1.859294 | .8597848 | 2.16 0.032 .1635135 | 3.555075 |
_cons | 2.750554 | 1.331754 | 2.07 0.040 .1238944 | 5.377214 |
Ta thấy rằng, Kết hôn và Giới tính điều có ý nghĩa thống kê, tức là có tác động đến CPHI ( Chi phí).
Để giải quyết câu 3 thì chúng ta cần hồi quy sai biệt kép
Hồi quy sai biệt kép
reg CPHI LUONG THUONG SOCON TKIEM i.KETHON#i.GIOITIHH
Source | SS | df MS | Number of obs = | 200 |
F(7, 192) = | 23.83 | |||
Model | 2399.98121 | 7 342.854459 | Prob > F = | 0.0000 |
Residual | 2761.97379 | 192 14.3852802 | R-squared = | 0.4649 |
Adj R-squared = | 0.4454 | |||
Total | 5161.955 | 199 25.9394724 | Root MSE = | 3.7928 |
CPHI | Coef. | Std. Err. t | P>t [95% Conf. | Interval] |
LUONG | .1815767 | .0745345 2.44 | 0.016 .0345651 | .3285883 |
THUONG | .1687578 | .0868054 1.94 | 0.053 -.0024568 | .3399725 |
SOCON | .223881 | .4487426 0.50 | 0.618 -.6612173 | 1.108979 |
TKIEM | .1188129 | .1362386 0.87 | 0.384 -.1499037 | .3875294 |
KETHON#GIOITIHH | ||||
1 2 | .8658148 | 1.192392 0.73 | 0.469 -1.486055 | 3.217685 |
2 1 | 2.015215 | 1.12464 1.79 | 0.075 -.2030206 | 4.23345 |
2 2 | 4.736774 | .9018783 5.25 | 0.000 2.957913 | 6.515636 |
_cons | 7.519869 | 1.66825 4.51 | 0.000 4.229418 | 10.81032 |
Ta thấy rằng có sự khác biệt giữa nhưng người khảo sát là Nam + đã kết hôn với Nữ + chưa kết hôn. Và sự khác biệt này có ý nghĩa thống kê.
Kiểm định sau hồi quy sai biệt kép
- Sai số có phân phối chuẩn
- Phương sai sai số thay đổi
- Tương quan chuỗi
- Đa cộng tuyến
- Và Xu hướng song song (Parallel Trend Assumption)
Kết luận:
Khi chạy mô hình sai biệt kép, các bạn cần phải có ý nghĩa thống kê; Nếu không có ý nghĩa thống kê thì không cần phải chạy mô hình này, vì nó vô nghĩa
Trong lúc thực hiện nghiên cứu khoa học, nếu dữ liệu chạy ra không có ý nghĩa thống kê, hay khó đọc hiểu output hay không có dữ liệu … Các bạn đừng ngần ngại hãy liên hệ ngay với chúng tôi.