Mục lục trang:
phân nhóm LCA phân tích lớp tiềm ẩn, hướng dẫn các bạn thực hiện phân nhóm hay lớp đối tượng trên một quần thể bằng công thức xác suất trên gói dữ liệu nclust được thực hiên trên phần mềm thống kê R. LCA được ứng dụng rộng rãi trong công việc phân nhóm tự động, chúng ta thường chỉ có thể phân nhóm từ một đối tượng – một biết, hoặc có thể cao hơn nữa là 2 hay 3 đối tượng, nhưng việc phân nhóm dựa vào 100 hay 1 triệu đối tượng thì chúng ta không thể làm bằng tay được, mà phải dùng thuật toán giúp đỡ công việc này, hay đơn giản hơn là những đối tượng mà chúng ta chưa biết đến, nó còn tiềm ẩn.
Phân tích lớp tiềm ẩn LCA là gì ?
Phân tích lớp tiềm ẩn (LCA) là một phương pháp thống kê để xác định tư cách thành viên nhóm không được đo lường giữa các đối tượng sử dụng các biến quan sát phân loại và / hoặc liên tục. Ví dụ, bạn có thể muốn phân loại mọi người dựa trên hành vi uống rượu (quan sát) của họ thành các loại người uống khác nhau (các lớp tiềm ẩn). Điều này có thể dẫn đến việc tìm kiếm các loại như người kiêng, người uống rượu xã hội và người lạm dụng rượu. Bạn có thể thử tạo các mô hình để dự đoán lý do tại sao một người rơi vào tư cách thành viên nhóm cụ thể (tại sao mọi người trở thành người lạm dụng rượu) và bạn cũng có thể tìm cách khám phá hậu quả của tư cách thành viên nhóm đó (không phải là người lạm dụng rượu / không lạm dụng dự đoán các biến số khác) .
Bạn thậm chí có thể kết hợp phân tích lớp tiềm ẩn với các kỹ thuật khác. Ví dụ, bạn có thể sử dụng phân tích sinh tồn để mô hình hóa thời gian sử dụng rượu lần đầu tiên và thấy rằng phân tích lớp tiềm ẩn xác định một nhóm người kiêng khem lâu dài và sự sống sót của họ được mô hình tách biệt với những người không kiêng. Hoặc nếu bạn đang sử dụng mô hình đường cong tăng trưởng tiềm ẩn của việc sử dụng alchohol theo thời gian, bạn có thể áp dụng phân tích lớp tiềm ẩn cho các quỹ đạo của việc sử dụng rượu để xác định các lớp như người kiêng khem, người uống rượu sớm giảm dần và người lạm dụng rượu mãn tính. LCA có thể được sử dụng trong nhiều ngành như Khoa học sức khỏe, Tâm lý học, Giáo dục và Khoa học xã hội.
Phương pháp Latent Class Analysis như thế nào ?
LCA là một phương pháp phân tích trong đó các biến quan sát được (việc trả lời câu hỏi) hoặc có thể quan sát (manifest variables) có liên quan đến các biến không quan sát được (năng lực của thí sinh) hoặc các biến tiềm ẩn . Trong IRT, các biến quan sát được cũng được xác định, nhưng biến tiềm ẩn (mức độ năng lực thí sinh) liên tục thay đổi. Về bản chất, các mô hình LCA cung cấp một xác suất hoặc kết quả mờ với sự phân lớp, trong khi các mô hình IRT mang lại một ước lượng về mức độ năng lực thí sinh trong tình trạng liên tục.
Phân tích lớp tiềm ẩn trên R
Ý tưởng phân nhóm
Chúng ta có 150 mẫu quan sát về nghiên cứu thời gian sử dụng điện thoại thông minh của 150 người dùng VN, về thời gian sử dụng trung bình của 3 mạng xã hội hàng đầu VN tại thời điểm này là FACEBOOK ZALO YOUTUBE, ta ứng dụng phương pháp Latent Class Analysis để cho phân nhóm tự động, đồng thời để xem thuật toán của LCA sẽ phân ra bao nhiêu nhóm ? và mỗi nhóm bao nhiêu thành viên ?
Thiết lập dữ liệu cho R trong gói mclust
setwd("c:/vidu")
library(readxl)
dulieu <-read_excel("LCA.xlsx")
dulieuchay <-dplyr::select(dulieu,FACEBOOK,ZALO,YOTUBE)
Với câu lệnh trên thì chúng ta đã thiết lập dữ liệu để chạy LCA là FACEBOOK + ZALO + YOTUBE
Tìm giá trị BIC tối ưu trong mô hình
Ta chú ý vào những lớp có giá trị BIC thấp nhất, tại đó là giá trị Min của BIC
Best BIC values:
EEV,9 EEV,8 VEI,3
BIC -1423.258 -1436.48702 -1515.29746
BIC diff 0.000 -13.22881 -92.03925
Như vậy là chúng ta có lớp 9 là lớp tối ưu
Phân tích lớp tiềm ẩn LCA
Kết quả ước lượng LCA thì ra rất nhiều và có chúng tôi chỉ chụp màn hình 1 ít cho các bạn dễ hình dung hơn về kết quả của phân tích lớp tiềm ẩn.
Thống kê mô tả của biến nhóm (NHOM)
summary(NHOM)
1 2 3 4 5 6 7 8 9
30 10 35 9 14 13 7 13 19
Đây là câu hỏi quan trọng mà chúng ta phân nhóm tự động cần biết đó là :
Với dữ liệu như trên thì có phân ra bao nhiêu nhóm là hợp lý ?
Từ kết quả phân tích LCA chúng ta có được: 9 nhóm
Số lượng thành viên trong mỗi nhóm la bao nhiêu ?
- Nhóm 1 có 30 thành viên
- Nhóm 2 có 10 thành viên
- Nhóm 3 có 35 thành viên
- Nhóm 4 có 9 thành viên
- Nhóm 5 có 14 thành viên
- Nhóm 6 có 13 thành viên
- Nhóm 7 có 7 thành viên
- Nhóm 8 có 13 thành viên
- Nhóm 9 có 9 thành viên
Kết luận phân nhóm LCA
Để phân nhóm bằng LCA thực hiện trên R sẽ có nhiều ứng dụng rộng rãi trong xã hội học, kinh tế học …chúng ta có thể áp dụng cho phân loại rất nhiều mục đích khác; Đồng thời chúng ta có thể áp dụng thêm phương pháp định lượng khác để làm nổi bậc lên ý tưởng của chúng ta.
Dùng các từ ngữ chung chung thì cũng khó hiểu cho các bạn, chúng tôi sẽ dùng 1 ví dụ cụ thể: Chúng ta đang nghiên cứu về họ nghèo của 1 huyện A, đầu tiên chúng dùng phương pháp phân tích lớp tiềm ẩn để chia nhóm trong đối tượng nghiên cứu, hay nói cách thực tiễn là chia cấp độ nghèo cho mẫu quan sát; tiếp đến ta dùng phương pháp hồi quy logit đa bậc (Multinomial logistic regression) để tìm các nhân tố ảnh hưởng đến họ nghèo này.