Mục lục trang:
Phân tích dữ liệu đa hợp CoDA – Compositional Data Analysis, nhằm đánh giá chỉ tiêu ảnh hưởng của biến độc lập nhiều nhất trong mô hình nghiên cứu, được áp dụng nhiều trong đánh chi tiêu hay thu nhập mà chúng ta cần nghiên cứu, để tìm ra nhân tố ảnh hưởng chi tiêu – thu nhập nhiều nhất.
Phân tích dữ liệu đa hợp CoDA
Phân tích CoDA là gì ?
Dữ liệu tổng hợp là dữ liệu không âm mang thông tin tương đối, chứ không phải tuyệt đối – những dữ liệu này thường là dữ liệu có ràng buộc tổng không đổi đối với các giá trị mẫu, ví dụ: tỷ lệ hoặc tỷ lệ phần trăm tổng hợp tương ứng là 1% hoặc 100%. Tỷ lệ giữa các thành phần của một thành phần rất quan trọng vì chúng không bị ảnh hưởng bởi tập hợp các thành phần cụ thể được chọn. Logarit của tỷ lệ (log -ratios) là sự chuyển đổi cơ bản trong phương pháp tiếp cận tỷ lệ để phân tích dữ liệu tổng hợp — tất cả dữ liệu do đó cần phải là số dương hoàn toàn, để các giá trị 0 thể hiện một vấn đề lớn.
Các thành phần nhóm lại với nhau dựa trên kiến thức miền có thể được kết hợp (tức là tổng hợp – đa hợp) để tạo ra các thành phần mới và điều này có thể làm giảm bớt vấn đề về số không dữ liệu. Sau khi dữ liệu tổng hợp được chuyển đổi thành log -ratios, Có thể thực hiện phân tích thống kê đơn biến và đa biến thường xuyên, chẳng hạn như giảm thứ nguyên và phân cụm, cũng như mô hình hóa. Các phương pháp luận thay thế gần với lý tưởng của cách tiếp cận log -ratios cũng được xem xét, đặc biệt là những phương pháp tránh vấn đề số không dữ liệu, đặc biệt nghiêm trọng trong các tập dữ liệu tin sinh học lớn.
Dữ liệu đa hợp là gì
Trong thống kê , dữ liệu tổng hợp hay dữ liệu đa hợp là những mô tả định lượng về các bộ phận của một số tổng thể, chuyển tải thông tin tương đối. Về mặt toán học, dữ liệu tổng hợp được biểu diễn bằng các điểm trên một đơn vị đo . Các phép đo liên quan đến xác suất, tỷ lệ, phần trăm và ppm đều có thể được coi là dữ liệu đa hợp
Ứng dụng phân tích đa hợp
- Trong hóa học , các chế phẩm có thể được biểu thị bằng nồng độ mol của mỗi thành phần. Vì tổng của tất cả các nồng độ không được xác định, nên toàn bộ thành phần của các phần D là cần thiết và do đó được biểu thị dưới dạng véc tơ của nồng độ mol D. Các chế phẩm này có thể được chuyển thành phần trăm trọng lượng nhân mỗi thành phần với hằng số thích hợp.
- Về nhân khẩu học , một thị trấn có thể là một điểm dữ liệu tổng hợp trong một mẫu các thị trấn; một thị trấn trong đó 35% dân số theo đạo Thiên chúa, 55% theo đạo Hồi, 6% là người Do Thái, và 4% còn lại là những người khác sẽ tương ứng với phần tư [0,35, 0,55, 0,06, 0,04] . Một tập dữ liệu sẽ tương ứng với một danh sách các thị trấn.
- Về địa chất , một tảng đá bao gồm các khoáng chất khác nhau có thể là một điểm dữ liệu thành phầntrong một mẫu đá; một loại đá trong đó 10% là khoáng chất đầu tiên, 30% là khoáng chất thứ hai, và 60% còn lại là đá thứ ba sẽ tương ứng với bộ ba [0,1, 0,3, 0,6] . Một tập dữ liệu sẽ chứa một bộ ba như vậy cho mỗi tảng đá trong một mẫu đá.
- Trong trình tự thông lượng cao , dữ liệu thu được thường được chuyển đổi thành độ dồi dào tương đối, hiển thị chúng thành cấu trúc.
- Trong xác suất và thống kê , một phân vùng của không gian lấy mẫu thành các sự kiện rời rạc được mô tả bằng các xác suất được gán cho các sự kiện đó. Vectơ của xác suất D có thể được coi là một hợp thành của D phần. Khi chúng thêm vào một, một xác suất có thể bị loại bỏ và thành phần hoàn toàn được xác định.
- Trong đo lường hóa học , để phân loại dầu mỏ.
- Trong một cuộc khảo sát , tỷ lệ người trả lời tích cực một số mục khác nhau có thể được biểu thị bằng tỷ lệ phần trăm. Vì tổng số tiền được xác định là 100, vectơ tổng hợp của các thành phần D có thể được xác định chỉ bằng cách sử dụng các thành phần D – 1, giả sử rằng thành phần còn lại là phần trăm cần thiết để toàn bộ vectơ thêm vào 100.
Các chuyển đổi tuyến tính
Được tổng hợp với hình bên dưới
Mục đích của chuyển đổi là để sử dụng dữ liệu làm biến phụ thuộc hay độc lập tuỳ vào ý tưởng người phân tích.
Hướng dẫn phân tích đa hợp trên R
R là một phần mềm thống kê dạng command line rất mạnh, về mặt thống kê thì R không có mặt nào kém với Python ( Phải nói là hơn mới đúng); Để phân tích dữ liệu đa hợp trên R chúng ta sử dụng cũng tương đối đơn giản.
Phân tích hậu phân tích đa hợp
- Phân tích hồi quy tuyến tính (OLS)
- Phân tích thành phần chính (PCA)
- Phân tích phân cụm (Cluster Analysis)
Tuỳ vào từng mục đích của phân tích, mà chúng ta áp dụng nhưng phương pháp định lượng khác nhau, nhằm làm sáng tỏ mục tiêu nghiên cứu của mình. Vấn đề này gọi là nghệ thuật của người phân tích.