Mục lục trang:
nhận biết dữ liệu định lượng là một trong những quá trình quan trong khi nghiên cứu khoa học dữ liệu, bộ dữ liệu có các thể hiểu biết được, thì chúng ta mới sử dụng tốt bộ dữ liệu ấy.
NHẬN BIẾT DỮ LIỆU ĐỊNH LƯỢNG
Dữ liệu định lượng
Stephen Few đã mô tả tám loại thông điệp định lượng mà người dùng có thể cố gắng hiểu hoặc giao tiếp từ một tập hợp dữ liệu và các biểu đồ liên quan được sử dụng để giúp truyền đạt thông điệp. Khách hàng chỉ định các yêu cầu và nhà phân tích thực hiện phân tích dữ liệu có thể xem xét các thông báo này trong quá trình xử lý.
Chuỗi thời gian: Một biến duy nhất được nắm bắt trong một khoảng thời gian, chẳng hạn như tỷ lệ thất nghiệp trong khoảng thời gian 10 năm. Một biểu đồ đường có thể được sử dụng để chứng minh xu hướng.
Xếp hạng: Các phân ngành phân loại được xếp theo thứ tự tăng dần hoặc giảm dần, chẳng hạn như xếp hạng hiệu suất bán hàng ( thước đo ) theo nhân viên bán hàng ( danh mục , với mỗi nhân viên bán hàng một phân ngành phân loại ) trong một khoảng thời gian. Một biểu đồ thanh có thể được sử dụng để hiển thị so sánh giữa những người bán hàng.
Một phần cho toàn bộ: Phân chia phân loại được đo theo tỷ lệ cho toàn bộ (nghĩa là tỷ lệ phần trăm trên 100%). Một biểu đồ pie hoặc biểu đồ thanh có thể hiển thị so sánh các tỷ lệ, ví dụ như thị phần đại diện bởi đối thủ cạnh tranh trong một thị trường.
Độ lệch: Các phân ngành phân loại được so sánh với một tham chiếu, chẳng hạn như so sánh chi phí thực tế so với chi phí ngân sách cho một số bộ phận của một doanh nghiệp trong một khoảng thời gian nhất định. Một biểu đồ thanh có thể hiển thị so sánh thực tế so với số tiền tham chiếu.
Tần số phân phối: Hiển thị số lượng các quan sát của một biến đặc biệt đối với khoảng thời gian nhất định, chẳng hạn như số năm trong đó sự trở lại thị trường chứng khoán là giữa chu kỳ như 0-10%, 11-20%, vv Một biểu đồ , một loại biểu đồ thanh, có thể được sử dụng cho phân tích này.
Tương quan: So sánh giữa các quan sát được đại diện bởi hai biến (X, Y) để xác định xem chúng có xu hướng di chuyển theo cùng hướng hay ngược chiều. Ví dụ, âm mưu thất nghiệp (X) và lạm phát (Y) trong một mẫu tháng. Một âm mưu phân tán thường được sử dụng cho thông điệp này.
So sánh danh nghĩa: So sánh các phân mục phân loại không theo thứ tự cụ thể, chẳng hạn như khối lượng bán hàng theo mã sản phẩm. Một biểu đồ thanh có thể được sử dụng để so sánh này.
Địa lý hoặc không gian địa lý: So sánh một biến trên bản đồ hoặc bố cục, chẳng hạn như tỷ lệ thất nghiệp theo tiểu bang hoặc số người trên các tầng khác nhau của tòa nhà. Một bản đồ là một đồ họa điển hình được sử dụng.
Kỹ thuật phân tích dữ liệu định lượng
Tác giả Jonathan Koomey đã khuyến nghị một loạt các thực tiễn tốt nhất để hiểu dữ liệu định lượng.
Bao gồm các:Kiểm tra dữ liệu thô cho sự bất thường trước khi thực hiện phân tích của bạn;Thực hiện lại các tính toán quan trọng, chẳng hạn như xác minh các cột dữ liệu được điều khiển theo công thức;Xác nhận tổng số chính là tổng của tổng phụ; Kiểm tra mối quan hệ giữa các con số nên liên quan theo cách có thể dự đoán được, chẳng hạn như tỷ lệ theo thời gian; Bình thường hóa các con số để làm cho việc so sánh dễ dàng hơn, chẳng hạn như phân tích số tiền trên mỗi người hoặc liên quan đến GDP hoặc dưới dạng giá trị chỉ số so với năm gốc;Chia các vấn đề thành các bộ phận thành phần bằng cách phân tích các yếu tố dẫn đến kết quả, chẳng hạn như phân tích DuPont về lợi nhuận trên vốn chủ sở hữu. Đối với các biến được kiểm tra, các nhà phân tích thường thu được số liệu thống kê mô tả cho chúng, chẳng hạn như giá trị trung bình (trung bình), trung bình và độ lệch chuẩn . Họ cũng có thể phân tích phân phối các biến chính để xem cách các giá trị riêng lẻ tập trung quanh giá trị trung bình.
Một minh họa về nguyên tắc MECE được sử dụng để nhận biết dữ liệu định lượng.
Các chuyên gia tư vấn tại McKinsey và Company đã đặt tên cho một kỹ thuật phá vỡ một vấn đề định lượng thành các bộ phận cấu thành của nó được gọi là nguyên tắc MECE . Mỗi lớp có thể được chia thành các thành phần của nó; mỗi người trong số các tiểu hợp phần phải loại trừ lẫn nhau lẫn nhau và chung thêm đến các lớp ở trên chúng. Mối quan hệ được gọi là “Hoàn toàn loại trừ lẫn nhau và toàn diện” hay MECE. Ví dụ: lợi nhuận theo định nghĩa có thể được chia thành tổng doanh thu và tổng chi phí. Đổi lại, tổng doanh thu có thể được phân tích bởi các thành phần của nó, chẳng hạn như doanh thu của các bộ phận A, B và C (loại trừ lẫn nhau) và nên thêm vào tổng doanh thu (toàn bộ tổng thể).
Các nhà phân tích có thể sử dụng các phép đo thống kê mạnh mẽ để giải quyết các vấn đề phân tích nhất định. Kiểm tra giả thuyết được sử dụng khi một giả thuyết cụ thể về tình trạng thực sự được đưa ra bởi nhà phân tích và dữ liệu được thu thập để xác định xem tình trạng đó là đúng hay sai. Ví dụ, giả thuyết có thể là “Thất nghiệp không ảnh hưởng đến lạm phát”, liên quan đến một khái niệm kinh tế gọi là Đường cong Phillips . Kiểm tra giả thuyết liên quan đến việc xem xét khả năng xảy ra lỗi Loại I và Loại II , liên quan đến việc dữ liệu có hỗ trợ chấp nhận hoặc từ chối giả thuyết hay không.
Phân tích hồi quy có thể được sử dụng khi nhà phân tích đang cố gắng xác định mức độ mà biến độc lập X ảnh hưởng đến biến phụ thuộc Y (ví dụ: “Mức độ thay đổi của tỷ lệ thất nghiệp (X) ảnh hưởng đến tỷ lệ lạm phát (Y) ở mức độ nào?”). Đây là một nỗ lực để mô hình hóa hoặc khớp một đường phương trình hoặc đường cong với dữ liệu, sao cho Y là một hàm của X.
Phân tích điều kiện cần thiết (NCA) có thể được sử dụng khi nhà phân tích đang cố gắng xác định mức độ mà biến độc lập X cho phép biến Y (ví dụ: “Tỷ lệ thất nghiệp nhất định (X) ở mức độ nào là cần thiết cho một tỷ lệ lạm phát nhất định (Y) ? “). Trong khi phân tích hồi quy (nhiều) sử dụng logic cộng, trong đó mỗi biến X có thể tạo ra kết quả và các X có thể bù cho nhau (chúng là đủ nhưng không cần thiết), phân tích điều kiện cần thiết (NCA) sử dụng logic cần thiết, trong đó một hoặc nhiều X -Các biến cho phép kết quả tồn tại, nhưng có thể không tạo ra nó (chúng là cần thiết nhưng không đủ). Mỗi điều kiện cần thiết phải có mặt và không thể bồi thường.
Nhận biết dữ liệu định lượng mà một phần quan trọng trong phân tích dữ liệu của khoa học dữ liệu hiện đại./.