Mục lục trang:
phân tích dữ liệu là gì ? cách tổng quát dễ hiểu nhất về phân tích dữ liệu, trong phân tích dữ liệu có chỉnh sửa số liệu không ? có làm đẹp dữ liệu không ? hay là có làm sách dữ liệu không ? và nhiều thứ khác nữa chúng ta cần phân tích thêm. Vậy phân tích dữ liệu là gì ?
PHÂN TÍCH DỮ LIỆU LÀ GÌ ?
Phân tích dữ liệu là gì ?
Phân tích dữ liệu là một quá trình kiểm tra, làm sạch , chuyển đổi và mô hình hóa dữ liệu với mục tiêu khám phá thông tin hữu ích, thông báo kết luận và hỗ trợ ra quyết định. Phân tích dữ liệu có nhiều khía cạnh và cách tiếp cận, bao gồm các kỹ thuật đa dạng dưới nhiều tên khác nhau và được sử dụng trong các lĩnh vực kinh doanh, khoa học và khoa học xã hội khác nhau. Trong thế giới kinh doanh ngày nay, phân tích dữ liệu đóng vai trò giúp đưa ra quyết định khoa học hơn và giúp doanh nghiệp hoạt động hiệu quả hơn.
Khai thác dữ liệu là một kỹ thuật phân tích dữ liệu cụ thể tập trung vào mô hình hóa và khám phá kiến thức cho mục đích dự đoán thay vì hoàn toàn mô tả, trong khi kinh doanh thông minh bao gồm phân tích dữ liệu dựa chủ yếu vào tổng hợp, tập trung chủ yếu vào thông tin kinh doanh. Trong các ứng dụng thống kê, phân tích dữ liệu có thể được chia thành thống kê mô tả , phân tích dữ liệu khám phá (EDA) và phân tích dữ liệu xác nhận (CDA). EDA tập trung vào việc khám phá các tính năng mới trong dữ liệu trong khi CDA tập trung vào xác nhận hoặc làm sai lệch các giả thuyết hiện có . Phân tích dự đoántập trung vào việc áp dụng các mô hình thống kê để dự báo hoặc phân loại dự báo, trong khi phân tích văn bản áp dụng các kỹ thuật thống kê, ngôn ngữ và cấu trúc để trích xuất và phân loại thông tin từ các nguồn văn bản, một loại dữ liệu phi cấu trúc . Tất cả các bên trên là giống phân tích dữ liệu.
Tích hợp dữ liệu là tiền thân của phân tích dữ liệu, và phân tích dữ liệu được liên kết chặt chẽ để trực quan hóa dữ liệu và phổ biến dữ liệu. Thuật ngữ phân tích dữ liệu đôi khi được sử dụng như một từ đồng nghĩa cho mô hình hóa dữ liệu.
Rào cản để phân tích hiệu quả
Rào cản để phân tích hiệu quả có thể tồn tại giữa các nhà phân tích thực hiện phân tích dữ liệu hoặc giữa các đối tượng. Phân biệt thực tế từ ý kiến, thành kiến nhận thức và vô số là tất cả những thách thức đối với phân tích dữ liệu âm thanh.
Thực tế và ý kiến khó hiểu
Bạn được quyền theo ý kiến của riêng bạn, nhưng bạn không được quyền với sự thật của riêng bạn.
Daniel Patrick Moynihan
Phân tích hiệu quả đòi hỏi phải có được các sự kiện có liên quan để trả lời các câu hỏi, hỗ trợ kết luận hoặc ý kiến chính thức hoặc các giả thuyết kiểm tra . Các sự kiện theo định nghĩa là không thể bác bỏ, có nghĩa là bất kỳ người nào tham gia phân tích sẽ có thể đồng ý với họ. Ví dụ, vào tháng 8 năm 2010, Văn phòng Ngân sách Quốc hội (CBO) ước tính rằng việc gia hạn cắt giảm thuế của Bush năm 2001 và 2003 trong khoảng thời gian 2011202020 sẽ thêm khoảng 3,3 nghìn tỷ đô la vào nợ quốc gia. [19] Mọi người nên có thể đồng ý rằng thực sự đây là những gì CBO đã báo cáo; tất cả họ có thể kiểm tra báo cáo. Điều này làm cho nó một sự thật. Cho dù những người đồng ý hay không đồng ý với CBO là quan điểm riêng của họ.
Một ví dụ khác, kiểm toán viên của một công ty đại chúng phải đi đến một ý kiến chính thức về việc liệu báo cáo tài chính của các tập đoàn giao dịch công khai có “được nêu rõ, trong tất cả các khía cạnh trọng yếu”. Điều này đòi hỏi phân tích sâu rộng dữ liệu thực tế và bằng chứng để hỗ trợ ý kiến của họ. Khi thực hiện bước nhảy vọt từ sự kiện đến ý kiến, luôn có khả năng ý kiến đó là sai lầm .
Xu hướng nhận thức
Có nhiều khuynh hướng nhận thức có thể ảnh hưởng xấu đến phân tích. Ví dụ, xu hướng xác nhận là xu hướng tìm kiếm hoặc giải thích thông tin theo cách xác nhận định kiến của một người. Ngoài ra, các cá nhân có thể làm mất uy tín thông tin không hỗ trợ quan điểm của họ.
Các nhà phân tích có thể được đào tạo đặc biệt để nhận thức được những thành kiến và cách khắc phục chúng. Trong cuốn sách Tâm lý học phân tích tình báo , nhà phân tích đã nghỉ hưu của CIA, ông Richards Heuer đã viết rằng các nhà phân tích nên phân định rõ ràng các giả định và chuỗi suy luận của họ và chỉ định mức độ và nguồn gốc của sự không chắc chắn liên quan đến kết luận. Ông nhấn mạnh các thủ tục để giúp bề mặt và tranh luận về quan điểm thay thế.
Vô số
Các nhà phân tích hiệu quả thường lão luyện với nhiều kỹ thuật số. Tuy nhiên, khán giả có thể không biết chữ như vậy với số hoặc số ; họ được cho là vô tội Những người truyền đạt dữ liệu cũng có thể đang cố đánh lạc hướng hoặc thông tin sai lệch, cố tình sử dụng các kỹ thuật số xấu.
Ví dụ, cho dù một số tăng hay giảm có thể không phải là yếu tố chính. Quan trọng hơn có thể là số liên quan đến một số khác, chẳng hạn như quy mô thu nhập của chính phủ hoặc chi tiêu liên quan đến quy mô nền kinh tế (GDP) hoặc chi phí liên quan đến doanh thu trong báo cáo tài chính doanh nghiệp. Kỹ thuật số này được gọi là chuẩn hóa [ hoặc kích thước chung. Có nhiều kỹ thuật được các nhà phân tích sử dụng, cho dù điều chỉnh lạm phát (nghĩa là so sánh dữ liệu thực so với dữ liệu danh nghĩa) hoặc xem xét tăng dân số, nhân khẩu học, v.v. Các nhà phân tích áp dụng nhiều kỹ thuật để giải quyết các thông điệp định lượng khác nhau được mô tả trong phần trên.
Các nhà phân tích cũng có thể phân tích dữ liệu theo các giả định hoặc kịch bản khác nhau. Ví dụ: khi các nhà phân tích thực hiện phân tích báo cáo tài chính , họ sẽ thường lấy lại báo cáo tài chính theo các giả định khác nhau để giúp ước tính dòng tiền trong tương lai, sau đó họ chiết khấu giá trị hiện tại dựa trên một số lãi suất, để xác định giá trị công ty hoặc cổ phiếu của nó. Tương tự, CBO phân tích tác động của các lựa chọn chính sách khác nhau đối với doanh thu, chi tiêu và thâm hụt của chính phủ, tạo ra các kịch bản thay thế trong tương lai cho các biện pháp chính./.