Mục lục trang:
các bước phân tích dữ liệu bạn nên biết, các khâu để phân tích dữ liệu thực ra là những bước gì, chúng ta đã thực hiện đúng các bước chưa, nhưng giai đoạn phân tích dữ liệu như thế nào là đúng là chuẩn, nếu mình đã làm có khia nào còn thiếu hay sai cơ bản các bước phân tích dữ liệu không ?
CÁC BƯỚC PHÂN TÍCH DỮ LIỆU
Quá trình các bước phân tích dữ liệu
Sơ đồ quy trình khoa học dữ liệu từ Làm khoa học dữ liệu , bởi Schutt & O’Neil (2013)
Phân tích đề cập đến việc phá vỡ toàn bộ thành các thành phần riêng biệt của nó để kiểm tra cá nhân. Phân tích dữ liệu là một quá trình để có được dữ liệu thô và chuyển đổi nó thành thông tin hữu ích cho người dùng ra quyết định. Dữ liệu được thu thập và phân tích để trả lời các câu hỏi, kiểm tra các giả thuyết hoặc các lý thuyết không được chứng minh.
Nhà thống kê John Tukey đã định nghĩa phân tích dữ liệu vào năm 1961 là: “Thủ tục phân tích dữ liệu, kỹ thuật diễn giải kết quả của các quy trình đó, cách lập kế hoạch thu thập dữ liệu để phân tích dữ liệu dễ dàng hơn, chính xác hơn hoặc chính xác hơn, và tất cả các máy móc và kết quả thống kê (toán học) áp dụng cho việc phân tích dữ liệu. ”
Có một số giai đoạn có thể được phân biệt, được mô tả dưới đây. Các giai đoạn được lặp đi lặp lại, trong đó phản hồi từ các giai đoạn sau có thể dẫn đến công việc bổ sung trong các giai đoạn trước trong các bước phân tích dữ liệu thống kê hợp lý
Yêu cầu dữ liệu
Dữ liệu là cần thiết làm đầu vào cho phân tích, được chỉ định dựa trên yêu cầu của những người chỉ đạo phân tích hoặc khách hàng (những người sẽ sử dụng thành phẩm của phân tích). Loại thực thể chung mà dữ liệu sẽ được thu thập được gọi là một đơn vị thử nghiệm (ví dụ: một người hoặc dân số của mọi người). Các biến cụ thể liên quan đến dân số (ví dụ: tuổi và thu nhập) có thể được chỉ định và thu được. Dữ liệu có thể là số hoặc phân loại (nghĩa là nhãn văn bản cho số).
Thu thập dữ liệu
Dữ liệu được thu thập từ nhiều nguồn khác nhau. Các yêu cầu có thể được các nhà phân tích truyền đạt tới người giám sát dữ liệu, chẳng hạn như nhân viên công nghệ thông tin trong một tổ chức. Dữ liệu cũng có thể được thu thập từ các cảm biến trong môi trường, chẳng hạn như camera giao thông, vệ tinh, thiết bị ghi, v.v. Nó cũng có thể được lấy thông qua các cuộc phỏng vấn, tải xuống từ các nguồn trực tuyến hoặc đọc tài liệu.
Xử lý dữ liệu
Các giai đoạn của chu trình thông minh được sử dụng để chuyển đổi thông tin thô thành trí thông minh hoặc kiến thức có thể hành động tương tự về mặt khái niệm với các giai đoạn trong phân tích dữ liệu.
Dữ liệu thu được ban đầu phải được xử lý hoặc tổ chức để phân tích. Ví dụ, những điều này có thể liên quan đến việc đặt dữ liệu vào các hàng và cột theo định dạng bảng (nghĩa là dữ liệu có cấu trúc ) để phân tích thêm, chẳng hạn như trong bảng tính hoặc phần mềm thống kê.
Làm sạch dữ liệu
Sau khi được xử lý và sắp xếp, dữ liệu có thể không đầy đủ, chứa các bản sao hoặc chứa lỗi. Nhu cầu làm sạch dữ liệu sẽ phát sinh từ các vấn đề trong cách dữ liệu được nhập và lưu trữ. Làm sạch dữ liệu là quá trình ngăn ngừa và sửa chữa các lỗi này. Các tác vụ phổ biến bao gồm đối sánh bản ghi, xác định tính không chính xác của dữ liệu, chất lượng tổng thể của dữ liệu hiện có, [6] sao chép và phân đoạn cột. [7] Những vấn đề dữ liệu như vậy cũng có thể được xác định thông qua nhiều kỹ thuật phân tích. Ví dụ, với thông tin tài chính, tổng số của các biến cụ thể có thể được so sánh với các số được công bố riêng biệt được cho là đáng tin cậy. [số 8]Số tiền bất thường trên hoặc dưới ngưỡng xác định trước cũng có thể được xem xét. Có một số loại làm sạch dữ liệu phụ thuộc vào loại dữ liệu như số điện thoại, địa chỉ email, nhà tuyển dụng, vv Phương pháp dữ liệu định lượng để phát hiện ngoại lệ có thể được sử dụng để loại bỏ dữ liệu nhập sai. Trình kiểm tra chính tả dữ liệu văn bản có thể được sử dụng để giảm bớt số lượng từ sai, nhưng khó hơn để nói nếu các từ đó là chính xác. [9]
Phân tích dữ liệu thăm dò
Một khi dữ liệu được làm sạch, nó có thể được phân tích. Các nhà phân tích có thể áp dụng một loạt các kỹ thuật được gọi là phân tích dữ liệu thăm dò để bắt đầu hiểu các thông điệp có trong dữ liệu. [10] [11] Quá trình thăm dò có thể dẫn đến việc làm sạch dữ liệu bổ sung hoặc yêu cầu bổ sung cho dữ liệu, vì vậy các hoạt động này có thể lặp đi lặp lại trong tự nhiên. Thống kê mô tả , như trung bình hoặc trung bình, có thể được tạo để giúp hiểu dữ liệu. Trực quan hóa dữ liệu cũng có thể được sử dụng để kiểm tra dữ liệu ở định dạng đồ họa, để có được cái nhìn sâu sắc bổ sung về các thông điệp trong dữ liệu.
Mô hình hóa và thuật toán
Các công thức hoặc mô hình toán học được gọi là thuật toán có thể được áp dụng cho dữ liệu để xác định mối quan hệ giữa các biến, chẳng hạn như tương quan hoặc quan hệ nhân quả . Nói chung, các mô hình có thể được phát triển để đánh giá một biến cụ thể trong dữ liệu dựa trên (các) biến khác trong dữ liệu, với một số lỗi còn lại tùy thuộc vào độ chính xác của mô hình (ví dụ: Dữ liệu = Mô hình + Lỗi).
Thống kê suy luận bao gồm các kỹ thuật để đo lường mối quan hệ giữa các biến cụ thể. Ví dụ: phân tích hồi quy có thể được sử dụng để mô hình hóa liệu thay đổi trong quảng cáo (biến độc lập X ) giải thích sự thay đổi trong doanh số (biến phụ thuộc Y ). Theo thuật ngữ toán học, Y (bán hàng) là một chức năng của X (quảng cáo). Nó có thể được mô tả là lỗi Y = aX + b +, trong đó mô hình được thiết kế sao cho a và b giảm thiểu lỗi khi mô hình dự đoán Y cho một phạm vi giá trị X đã cho. Các nhà phân tích có thể cố gắng xây dựng các mô hình mô tả dữ liệu để đơn giản hóa việc phân tích và truyền đạt kết quả.
Sản phẩm dữ liệu
Một sản phẩm dữ liệu là một ứng dụng máy tính nhận dữ liệu đầu vào và tạo đầu ra, đưa chúng trở lại môi trường. Nó có thể dựa trên một mô hình hoặc thuật toán. Một ví dụ là một ứng dụng phân tích dữ liệu về lịch sử mua hàng của khách hàng và khuyến nghị các giao dịch mua khác mà khách hàng có thể được hưởng. [5]
Truyền thông
Trực quan hóa dữ liệu để hiểu kết quả phân tích dữ liệu.
Bài chi tiết: Trực quan hóa dữ liệu
Sau khi dữ liệu được phân tích, nó có thể được báo cáo theo nhiều định dạng cho người dùng phân tích để hỗ trợ các yêu cầu của họ. Người dùng có thể có phản hồi, dẫn đến phân tích bổ sung. Như vậy, phần lớn chu trình phân tích là lặp lại.
Khi xác định cách truyền đạt kết quả, nhà phân tích có thể xem xét các kỹ thuật trực quan hóa dữ liệu để giúp truyền đạt thông điệp rõ ràng và hiệu quả đến khán giả. Trực quan hóa dữ liệu sử dụng hiển thị thông tin (như bảng và biểu đồ) để giúp truyền đạt các thông điệp chính có trong dữ liệu. Các bảng hữu ích cho người dùng có thể tra cứu các số cụ thể, trong khi các biểu đồ (ví dụ: biểu đồ thanh hoặc biểu đồ đường) có thể giúp giải thích các thông báo định lượng có trong dữ liệu.
Quy trình trên là các bước phân tích dữ liệu chuẩn, đã được các nhà nghiên cứu khoa học trên toàn thế giới áp dụng, ngay cả chúng ta có thể cũng sử dụng nhiều bước trong quá trình trên, nhưng thực tế là chúng ta không biết là mình đang trong các bước phân tích dữ liệu nào thôi./.